詳解如何用Java去除HTML標簽
在我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內(nèi)容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。
使用正則表達式
通過爬蟲爬到的HTML內(nèi)容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。
我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。
我們常用的的正則就是 <[^>]>
或者 <.*?>
。
我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式 <.*>
能夠匹配到更多的HTML內(nèi)容,而不是單個標簽。
現(xiàn)在,讓我們測試一下它是否能從HTML源中刪除標簽。
正則測試刪除標簽1
在我們測試刪除HTML標簽之前,首先讓我們創(chuàng)建一個HTML例子,例如example1.html
。
<!DOCTYPE?html> <html> <head> ????<title>這是標題</title> </head> <body> ????<p> ????????如果應用程序X沒有啟動,可能的原因是<br/> ????????1.?<a? rel="external nofollow" >Maven</a>沒有安裝<br/> ????????2.?磁盤空間不足<br/> ????????3.?內(nèi)存不足 ????</p> </body> </html>
現(xiàn)在,讓我們寫一個測試,用String.replaceAll()
來刪除HTML標簽。
String?html?=?...?//?load?example1.html String?result?=?html.replaceAll("<[^>]`>",?""); System.out.println(result);
如果我們運行這個測試方法,我們會看到結(jié)果。
這是標題
如果應用程序X沒有啟動,可能的原因是
1.Maven沒有安裝
2.磁盤空間不足
3.沒有足夠的內(nèi)存
輸出結(jié)果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。
正則測試刪除標簽2
我們剛才已經(jīng)看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結(jié)果會是怎么樣的。
例如,一個HTML文檔可能有<script>
或<style>
標簽,而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。
此外,<script>
、<style>
、甚至是<body>
標簽中的文本可能包含 <
或 >
字符。如果是這種情況,我們的正則方法可能會出錯。
現(xiàn)在,讓我們看看另一個例子,比如example2.html
。
<!DOCTYPE?HTML> <html> <head> ????<title>這是標題</title> </head> <script> ????//?some?js?function </script> <body> ????<p> ????????如果應用程序X沒有啟動,可能的原因是<br/> ????????1.?<a ????????????id="link" ???????????? rel="external nofollow" > ????????????Maven ????????????</a>?沒有安裝<br/> ????????2.?磁盤空間不足?(<1G)?<br/> ????????3.?內(nèi)存不足(<64MB)<br/> ????</p> </body> </html>
現(xiàn)在我們有一個<script>
標簽和 <
字符在<body>
標簽內(nèi)。
如果我們對example2.html
使用同樣的方法,我們會得到如下內(nèi)容。
這是標題
// some js function
如果應用程序X沒有啟動,可能的原因是
1.
Maven
沒有安裝
2. 磁盤空間不足 (
3. 內(nèi)存不足(
顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。
使用Jsoup
Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調(diào)用Jsoup.parse(htmlString).text()
。
在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。
<dependency> ????<groupId>org.jsoup</groupId> ????<artifactId>jsoup</artifactId> ????<version>1.14.3</version> </dependency>
我們用 example2.html
來測試一下。
String?html?=?...?//?load?example2.html System.out.println(Jsoup.parse(html).text());
如果我們讓這個方法運行,它就會打印出來。
這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內(nèi)存
從輸出結(jié)果可知,Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外,<script>
元素中的文本已經(jīng)被忽略了。
此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。
使用HTMLCleaner
HTMLCleaner 也是一個HTML解析庫。
首先,我們需要在pom.xml
中添加HTMLCleaner 依賴。
<dependency> ????<groupId>net.sourceforge.htmlcleaner</groupId> ????<artifactId>htmlcleaner</artifactId> ????<version>2.25</version> </dependency>
我們可以設置[各種參數(shù)](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html
時跳過<script>
元素。
String?html?=?...?//?load?example2.html CleanerProperties?props?=?new?CleanerProperties(); props.setPruneTags("script"); String?result?=?new?HtmlCleaner(props).clean(html).getText().toString(); System.out.println(result);
運行一下,HTMLCleaner將產(chǎn)生這樣的輸出。
這是標題
如果應用程序X沒有啟動,可能的原因是:
1.Maven沒有安裝
2.沒有足夠的(<1G)磁盤空間
3.內(nèi)存不足(<64MB)
我們可以看到,<script>
元素中的內(nèi)容被忽略了, <br/>
標簽轉(zhuǎn)換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內(nèi)容。
總結(jié)
在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。
到此這篇關于詳解如何用Java去除HTML標簽的文章就介紹到這了,更多相關Java去除HTML標簽內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Java并發(fā)編程中的CyclicBarrier使用解析
這篇文章主要介紹了Java并發(fā)編程中的CyclicBarrier使用解析,CyclicBarrier從字面意思上來看,循環(huán)柵欄,這篇文章就來分析下是到底是如何實現(xiàn)循環(huán)和柵欄的,需要的朋友可以參考下2023-12-12mybatis-plus多表關聯(lián)查詢功能的實現(xiàn)
本文給大家介紹mybatis-plus多表關聯(lián)查詢功能的實現(xiàn)代碼,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友參考下吧2021-11-11SpringBoot+easypoi實現(xiàn)數(shù)據(jù)的Excel導出
這篇文章主要為大家詳細介紹了SpringBoot+easypoi實現(xiàn)數(shù)據(jù)的Excel導出,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-05-05Java 批量獲取地址間距離工具(支持中轉(zhuǎn)站)
本文主要介紹了Java批量獲取地址間距離,獲取兩個地址間距離,實現(xiàn)方式比較多,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-07-07