欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解如何用Java去除HTML標(biāo)簽

 更新時(shí)間:2022年12月02日 10:31:44   作者:指北君  
在平時(shí)工作中,偶爾會(huì)用 Java 做一些解析HTML的工作。有時(shí)需要?jiǎng)h除所有的HTML標(biāo)簽,只保留純文字內(nèi)容。這個(gè)問題在做過一些爬蟲工作的朋友來說很簡(jiǎn)單。下面來說說,我們平時(shí)使用到的集中解析的方法

在我平時(shí)的工作中,偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽,只保留純文字內(nèi)容。這個(gè)問題在做過一些爬蟲工作的朋友來說很簡(jiǎn)單。下面來說說,我們平時(shí)使用到的集中解析的方法。

使用正則表達(dá)式

通過爬蟲爬到的HTML內(nèi)容,從程序角度來講,就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來處理。

我們?cè)谧鑫谋咎幚淼臅r(shí)候,第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML,對(duì)于正則來說,還是比較簡(jiǎn)單的。畢竟還是有固定的格式,比如“<...>”。

我們常用的的正則就是 <[^>]> 或者 <.*?> 。

我們?cè)谑褂谜齽t的時(shí)候,需要注意的是正則默認(rèn)是貪婪匹配。也就是說,正則表達(dá)式 <.*> 能夠匹配到更多的HTML內(nèi)容,而不是單個(gè)標(biāo)簽。

現(xiàn)在,讓我們測(cè)試一下它是否能從HTML源中刪除標(biāo)簽。

正則測(cè)試刪除標(biāo)簽1

在我們測(cè)試刪除HTML標(biāo)簽之前,首先讓我們創(chuàng)建一個(gè)HTML例子,例如example1.html。

<!DOCTYPE?html>
<html>
<head>
????<title>這是標(biāo)題</title>
</head>
<body>
????<p>
????????如果應(yīng)用程序X沒有啟動(dòng),可能的原因是<br/>
????????1.?<a? rel="external nofollow" >Maven</a>沒有安裝<br/>
????????2.?磁盤空間不足<br/>
????????3.?內(nèi)存不足
????</p>
</body>
</html>

現(xiàn)在,讓我們寫一個(gè)測(cè)試,用String.replaceAll()來刪除HTML標(biāo)簽。

String?html?=?...?//?load?example1.html
String?result?=?html.replaceAll("<[^>]`>",?"");
System.out.println(result);

如果我們運(yùn)行這個(gè)測(cè)試方法,我們會(huì)看到結(jié)果。

    這是標(biāo)題

        如果應(yīng)用程序X沒有啟動(dòng),可能的原因是
        1.Maven沒有安裝
        2.磁盤空間不足
        3.沒有足夠的內(nèi)存

輸出結(jié)果保留了剝離后的HTML的空白處。我們?cè)谔幚硖崛〉奈谋緯r(shí),可以很容易地刪除或跳過這些空行或空白處。

正則測(cè)試刪除標(biāo)簽2

我們剛才已經(jīng)看到了,通過使用Regex來刪除HTML標(biāo)簽是非常簡(jiǎn)單。但是粗暴的使用這種方法會(huì)有很多問題,我們不能預(yù)測(cè)最終的結(jié)果會(huì)是怎么樣的。

例如,一個(gè)HTML文檔可能有<script><style>標(biāo)簽,而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。

此外,<script>、<style>、甚至是<body>標(biāo)簽中的文本可能包含 <或 >字符。如果是這種情況,我們的正則方法可能會(huì)出錯(cuò)。

現(xiàn)在,讓我們看看另一個(gè)例子,比如example2.html。

<!DOCTYPE?HTML>
<html>
<head>
????<title>這是標(biāo)題</title>
</head>
<script>
????//?some?js?function
</script>
<body>
????<p>
????????如果應(yīng)用程序X沒有啟動(dòng),可能的原因是<br/>
????????1.?<a
????????????id="link"
???????????? rel="external nofollow" >
????????????Maven
????????????</a>?沒有安裝<br/>
????????2.?磁盤空間不足?(<1G)?<br/>
????????3.?內(nèi)存不足(<64MB)<br/>
????</p>
</body>
</html>

現(xiàn)在我們有一個(gè)<script>標(biāo)簽和 <字符在<body>標(biāo)簽內(nèi)。

如果我們對(duì)example2.html使用同樣的方法,我們會(huì)得到如下內(nèi)容。

   這是標(biāo)題
    // some js function
        如果應(yīng)用程序X沒有啟動(dòng),可能的原因是
        1. 
            Maven
             沒有安裝
        2. 磁盤空間不足 (
        3. 內(nèi)存不足(

顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復(fù)雜的場(chǎng)景。

使用Jsoup

Jsoup 是一個(gè)流行的HTML解析庫,如果想要從一個(gè)HTML文檔中提取文本,我們可以簡(jiǎn)單地調(diào)用Jsoup.parse(htmlString).text()。

在項(xiàng)目中使用的時(shí)候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

<dependency>
????<groupId>org.jsoup</groupId>
????<artifactId>jsoup</artifactId>
????<version>1.14.3</version>
</dependency>

我們用 example2.html來測(cè)試一下。

String?html?=?...?//?load?example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個(gè)方法運(yùn)行,它就會(huì)打印出來。

這是標(biāo)題 如果應(yīng)用程序X沒有啟動(dòng),可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內(nèi)存

從輸出結(jié)果可知,Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經(jīng)被忽略了。

此外,默認(rèn)情況下,Jsoup會(huì)刪除所有的文本格式和空白處,比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個(gè)HTML解析庫。

首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
????<groupId>net.sourceforge.htmlcleaner</groupId>
????<artifactId>htmlcleaner</artifactId>
????<version>2.25</version>
</dependency>

我們可以設(shè)置[各種參數(shù)](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們?cè)谶@里使用HTMLCleaner在解析example2.html時(shí)跳過<script>元素。

String?html?=?...?//?load?example2.html
CleanerProperties?props?=?new?CleanerProperties();
props.setPruneTags("script");
String?result?=?new?HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運(yùn)行一下,HTMLCleaner將產(chǎn)生這樣的輸出。

這是標(biāo)題


        如果應(yīng)用程序X沒有啟動(dòng),可能的原因是:
        1.Maven沒有安裝
        2.沒有足夠的(<1G)磁盤空間
        3.內(nèi)存不足(<64MB)

我們可以看到,<script>元素中的內(nèi)容被忽略了, <br/>標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內(nèi)容。

總結(jié)

在這篇文章中,我們學(xué)習(xí)了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

到此這篇關(guān)于詳解如何用Java去除HTML標(biāo)簽的文章就介紹到這了,更多相關(guān)Java去除HTML標(biāo)簽內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Java基礎(chǔ)之Web服務(wù)器與Http詳解

    Java基礎(chǔ)之Web服務(wù)器與Http詳解

    無論你是前端開發(fā)者還是后端開發(fā)者,以及測(cè)試工程師,這篇文章的知識(shí)都是你需要弄懂的。讀完這一篇文章,將全面弄懂 HTTP 協(xié)議、TCP 協(xié)議,面試官再也難不倒你相關(guān)知識(shí)
    2021-09-09
  • Java并發(fā)編程中的CyclicBarrier使用解析

    Java并發(fā)編程中的CyclicBarrier使用解析

    這篇文章主要介紹了Java并發(fā)編程中的CyclicBarrier使用解析,CyclicBarrier從字面意思上來看,循環(huán)柵欄,這篇文章就來分析下是到底是如何實(shí)現(xiàn)循環(huán)和柵欄的,需要的朋友可以參考下
    2023-12-12
  • 利用Java讀取二進(jìn)制文件實(shí)例詳解

    利用Java讀取二進(jìn)制文件實(shí)例詳解

    這篇文章主要給大家介紹了利用Java讀取二進(jìn)制文件的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者使用java具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面跟著小編來一起學(xué)習(xí)學(xué)習(xí)吧。
    2017-08-08
  • java反射使用示例分享

    java反射使用示例分享

    這篇文章主要介紹了java反射使用示例,代碼很簡(jiǎn)單,需要的朋友可以參考下
    2014-02-02
  • mybatis-plus多表關(guān)聯(lián)查詢功能的實(shí)現(xiàn)

    mybatis-plus多表關(guān)聯(lián)查詢功能的實(shí)現(xiàn)

    本文給大家介紹mybatis-plus多表關(guān)聯(lián)查詢功能的實(shí)現(xiàn)代碼,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2021-11-11
  • SpringBoot+easypoi實(shí)現(xiàn)數(shù)據(jù)的Excel導(dǎo)出

    SpringBoot+easypoi實(shí)現(xiàn)數(shù)據(jù)的Excel導(dǎo)出

    這篇文章主要為大家詳細(xì)介紹了SpringBoot+easypoi實(shí)現(xiàn)數(shù)據(jù)的Excel導(dǎo)出,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-05-05
  • Java 替換字符串中的回車換行符的方法

    Java 替換字符串中的回車換行符的方法

    Java 替換字符串中的回車換行符的方法,需要的朋友可以參考一下
    2013-03-03
  • java中的匿名內(nèi)部類總結(jié)

    java中的匿名內(nèi)部類總結(jié)

    這篇文章主要介紹了 java中的匿名內(nèi)部類總結(jié)的相關(guān)資料,希望通過本文能幫助到大家,需要的朋友可以參考下
    2017-09-09
  • MyBatisPlus自定義SQL的實(shí)現(xiàn)

    MyBatisPlus自定義SQL的實(shí)現(xiàn)

    MyBatisPlus提供了自定義SQL功能,允許開發(fā)者在Mapper接口中定義方法,并通過XML文件或注解編寫SQL語句,本文詳解了如何在MP中使用自定義SQL,感興趣的可以了解一下
    2024-09-09
  • Java 批量獲取地址間距離工具(支持中轉(zhuǎn)站)

    Java 批量獲取地址間距離工具(支持中轉(zhuǎn)站)

    本文主要介紹了Java批量獲取地址間距離,獲取兩個(gè)地址間距離,實(shí)現(xiàn)方式比較多,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-07-07

最新評(píng)論