快捷導(dǎo)航

什么是jsoup及jsoup的使用

更新時(shí)間：2023年10月10日 15:06:41 作者：ThinkStu

jsoup是一款基于Java的HTML解析器,它提供了一套非常省力的API,不但能直接解析某個(gè)URL地址、HTML文本內(nèi)容,而且還能通過類似于DOM、CSS或者jQuery的方法來操作數(shù)據(jù),所以?jsoup?也可以被當(dāng)做爬蟲工具使用,這篇文章主要介紹了什么是jsoup及jsoup的使用,需要的朋友可以參考下

一、jsoup概述

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某個(gè)URL地址、HTML文本內(nèi)容，而且還能通過類似于DOM、CSS或者jQuery的方法來操作數(shù)據(jù)，所以 jsoup 也可以被當(dāng)做爬蟲工具使用。

二、相關(guān)概念簡(jiǎn)介

Document ：文檔對(duì)象。每份HTML頁(yè)面都是一個(gè)文檔對(duì)象，Document 是 jsoup 體系中最頂層的結(jié)構(gòu)。
Element：元素對(duì)象。一個(gè) Document 中可以著包含著多個(gè) Element 對(duì)象，可以使用 Element 對(duì)象來遍歷節(jié)點(diǎn)提取數(shù)據(jù)或者直接操作HTML。
Elements：元素對(duì)象集合，類似于List<Element>。
Node：節(jié)點(diǎn)對(duì)象。標(biāo)簽名稱、屬性等都是節(jié)點(diǎn)對(duì)象，節(jié)點(diǎn)對(duì)象用來存儲(chǔ)數(shù)據(jù)。
類繼承關(guān)系：Document 繼承自 Element ，Element 繼承自 Node。
一般執(zhí)行流程：先獲取 Document 對(duì)象，然后獲取 Element 對(duì)象，最后再通過 Node 對(duì)象獲取數(shù)據(jù)。

三、獲取文檔（Document）

獲得文檔對(duì)象 Document 一共有4種方法，分別對(duì)應(yīng)不同的獲取方式。

正式開始之前，我們需要導(dǎo)入有關(guān) jar 包。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.1</version>
</dependency>

–

3.1）從URL中加載文檔對(duì)象（常用）

使用 Jsoup.connect(String url).get()方法獲取（只支持 http 和 https 協(xié)議）:

Document doc = Jsoup.connect("http://csdn.com/").get();
String title = doc.title();
System.out.println(title);

connect(String url)方法創(chuàng)建一個(gè)新的 Connection并通過.get()或者.post()方法獲得數(shù)據(jù)。如果從該URL獲取HTML時(shí)發(fā)生錯(cuò)誤，便會(huì)拋出 IOException，應(yīng)適當(dāng)處理。

Connection 接口還提供一個(gè)方法鏈來解決特殊請(qǐng)求，我們可以在發(fā)送請(qǐng)求時(shí)帶上請(qǐng)求的頭部參數(shù)，具體如下：

Document doc = Jsoup.connect("http://csdn.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(8000)
  .post();
  System.out.println(doc);

想獲得完整的響應(yīng)對(duì)象和響應(yīng)碼？我們可以使用execute()方法：

// 獲得響應(yīng)對(duì)象
Connection.Response response = Jsoup.connect("http://csdn.com").execute();
int                 code     = response.statusCode();
// 輸出狀態(tài)碼：200
System.out.println(code);

–

3.2）從本地文件中加載文檔對(duì)象

可以使用靜態(tài)的Jsoup.parse(File in, String charsetName) 方法從文件中加載文檔。其中in表示路徑，charsetName表示編碼方式，示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8");
System.out.println(doc);

–

3.3）從字符串文本中加載文檔對(duì)象

使用靜態(tài)的Jsoup.parse(String html) 方法可以從字符串文本中獲得文檔對(duì)象 Document ，示例代碼：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
System.out.println(doc);

–

3.4）從<body>片斷中獲取文檔對(duì)象

使用Jsoup.parseBodyFragment(String html)方法.

String html = "<p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
// doc 此時(shí)為：<body> <p>Lorem ipsum.</p></body>
Element body = doc.body();
System.out.println(body);

parseBodyFragment 方法創(chuàng)建一個(gè)新的文檔，并插入解析過的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常也能得到相同的結(jié)果，但是明確將用戶輸入作為 body 片段處理是個(gè)更好的方式。

Document.body() 方法能夠取得文檔body元素的所有子元素，與 doc.getElementsByTag("body")相同。

四、選擇元素（Element）

解析文檔對(duì)象并獲取數(shù)據(jù)一共有 2 種方式，分別為 DOM方式、CSS選擇器方式，我們可以選擇一種自己喜歡的方式去獲取數(shù)據(jù)，效果一樣。

4.1）DOM方式

將HTML解析成一個(gè)Document之后，就可以使用類似于DOM的方法進(jìn)行操作。

// 獲取csdn首頁(yè)所有的鏈接
Document doc       = Jsoup.connect("http://csdn.com").get();
Elements elements  = doc.getElementsByTag("body");
Elements contents  = elements.first().getElementsByTag("a");
for (Element content : contents) {
    String linkHref = content.attr("href");
    String linkText = content.text();
    System.out.print(linkText+"\t");
    System.out.println(linkHref);
}

說明

Elements這個(gè)對(duì)象提供了一系列類似于DOM的方法來查找元素，抽取并處理其中的數(shù)據(jù)。具體如下：

4.1.1）查找元素

getElementById(String id)：通過id來查找元素
getElementsByTag(String tag)：通過標(biāo)簽來查找元素
getElementsByClass(String className)：通過類選擇器來查找元素
getElementsByAttribute(String key) ：通過屬性名稱來查找元素，例如查找?guī)в衕ref元素的標(biāo)簽。
siblingElements()：獲取兄弟元素。如果元素沒有兄弟元素，則返回一個(gè)空列表。
firstElementSibling()：獲取第一個(gè)兄弟元素。
lastElementSibling()：獲取最后一個(gè)兄弟元素。
nextElementSibling()：獲取下一個(gè)兄弟元素。
previousElementSibling()：獲取上一個(gè)兄弟元素。
parent()：獲取此節(jié)點(diǎn)的父節(jié)點(diǎn)。
children()：獲取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)。
child(int index)：獲取此節(jié)點(diǎn)的指定子節(jié)點(diǎn)。

4.1.2）獲取元素?cái)?shù)據(jù)

attr(String key)：獲取單個(gè)屬性值
attributes()：獲取所有屬性值
attr(String key, String value)：設(shè)置屬性值
text()：獲取文本內(nèi)容
text(String value)：設(shè)置文本內(nèi)容
html()：獲取元素內(nèi)的HTML內(nèi)容
html(String value)：設(shè)置元素內(nèi)的HTML內(nèi)容
outerHtml()：獲取元素外HTML內(nèi)容
data()：獲取數(shù)據(jù)內(nèi)容（例如：script和style標(biāo)簽)
id()：獲得id值（例：衣服）
className()：獲得第一個(gè)類選擇器值
classNames()：獲得所有的類選擇器值
tag()：獲取元素標(biāo)簽
tagName()：獲取元素標(biāo)簽名（如：、<div>等）

4.1.3）操作HTML文本

append(String html)：在末尾追加HTML文本prepend(String html)：在開頭追加HTML文本html(String value)：在匹配元素內(nèi)部添加HTML文本。

–

4.2）CSS選擇器方式

可以使用類似于CSS選擇器的語(yǔ)法來查找和操作元素，常用的方法為select(String selector)。

Document doc = Jsoup.connect("http://csdn.com").get();
// 獲取帶有 href 屬性的 a 元素
Elements elements = doc.select("a[href]");
for (Element content : elements) {
    String linkHref = content.attr("href");
    String linkText = content.text();
    System.out.print(linkText + "\t");
    System.out.println(linkHref);
}

4.2.1）說明

select()方法在Document、Element或Elements對(duì)象中都可以使用，而且是上下文相關(guān)的，因此可實(shí)現(xiàn)指定元素的過濾，或者采用鏈?zhǔn)皆L問。

select() 方法將返回一個(gè)Elements集合，并提供一組方法來抽取和處理結(jié)果。

4.2.2）select(String selector)方法參數(shù)簡(jiǎn)介

tagname: 通過標(biāo)簽查找元素，例如通過"a"來查找<a>標(biāo)簽。
#id: 通過ID查找元素，比如通過#logo查找。
.class: 通過class名稱查找元素，比如通過.titile查找。
ns|tag: 通過標(biāo)簽在命名空間查找元素，比如使用 fb|name 來查找 <fb:name> 。
[attribute]: 利用屬性查找元素，比如通過[href]查找<a href="...">。
[^attribute]: 利用屬性名前綴來查找元素，比如：可以用[^data-] 來查找?guī)в蠬TML5 dataset屬性的元素。
[attribute=value]: 利用屬性值來查找元素，比如：[width=500]。[attribute^=value], [attribute$=value], [attribute*=value]: 利用匹配屬性值開頭、結(jié)尾或包含屬性值來查找元素，比如通過[href*=/path/]來查找<a href="a/path/c.html">。
[attribute~=regex]: 利用屬性值匹配正則表達(dá)式來查找元素，比如通過 img[src~=(?i)\.(png|jpe?g)]來匹配所有的png或者jpg、jpeg格式的圖片。
*: 通配符，匹配所有元素。

4.2.3）參數(shù)屬性組合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如 a[href]匹配所有帶有 href 屬性的 a 元素。任意組合，比如：a[href].highlight匹配所有帶有 href 屬性且class="highlight"的 a 元素。
ancestor child: 查找某個(gè)元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某個(gè)父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body標(biāo)簽下所有直接子元素siblingA + siblingB: 查找在A元素之前第一個(gè)同級(jí)元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級(jí)X元素，比如：h1 ~ p
el, el, el:多個(gè)選擇器組合，查找匹配任一選擇器的唯一元素，例如：div.masthead, div.logo

4.2.4）特殊參數(shù)：偽選擇器

:lt(n): 查找哪些元素的同級(jí)索引值（它的位置在DOM樹中是相對(duì)于它的父節(jié)點(diǎn)）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同級(jí)索引值大于n``，比如： div p:gt(2)表示哪些div中有包含2個(gè)以上的p元素
:eq(n): 查找哪些元素的同級(jí)索引值與n相等，比如：form input:eq(1)表示包含一個(gè)input標(biāo)簽的Form元素
:has(seletor): 查找匹配選擇器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找與選擇器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含給定文本的元素，搜索不區(qū)分大不寫，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含給定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正則表達(dá)式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正則表達(dá)式的元素注意：上述偽選擇器索引是從0開始的，也就是說第一個(gè)元素索引值為0，第二個(gè)元素index為1等

五、獲取數(shù)據(jù)（Node）

在獲得文檔對(duì)象并且指定查找元素后，我們就可以獲取元素中的數(shù)據(jù)。
這些訪問器方法都有相應(yīng)的setter方法來更改數(shù)據(jù)。

.attr(String key) ：獲得屬性的值。
.text()：獲得元素中的文本。
.html()：獲得元素或?qū)傩?strong>內(nèi)部的HTML內(nèi)容（不包括本身）。
.outerHtml()：獲得元素或?qū)傩?strong>完整的HTML內(nèi)容。
.id()：獲得元素id屬性值。
className()：獲得元素類選擇器值。
.tagName()：獲得元素標(biāo)簽命名。
.hasClass(String className)：檢查這個(gè)元素是否含有一個(gè)類選擇器（不區(qū)分大小寫）。

String   html = "<p><a ><b>example</b></a> link.</p>";
Document doc  = Jsoup.parse(html);
// 查找第一個(gè)<a>元素
Element link = doc.select("a").first();
// 輸出：example
String text     = link.text();
// 輸出：http://csdn.com/
String href = link.attr("href");
// 輸出：<b>example</b>
String aHtml     = link.outerHtml();
// 輸出：<a ><b>example</b></a>
String aOuterHtml     = link.outerHtml();

–

六、修改數(shù)據(jù)

在解析了一個(gè)Document對(duì)象之后，你可能想修改其中的某些屬性值，并把它輸出到前臺(tái)頁(yè)面或保存到其他地方，jsoup對(duì)此提供了一套非常簡(jiǎn)便的接口（支持鏈?zhǔn)綄懛ǎ?/p>

6.1）設(shè)置屬性的值

當(dāng)以下方法針對(duì)Element對(duì)象操作時(shí)，只有一個(gè)元素會(huì)受到影響。當(dāng)針對(duì)Elements對(duì)象進(jìn)行操作時(shí)，可能會(huì)影響到多個(gè)元素。

.attr(String key, String value)：設(shè)置標(biāo)簽的屬性值。
.addClass(String className)：增加類選擇器選項(xiàng)
.removeClass(String className)：刪除對(duì)應(yīng)的類選擇器

Document doc = Jsoup.connect("http://csdn.com").get();
// 復(fù)數(shù)，Elements
Elements elements = doc.getElementsByClass("text");
// 單數(shù)，Element
Element element = elements.first();
// 復(fù)數(shù)對(duì)象，所有 class="text" 的元素都將受到影響
elements.attr("name","goods");
// 單數(shù)對(duì)象，只有一個(gè)元素會(huì)受到影響（鏈?zhǔn)綄懛ǎ?
element.attr("name","shop")
        .addClass("red");

6.2）修改元素的HTML內(nèi)容

可以使用Element中的HTML設(shè)置方法具體如下：

.html(String value)：這個(gè)方法將先清除元素中的HTML內(nèi)容，然后用傳入的HTML代替。
.prepend(String value)：在元素前添加html內(nèi)容。
.append(String value)：在元素后添加html內(nèi)容。
.wrap(String value)：對(duì)元素包裹一個(gè)外部HTML內(nèi)容，將元素置于新增的內(nèi)容中間。

Document doc = Jsoup.connect("http://csdn.com").get();
Element div = doc.select("div").first();
div.html("<p>csdn</p>");
div.prepend("<p>a</p>");
div.append("<p>good</p>");
// 輸出：<div"> <p>a</p> <p>csdn</p> <p>good</p> </div>
Element span = doc.select("span").first();
span.wrap("<li><a href='...'></a></li>");
// 輸出: <li><a href="..." rel="external nofollow" > <span>csdn</span> </a></li>

6.3）修改元素的文本內(nèi)容

對(duì)于傳入的文本，如果含有像 <, > 等這樣的字符，將以文本處理，而非HTML。

.text(String text) ：清除元素內(nèi)部的HTML內(nèi)容，然后用提供的文本代替。
.prepend(String first)：在元素后添加文本節(jié)點(diǎn)。
Element.append(String last)：在元素前添加文本節(jié)點(diǎn)。

 // <div></div>
Element div = doc.select("div").first();
div.text(" one "); 
div.prepend(" two ");
div.append(" three ");
// 輸出: <div> two one three </div>

七、其他功能

7.1）相對(duì)路徑轉(zhuǎn)絕對(duì)路徑

問題描述：
你有一個(gè)包含相對(duì)URLs路徑的HTML文檔，現(xiàn)在需要將這些相對(duì)路徑轉(zhuǎn)換成絕對(duì)路徑的URLs。

解決方式：

確保在你解析文檔時(shí)有指定base URI路徑。
然后使用 abs: 屬性前綴來取得包含base URI的絕對(duì)路徑。代碼如下：

Document doc = Jsoup.connect("http://www.open-open.com").get();
Element link = doc.select("a").first();
// 輸出：/
String relHref = link.attr("href");
// 輸出：http://www.open-open.com/
String absHref = link.attr("abs:href");

說明：

在HTML元素中，URLs經(jīng)常寫成相對(duì)于文檔位置的相對(duì)路徑，如：<a href="/download">...</a>。當(dāng)你使用 .attr(String key) 方法來取得a元素的href屬性時(shí)，它將直接返回在HTML源碼中指定的值。

假如你需要取得一個(gè)絕對(duì)路徑，需要在屬性名前加 abs: 前綴，這樣就可以返回包含根路徑的URL地址attr("abs:href")。因此在解析HTML文檔時(shí)，定義base URI非常重要。

如果你不想使用abs: 前綴，還有一個(gè)方法能夠?qū)崿F(xiàn)同樣的功能 .absUrl(String key)。

–

7.2）消除不受信任的HTML (防止XSS攻擊)

問題描述：

在某些網(wǎng)站中經(jīng)常會(huì)提供用戶評(píng)論的功能，但是有些不懷好意的用戶，會(huì)搞一些腳本到評(píng)論內(nèi)容中，而這些腳本可能會(huì)破壞整個(gè)頁(yè)面的行為，更嚴(yán)重的是獲取一些機(jī)要信息，此時(shí)需要清理該HTML，以避免跨站腳本攻擊（XSS）。

解決方式：
使用clean()方法清除惡意代碼，但需要指定一個(gè)配置的 Safelist（舊版本中是Whitelist），通常使用Safelist.basic()即可。Safelist的工作原理是將輸入的 HTML 內(nèi)容單獨(dú)隔離解析，然后遍歷解析樹，只允許已知的安全標(biāo)簽和屬性輸出。

String unsafe = 
        "<p><a  οnclick='attack()'>Link</a></p>";
// 輸出: <p><a  rel="external nofollow"  rel="external nofollow"  >Link</a></p>
String safe = Jsoup.clean(unsafe, Safelist.basic());
System.out.println(safe);

說明：

jsoup的Safelist不僅能夠在服務(wù)器端對(duì)用戶輸入的HTML進(jìn)行過濾，只輸出一些安全的標(biāo)簽和屬性，還可以限制用戶可以輸入的標(biāo)簽范圍。 6.2）消除不受信任的HTML (防止XSS攻擊)

問題描述：

在某些網(wǎng)站中經(jīng)常會(huì)提供用戶評(píng)論的功能，但是有些不懷好意的用戶，會(huì)搞一些腳本到評(píng)論內(nèi)容中，而這些腳本可能會(huì)破壞整個(gè)頁(yè)面的行為，更嚴(yán)重的是獲取一些機(jī)要信息，此時(shí)需要清理該HTML，以避免跨站腳本攻擊（XSS）。

解決方式：
使用clean()方法清除惡意代碼，但需要指定一個(gè)配置的 Safelist（舊版本中是Whitelist），通常使用Safelist.basic()即可。Safelist的工作原理是將輸入的 HTML 內(nèi)容單獨(dú)隔離解析，然后遍歷解析樹，只允許已知的安全標(biāo)簽和屬性輸出。

String unsafe = 
        "<p><a  οnclick='attack()'>Link</a></p>";
// 輸出: <p><a  rel="external nofollow"  rel="external nofollow"  >Link</a></p>
String safe = Jsoup.clean(unsafe, Safelist.basic());
System.out.println(safe);

說明：

jsoup的Safelist不僅能夠在服務(wù)器端對(duì)用戶輸入的HTML進(jìn)行過濾，只輸出一些安全的標(biāo)簽和屬性，還可以限制用戶可以輸入的標(biāo)簽范圍。

–

7.3）jsoup使用代理

Connection.Response execute = Jsoup.connect("http://csdn.net/")
					               .proxy("12.12.12.12", 1080)	// 使用代理
					               .execute();

到此這篇關(guān)于什么是jsoup及jsoup的使用的文章就介紹到這了,更多相關(guān)jsoup的使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

jsoup
使用

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

什么是jsoup及jsoup的使用

目錄

一、jsoup概述

二、相關(guān)概念簡(jiǎn)介

三、獲取文檔（Document）

3.1）從URL中加載文檔對(duì)象（常用）

3.2）從本地文件中加載文檔對(duì)象

3.3）從字符串文本中加載文檔對(duì)象

3.4）從<body>片斷中獲取文檔對(duì)象

四、選擇元素（Element）

4.1）DOM方式

4.1.1）查找元素

4.1.2）獲取元素?cái)?shù)據(jù)

4.1.3）操作HTML文本

4.2）CSS選擇器方式

4.2.1）說明

4.2.2）select(String selector)方法參數(shù)簡(jiǎn)介

4.2.3）參數(shù)屬性組合使用

4.2.4）特殊參數(shù)：偽選擇器

五、獲取數(shù)據(jù)（Node）

六、修改數(shù)據(jù)

6.1）設(shè)置屬性的值

6.2）修改元素的HTML內(nèi)容

6.3）修改元素的文本內(nèi)容

七、其他功能

7.1）相對(duì)路徑轉(zhuǎn)絕對(duì)路徑

7.2）消除不受信任的HTML (防止XSS攻擊)

7.3）jsoup使用代理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

什么是jsoup及jsoup的使用

目錄

一、jsoup概述

二、相關(guān)概念簡(jiǎn)介

三、獲取文檔（Document）

3.1）從URL中加載文檔對(duì)象（常用）

3.2）從本地文件中加載文檔對(duì)象

3.3）從字符串文本中加載文檔對(duì)象

3.4）從<body>片斷中獲取文檔對(duì)象

四、選擇元素（Element）

4.1）DOM方式

4.1.1）查找元素

4.1.2）獲取元素?cái)?shù)據(jù)

4.1.3）操作HTML文本

4.2）CSS選擇器方式

4.2.1）說明

4.2.2）select(String selector)方法參數(shù)簡(jiǎn)介

4.2.3）參數(shù)屬性組合使用

4.2.4）特殊參數(shù)：偽選擇器

五、獲取數(shù)據(jù)（Node）

六、修改數(shù)據(jù)

6.1）設(shè)置屬性的值

6.2）修改元素的HTML內(nèi)容

6.3）修改元素的文本內(nèi)容

七、其他功能

7.1）相對(duì)路徑轉(zhuǎn)絕對(duì)路徑

7.2）消除不受信任的HTML (防止XSS攻擊)

7.3）jsoup使用代理

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、jsoup概述

二、相關(guān)概念簡(jiǎn)介

五、獲取數(shù)據(jù)（Node）