手把手教學Android用jsoup解析html實例

更新時間：2017年06月17日 16:43:08 作者：四會歌神陳子豪

本篇文章主要介紹了手把手教學Android用jsoup解析html實例，jsoup 是一款Java 的HTML解析器。具有一定的參考價值，感興趣的小伙伴們可以參考一下

1.jsoup介紹

很多時候，我們需要從各種網(wǎng)頁上面抓取數(shù)據(jù)，而jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

jsoup官方文檔：https://jsoup.org/cookbook/

2.使用場景

下面是一張關于美食的截圖，可以留意到這是一個html網(wǎng)頁，當我們想要抓取里面的數(shù)據(jù)的時候，jsoup就能幫到我們很多。

接下來開始手把手教學

首先，也是很重要的一步，就是下載jar包，丟到libs里面

jar包下載地址：http://jsoup.org/download

Android studio玩家可以不下載jar包,在Gradle里面加入

dependencies {
  compile 'org.jsoup:jsoup:1.9.2'
}

然后，找到你心儀的網(wǎng)頁去抓取數(shù)據(jù)

這里我們我繼續(xù)使用美食的網(wǎng)頁，然后右鍵查看網(wǎng)頁源碼，或者按F12，接下來可以看到一大堆標簽：

找到需要的，例如上圖這個 “美食天下” ，可以看到 “美食天下” 是放在以 <div class="top-bar" id="J_top_bar"> 為節(jié)點的 <a title="美食天下" 中，要獲取這個“美食天下”，代碼可以這樣寫:

try {  
  //從一個URL加載一個Document對象。
  Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();
  //選擇“美食天下”所在節(jié)點
  Elements elements = doc.select("div.top-bar");  
  //打印 <a>標簽里面的title
  Log.i("mytag",elements.select("a").attr("title"));
}catch(Exception e) {  
  Log.i("mytag", e.toString());
}

接下來看一下打印出來的結(jié)果：

Jsoup.connect(String url)方法從一個URL加載一個Document對象。如果從該URL獲取HTML時發(fā)生錯誤，便會拋出 IOException，應適當處理。

一旦擁有了一個Document，你就可以使用Document中適當?shù)姆椒ɑ蛩割?Element和Node中的方法來取得相關數(shù)據(jù)。

public class Element extends Node
public class Document extends Element

很多文章都是說一大堆原理然后放出一個簡單的例子，就跟我上面簡單的打了一個log一樣，然后發(fā)現(xiàn)用起來的時候是沒那么簡單的。為了大家能不看文檔也可以直接使用(并且看不懂那一大堆標簽也可以用)，我決定再舉一個例子(其實也就是比上面多打幾個log)：

下圖紅色框框是我們要獲取的數(shù)據(jù)，可以看到他們對應的節(jié)點就是藍色圓圈里面的<div class="xxx">

廢話不多說上代碼

try {  
  //還是一樣先從一個URL加載一個Document對象。
  Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();

  //“椒麻雞”和它對應的圖片都在<div class="pic">中
  Elements titleAndPic = doc.select("div.pic");
  //使用Element.select(String selector)查找元素，使用Node.attr(String key)方法取得一個屬性的值
  Log.i("mytag", "title:" + titleAndPic.get(1).select("a").attr("title") + "pic:" + titleAndPic.get(1).select("a").select("img").attr("data-src"));

  //所需鏈接在<div class="detail">中的<a>標簽里面
  Elements url = doc.select("div.detail").select("a");
  Log.i("mytag", "url:" + url.get(i).attr("href"));

  //原料在<p class="subcontent">中
  Elements burden = doc.select("p.subcontent");
  //對于一個元素中的文本，可以使用Element.text()方法
  Log.i("mytag", "burden:" + burden.get(1).text());

}catch(Exception e) {  
  Log.i("mytag", e.toString());
}

大功告成，接下來看看log