欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解java爬蟲(chóng)jsoup解析多空格class數(shù)據(jù)

 更新時(shí)間:2018年12月23日 16:04:31   作者:243644739  
在本篇內(nèi)容中小編給大家分享了java爬蟲(chóng)jsoup怎么解析多空格class數(shù)據(jù)的方法和技巧,需要的朋友們跟著學(xué)習(xí)下。

在使用jsoup爬取其他網(wǎng)站數(shù)據(jù)的時(shí)候,發(fā)現(xiàn)class是帶空格的多選擇,如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數(shù)據(jù)。

1、問(wèn)題描述:

在使用jsoup爬取其他網(wǎng)站數(shù)據(jù)的時(shí)候,發(fā)現(xiàn)class是帶空格的多選擇,如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數(shù)據(jù)。

爬取網(wǎng)站頁(yè)面結(jié)構(gòu)如下:

2、其中文章列表的div為:<div class="am-cf inner_li inner_li_abtest"></div>

我們可以看到其class的值為:am-cf inner_li inner_li_abtest。帶空格的。多值的。

如果我們還是用getElementsByClass這個(gè)方法獲取的話,是獲取不到的。eclipse中斷點(diǎn)如下:

3、可以看到獲取的值的長(zhǎng)度size=0。沒(méi)有獲取到數(shù)據(jù)。

經(jīng)過(guò)各方搜索,發(fā)現(xiàn)解決方案:使用的不是getElementsByClass方法,可以使用其他方法。

先上成功后截圖:

4、我們可以看到數(shù)據(jù)的長(zhǎng)度size=20了。說(shuō)明獲取到數(shù)據(jù)了。

下面講解select方法使用:

Elements org.jsoup.nodes.Element.select(String cssQuery)

5、樣式選擇器。

查看源碼:

6、我們知道這個(gè)可以多個(gè)。

在看看我們案例中使用的是:div.am-cf.inner_li.inner_li_abtest。為什么要這么寫(xiě)呢?

查看需要爬取文章的頁(yè)面結(jié)構(gòu):

總結(jié):以上就是關(guān)于java爬蟲(chóng)jsoup解析多空格class數(shù)據(jù)的詳細(xì)內(nèi)容,感謝大家的閱讀和對(duì)腳本之家的支持。

相關(guān)文章

最新評(píng)論