python爬蟲(chóng)lxml庫(kù)解析xpath網(wǎng)頁(yè)過(guò)程示例
前言
在我們抓取網(wǎng)頁(yè)內(nèi)容的時(shí)候,通常是抓取一整個(gè)頁(yè)面的內(nèi)容,而我們僅僅只是需要該網(wǎng)頁(yè)中的部分內(nèi)容,那該如何去提取呢?本章就帶你學(xué)習(xí)xpath插件的使用。去對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行提取。
(一)xpath是什么
xpath是一門(mén)在XML文檔中查找信息的語(yǔ)言,xpath可用來(lái)在XML 文檔中對(duì)元素和屬性進(jìn)行遍歷,主流的瀏覽器都支持xpath,因?yàn)閔tml頁(yè)面在DOM中表示為XHTML文檔。
xpath語(yǔ)言是基于XML文檔的樹(shù)結(jié)構(gòu),并提供了瀏覽樹(shù)的能力,通過(guò)多樣的標(biāo)準(zhǔn)來(lái)選擇節(jié)點(diǎn)。從而找到我們想要的數(shù)據(jù)。
首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應(yīng)用商店搜索下載。
安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網(wǎng)頁(yè)上會(huì)出現(xiàn)黑色的框就表示成功啦!
(二)xpath的基本語(yǔ)法 路徑查詢。
// : 查找所有子孫節(jié)點(diǎn),不考慮層級(jí)關(guān)系
/ : 找直接子節(jié)點(diǎn)
謂詞查詢
//div[@id]
//div[@id=“maincontent”]
屬性查詢
//@class
模糊查詢
//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]
內(nèi)容查詢
//div/h1/text()
(三) lxml庫(kù)
lxml是python的一個(gè)解析庫(kù),支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫(kù)。
在終端輸入指令即可:
pip install lxml -i https://pypi.douban.com/simple
注意:必須安裝在我們當(dāng)前所使用的環(huán)境下
(四)lxml庫(kù)的使用 導(dǎo)入lxml.etree
from lxml import etree
解析本地文件
tree = etree.parse(xxx.html) #解析本地文件
解析服務(wù)器響應(yīng)文件
tree = etree.HTML(content) #解析網(wǎng)頁(yè)文件
返回結(jié)果
result = tree.xpath('//div/div/@aria-label')[0]
注:xpath返回的結(jié)果類(lèi)型為列表,當(dāng)結(jié)果有許多值時(shí)我們可以使用下標(biāo)來(lái)取我們想要的值。
(五)實(shí)例演示
import urllib.request from lxml import etree import urllib.parse url ='https://www.baidu.com/s?' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36' } cre_data = { 'wd' : '這里寫(xiě)關(guān)鍵詞' } data = urllib.parse.urlencode(cre_data) url = url + data request = urllib.request.Request(url = url , headers = headers ) response = urllib.request.urlopen(request) content = response.read().decode('utf-8') print(content) # tree = etree.parse(xxx.html) #解析本地文件 tree = etree.HTML(content) #解析網(wǎng)頁(yè)文件 result = tree.xpath('//div/div/@aria-label')[0] print(result)
以上就是python爬蟲(chóng)lxml庫(kù)解析xpath網(wǎng)頁(yè)過(guò)程示例的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲(chóng)lxml庫(kù)解析xpath網(wǎng)頁(yè)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python中常用數(shù)據(jù)類(lèi)型使用示例概括總結(jié)
這篇文章主要為大家介紹了Python中常用數(shù)據(jù)類(lèi)型使用示例概括總結(jié),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04vscode搭建之python?Django環(huán)境配置方式
這篇文章主要介紹了vscode搭建之python?Django環(huán)境配置方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01Python基于遞歸算法求最小公倍數(shù)和最大公約數(shù)示例
這篇文章主要介紹了Python基于遞歸算法求最小公倍數(shù)和最大公約數(shù),結(jié)合實(shí)例形式分析了Python使用遞歸算法進(jìn)行數(shù)值計(jì)算的相關(guān)操作技巧,需要的朋友可以參考下2018-07-07python超詳細(xì)實(shí)現(xiàn)完整學(xué)生成績(jī)管理系統(tǒng)
讀萬(wàn)卷書(shū)不如行萬(wàn)里路,只學(xué)書(shū)上的理論是遠(yuǎn)遠(yuǎn)不夠的,只有在實(shí)戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用Java實(shí)現(xiàn)一個(gè)完整版學(xué)生成績(jī)管理系統(tǒng),大家可以在過(guò)程中查缺補(bǔ)漏,提升水平2022-03-03一篇文章帶你了解Python和Java的正則表達(dá)式對(duì)比
正則表達(dá)式有元字符及不同組合來(lái)構(gòu)成,通過(guò)巧妙的構(gòu)造正則表達(dá)式可以匹配任意字符串,并完成復(fù)雜的字符串處理任務(wù),希望本片文章能給你帶來(lái)幫助2021-09-09Python解析網(wǎng)頁(yè)源代碼中的115網(wǎng)盤(pán)鏈接實(shí)例
這篇文章主要介紹了Python解析網(wǎng)頁(yè)源代碼中的115網(wǎng)盤(pán)鏈接實(shí)例,主要采用了正則表達(dá)式re模塊來(lái)實(shí)現(xiàn)該功能,需要的朋友可以參考下2014-09-09