python網(wǎng)絡(luò)爬蟲精解之XPath的使用說(shuō)明
XPath的使用
一、XPath的介紹
XPath的幾個(gè)常用規(guī)則:
表達(dá)式 | 描述 |
---|---|
nodename | 選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn) |
/ | 從當(dāng)前節(jié)點(diǎn)選取直接子節(jié)點(diǎn) |
// | 從當(dāng)前節(jié)點(diǎn)選取子孫節(jié)點(diǎn) |
. | 選取當(dāng)前節(jié)點(diǎn) |
… | 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn) |
@ | 選取屬性 |
二、XPath使用
1、選取所有節(jié)點(diǎn)
test01.html
<book class="item"> <title lang="en" class="item-01">Harry Potter</title> <author class="item-02 name">J K. Rowling</author> <year>2005</year> <price>29.99</price> </book>
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//*') print(result)
運(yùn)行程序后得到一個(gè)列表:
[<Element html at 0x2252aff0d88>, <Element body at 0x2252aff0e48>, <Element book at 0x2252aff0e88>, <Element title at 0x2252aff0ec8>, <Element author at 0x2252aff0f08>, <Element year at 0x2252aff0f88>, <Element price at 0x2252aff0fc8>]
列表中每個(gè)元素代表原test01.html文件中的節(jié)點(diǎn),可以看出節(jié)點(diǎn)有html、body、book、title、author、year、price節(jié)點(diǎn)。
2、獲取子節(jié)點(diǎn)
如果想要獲取book節(jié)點(diǎn)下的author節(jié)點(diǎn),則可將代碼編寫為:
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//author') print(result)
這樣僅可獲得author節(jié)點(diǎn):[<Element author at 0x2252aef8748>]
3、獲取父節(jié)點(diǎn)
獲取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn),主要是父節(jié)點(diǎn)的屬性值。
以獲取父節(jié)點(diǎn)book的class屬性值為例。
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//title[@class="item-01"]/../@class') #獲取title節(jié)點(diǎn)的父節(jié)點(diǎn)的class屬性值 print(result)
【運(yùn)行結(jié)果】
['item']
通過(guò)查閱之前test01.html的源碼可知,父節(jié)點(diǎn)book的class屬性值為“item”。
4、屬性匹配
我們知道每個(gè)節(jié)點(diǎn)幾乎都帶有屬性,通過(guò)屬性匹配我們可以匹配具有相同節(jié)點(diǎn)名但屬性不同的節(jié)點(diǎn)。
通常是將需要匹配的屬性放在中括號(hào)內(nèi)。
例如,用屬性匹配的方式獲取title節(jié)點(diǎn)。
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//title[@lang="en"]') print(result)
【運(yùn)行結(jié)果】
[<Element title at 0x2252afb2a48>]
則得到了title節(jié)點(diǎn)。
5、文本獲取
一般我們爬取的內(nèi)容都是文本形式,我們使用text()方式將文本內(nèi)容提取出來(lái)。
在上一個(gè)實(shí)例的基礎(chǔ)上,我們獲取標(biāo)題的具體內(nèi)容。
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//title[@lang="en"]/text()') print(result)
【運(yùn)行結(jié)果】
['Harry Potter']
這樣我們就得到了具體的標(biāo)題名稱。
6、屬性獲取
有時(shí)候我們想要的數(shù)據(jù)不在文本內(nèi)容,而是在節(jié)點(diǎn)的屬性值里,因此我們還需要學(xué)會(huì)獲取節(jié)點(diǎn)的屬性值。
常用方式是在需要獲取的屬性值前面加@符號(hào)即可。
例如,我們獲取標(biāo)題title的lang和class這兩個(gè)屬性值。
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//title/@lang') result.append(html.xpath('//title/@class')[0]) print(result)
【運(yùn)行結(jié)果】
['en', 'item-01']
這樣我們就完成了屬性值的獲取。
7、屬性多值匹配
有時(shí)候?qū)傩灾挡⒉恢挥幸粋€(gè),而是具有多個(gè)屬性值,像實(shí)例中author節(jié)點(diǎn)的class屬性值,具有兩個(gè)值item-02和name,通常我們?cè)谄ヅ鋾r(shí)使用contains()方法,該方法的第一個(gè)參數(shù)傳入屬性名稱,第二個(gè)參數(shù)傳入屬性值(多個(gè)屬性值中的任意一個(gè))。
我們以獲取作者姓名為例:
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//author[contains(@class,name)]/text()') print(result)
【運(yùn)行結(jié)果】
['J K. Rowling']
8、多屬性匹配
一個(gè)節(jié)點(diǎn)通常會(huì)有多個(gè)屬性,例如實(shí)例中的title節(jié)點(diǎn),就具有l(wèi)ang和class節(jié)點(diǎn),在進(jìn)行多屬性匹配時(shí),使用and符來(lái)連接。
from lxml import etree html = etree.parse('./test01.html',etree.HTMLParser()) result = html.xpath('//title[@lang="en" and @class="item-01"]/text()') print(result)
【運(yùn)行結(jié)果】
['Harry Potter']
以下是常見的運(yùn)算符:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-GyHoIIVB-1631169770821)(D:\Users\31156\Desktop\網(wǎng)絡(luò)爬蟲\img\img11.jpg)]
9、按序選擇
實(shí)例test02.html
<bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
我們還是按照之前講的,獲取book節(jié)點(diǎn)下的title名。
from lxml import etree html = etree.parse('./test02.html',etree.HTMLParser()) result = html.xpath('//book/title/text()') print(result)
【運(yùn)行結(jié)果】
['Harry Potter', 'Learning XML']
這時(shí)我們看到有兩個(gè)標(biāo)題名,在處理時(shí),我們可以在中括號(hào)中傳入索引獲取指定次序的節(jié)點(diǎn)。
獲取依次節(jié)點(diǎn)的值:
from lxml import etree html = etree.parse('./test02.html',etree.HTMLParser()) result1 = html.xpath('//book[1]/title/text()') result2 = html.xpath('//book[2]/title/text()') print(result1) print(result2)
【運(yùn)行結(jié)果】
['Harry Potter']
['Learning XML']
還有一些其他方法,例如獲取最后一個(gè)節(jié)點(diǎn)用last()等,其他操作函數(shù)可參考:XPath函數(shù)
10、節(jié)點(diǎn)軸選擇
這些節(jié)點(diǎn)軸可以幫助我們更快速的進(jìn)行匹配。
到此這篇關(guān)于python網(wǎng)絡(luò)爬蟲精解之XPath的使用說(shuō)明的文章就介紹到這了,更多相關(guān)python XPath內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Sublime?Text?配置?Python?環(huán)境的問(wèn)題及解決方案
這篇文章主要介紹了Sublime?Text?配置?Python?環(huán)境的問(wèn)題,文中介紹了python自定義的構(gòu)建系統(tǒng)的完整代碼,代碼簡(jiǎn)單易懂,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-01-01基礎(chǔ)語(yǔ)音識(shí)別-食物語(yǔ)音識(shí)別baseline(CNN)
這篇文章主要介紹了一個(gè)基礎(chǔ)語(yǔ)音識(shí)別題目-食物語(yǔ)音識(shí)別baseline(CNN),代碼詳細(xì)嗎,對(duì)于想要學(xué)習(xí)語(yǔ)音識(shí)別的朋友可以參考下2021-04-04深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟
本文主要介紹了深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò)
這篇文章主要介紹了簡(jiǎn)單了解什么是神經(jīng)網(wǎng)絡(luò),具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12Python實(shí)現(xiàn)讀取并寫入Excel文件過(guò)程解析
這篇文章主要介紹了Python實(shí)現(xiàn)讀取并寫入Excel文件過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05Python?Setuptools的?setup.py實(shí)例詳解
setup.py是一個(gè)?python?文件,它的存在表明您要安裝的模塊/包可能已經(jīng)用?Setuptools?打包和分發(fā),這是分發(fā)?Python?模塊的標(biāo)準(zhǔn)。?它的目的是正確安裝軟件,本文給大家講解Python?Setuptools的?setup.py感興趣的朋友跟隨小編一起看看吧2022-12-12python防止程序超時(shí)的實(shí)現(xiàn)示例
因?yàn)槟硞€(gè)需求,需要在程序運(yùn)行的時(shí)候防止超時(shí),本文主要介紹了python防止程序超時(shí)的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2023-08-08