欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python網(wǎng)絡(luò)爬蟲精解之XPath的使用說明

 更新時間:2021年09月27日 08:38:19   作者:小狐貍夢想去童話鎮(zhèn)  
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的主要元素,并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達(dá)之上

XPath的使用

一、XPath的介紹

XPath的幾個常用規(guī)則:

表達(dá)式 描述
nodename 選取此節(jié)點的所有子節(jié)點
/ 從當(dāng)前節(jié)點選取直接子節(jié)點
// 從當(dāng)前節(jié)點選取子孫節(jié)點
. 選取當(dāng)前節(jié)點
選取當(dāng)前節(jié)點的父節(jié)點
@ 選取屬性

二、XPath使用

1、選取所有節(jié)點

test01.html

<book class="item">
  <title lang="en" class="item-01">Harry Potter</title>
  <author class="item-02 name">J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>
from lxml import etree

html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//*')
print(result)

運(yùn)行程序后得到一個列表:

[<Element html at 0x2252aff0d88>, <Element body at 0x2252aff0e48>, <Element book at 0x2252aff0e88>, <Element title at 0x2252aff0ec8>, <Element author at 0x2252aff0f08>, <Element year at 0x2252aff0f88>, <Element price at 0x2252aff0fc8>]

列表中每個元素代表原test01.html文件中的節(jié)點,可以看出節(jié)點有html、body、book、title、author、year、price節(jié)點。

2、獲取子節(jié)點

如果想要獲取book節(jié)點下的author節(jié)點,則可將代碼編寫為:

from lxml import etree

html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//author')
print(result)

這樣僅可獲得author節(jié)點:[<Element author at 0x2252aef8748>]

3、獲取父節(jié)點

獲取當(dāng)前節(jié)點的父節(jié)點,主要是父節(jié)點的屬性值。

以獲取父節(jié)點book的class屬性值為例。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@class="item-01"]/../@class') #獲取title節(jié)點的父節(jié)點的class屬性值
print(result)

【運(yùn)行結(jié)果】

['item']

通過查閱之前test01.html的源碼可知,父節(jié)點book的class屬性值為“item”。

4、屬性匹配

我們知道每個節(jié)點幾乎都帶有屬性,通過屬性匹配我們可以匹配具有相同節(jié)點名但屬性不同的節(jié)點。

通常是將需要匹配的屬性放在中括號內(nèi)。

例如,用屬性匹配的方式獲取title節(jié)點。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en"]')
print(result)

【運(yùn)行結(jié)果】

[<Element title at 0x2252afb2a48>]

則得到了title節(jié)點。

5、文本獲取

一般我們爬取的內(nèi)容都是文本形式,我們使用text()方式將文本內(nèi)容提取出來。

在上一個實例的基礎(chǔ)上,我們獲取標(biāo)題的具體內(nèi)容。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en"]/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter']

這樣我們就得到了具體的標(biāo)題名稱。

6、屬性獲取

有時候我們想要的數(shù)據(jù)不在文本內(nèi)容,而是在節(jié)點的屬性值里,因此我們還需要學(xué)會獲取節(jié)點的屬性值。

常用方式是在需要獲取的屬性值前面加@符號即可。

例如,我們獲取標(biāo)題title的lang和class這兩個屬性值。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title/@lang')
result.append(html.xpath('//title/@class')[0])
print(result)

【運(yùn)行結(jié)果】

['en', 'item-01']

這樣我們就完成了屬性值的獲取。

7、屬性多值匹配

有時候?qū)傩灾挡⒉恢挥幸粋€,而是具有多個屬性值,像實例中author節(jié)點的class屬性值,具有兩個值item-02和name,通常我們在匹配時使用contains()方法,該方法的第一個參數(shù)傳入屬性名稱,第二個參數(shù)傳入屬性值(多個屬性值中的任意一個)。

我們以獲取作者姓名為例:

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//author[contains(@class,name)]/text()')
print(result)

【運(yùn)行結(jié)果】

['J K. Rowling']

8、多屬性匹配

一個節(jié)點通常會有多個屬性,例如實例中的title節(jié)點,就具有l(wèi)ang和class節(jié)點,在進(jìn)行多屬性匹配時,使用and符來連接。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en" and @class="item-01"]/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter']

以下是常見的運(yùn)算符:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-GyHoIIVB-1631169770821)(D:\Users\31156\Desktop\網(wǎng)絡(luò)爬蟲\img\img11.jpg)]

9、按序選擇

實例test02.html

<bookstore>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
</bookstore>

我們還是按照之前講的,獲取book節(jié)點下的title名。

from lxml import etree
html = etree.parse('./test02.html',etree.HTMLParser())
result = html.xpath('//book/title/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter', 'Learning XML']

這時我們看到有兩個標(biāo)題名,在處理時,我們可以在中括號中傳入索引獲取指定次序的節(jié)點。

獲取依次節(jié)點的值:

from lxml import etree
html = etree.parse('./test02.html',etree.HTMLParser())
result1 = html.xpath('//book[1]/title/text()')
result2 = html.xpath('//book[2]/title/text()')
print(result1)
print(result2)

【運(yùn)行結(jié)果】

['Harry Potter']
['Learning XML']

還有一些其他方法,例如獲取最后一個節(jié)點用last()等,其他操作函數(shù)可參考:XPath函數(shù)

10、節(jié)點軸選擇

在這里插入圖片描述

這些節(jié)點軸可以幫助我們更快速的進(jìn)行匹配。

到此這篇關(guān)于python網(wǎng)絡(luò)爬蟲精解之XPath的使用說明的文章就介紹到這了,更多相關(guān)python XPath內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Sublime?Text?配置?Python?環(huán)境的問題及解決方案

    Sublime?Text?配置?Python?環(huán)境的問題及解決方案

    這篇文章主要介紹了Sublime?Text?配置?Python?環(huán)境的問題,文中介紹了python自定義的構(gòu)建系統(tǒng)的完整代碼,代碼簡單易懂,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-01-01
  • 基礎(chǔ)語音識別-食物語音識別baseline(CNN)

    基礎(chǔ)語音識別-食物語音識別baseline(CNN)

    這篇文章主要介紹了一個基礎(chǔ)語音識別題目-食物語音識別baseline(CNN),代碼詳細(xì)嗎,對于想要學(xué)習(xí)語音識別的朋友可以參考下
    2021-04-04
  • 深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟

    深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟

    本文主要介紹了深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-09-09
  • 簡單了解什么是神經(jīng)網(wǎng)絡(luò)

    簡單了解什么是神經(jīng)網(wǎng)絡(luò)

    這篇文章主要介紹了簡單了解什么是神經(jīng)網(wǎng)絡(luò),具有一定借鑒價值,需要的朋友可以參考下。
    2017-12-12
  • python中嵌套函數(shù)的實操步驟

    python中嵌套函數(shù)的實操步驟

    在本文里我們給大家分享了關(guān)于python中嵌套函數(shù)的步驟圖文分解,有需要的朋友們跟著學(xué)習(xí)下。
    2019-02-02
  • Python實現(xiàn)讀取并寫入Excel文件過程解析

    Python實現(xiàn)讀取并寫入Excel文件過程解析

    這篇文章主要介紹了Python實現(xiàn)讀取并寫入Excel文件過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-05-05
  • 一起來了解python的運(yùn)算符

    一起來了解python的運(yùn)算符

    這篇文章主要為大家詳細(xì)介紹了python的運(yùn)算符,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2022-01-01
  • Python?Setuptools的?setup.py實例詳解

    Python?Setuptools的?setup.py實例詳解

    setup.py是一個?python?文件,它的存在表明您要安裝的模塊/包可能已經(jīng)用?Setuptools?打包和分發(fā),這是分發(fā)?Python?模塊的標(biāo)準(zhǔn)。?它的目的是正確安裝軟件,本文給大家講解Python?Setuptools的?setup.py感興趣的朋友跟隨小編一起看看吧
    2022-12-12
  • python Pandas 讀取txt表格的實例

    python Pandas 讀取txt表格的實例

    下面小編就為大家分享一篇python Pandas 讀取txt表格的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • python防止程序超時的實現(xiàn)示例

    python防止程序超時的實現(xiàn)示例

    因為某個需求,需要在程序運(yùn)行的時候防止超時,本文主要介紹了python防止程序超時的實現(xiàn)示例,具有一定的參考價值,感興趣的可以了解一下
    2023-08-08

最新評論