欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python xpath表達(dá)式如何實(shí)現(xiàn)數(shù)據(jù)處理

 更新時(shí)間:2020年06月13日 15:53:24   作者:_夕顏  
這篇文章主要介紹了Python xpath表達(dá)式如何實(shí)現(xiàn)數(shù)據(jù)處理,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

xpath表達(dá)式

1. xpath語法

<bookstore>
<book>
 <title lang="eng">Harry Potter</title>
 <price>999</price>
</book>
<book>
 <title lang="eng">Learning XML</title>
 <price>888</price>
</book>
</bookstore>

1.1 選取節(jié)點(diǎn)

XPath 使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和我們?cè)诔R?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。

使用chrome插件選擇標(biāo)簽時(shí)候,選中時(shí),選中的標(biāo)簽會(huì)添加屬性class="xh-highlight"

下面列出了最有用的表達(dá)式:

表達(dá)式 描述
nodename 選中該元素。
/ 從根節(jié)點(diǎn)選取、或者是元素和元素間的過渡。
// 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置。
. 選取當(dāng)前節(jié)點(diǎn)。
.. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)。
@ 選取屬性。
text() 選取文本。

實(shí)例

路徑表達(dá)式 結(jié)果
bookstore 選擇bookstore元素。
/bookstore 選取根元素 bookstore。注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對(duì)路徑!
bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素。
//book 選取所有 book 子元素,而不管它們?cè)谖臋n中的位置。
bookstore//book 選擇屬于 bookstore 元素的后代的所有 book 元素,而不管它們位于 bookstore 之下的什么位置。
//book/title/@lang 選擇所有的book下面的title中的lang屬性的值。
//book/title/text() 選擇所有的book下面的title的文本。

  • 選擇所有的h1下的文本
  • //h1/text()
  • 獲取所有的a標(biāo)簽的href
  • //a/@href
  • 獲取html下的head下的title的文本
  • /html/head/title/text()
  • 獲取html下的head下的link標(biāo)簽的href
  • /html/head/link/@href

1.2 查找特定的節(jié)點(diǎn)

路徑表達(dá)式 結(jié)果
//title[@lang="eng"] 選擇lang屬性值為eng的所有title元素
/bookstore/book[1] 選取屬于 bookstore 子元素的第一個(gè) book 元素。
/bookstore/book[last()] 選取屬于 bookstore 子元素的最后一個(gè) book 元素。
/bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數(shù)第二個(gè) book 元素。
/bookstore/book[position()>1] 選擇bookstore下面的book元素,從第二個(gè)開始選擇
//book/title[text()='Harry Potter'] 選擇所有book下的title元素,僅僅選擇文本為Harry Potter的title元素
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00。

注意點(diǎn): 在xpath中,第一個(gè)元素的位置是1,最后一個(gè)元素的位置是last(),倒數(shù)第二個(gè)是last()-1

1.3 選取未知節(jié)點(diǎn)

XPath 通配符可用來選取未知的 XML 元素。

通配符 描述
* 匹配任何元素節(jié)點(diǎn)。
@* 匹配任何屬性節(jié)點(diǎn)。
node() 匹配任何類型的節(jié)點(diǎn)。

實(shí)例

在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:

路徑表達(dá)式 結(jié)果
/bookstore/* 選取 bookstore 元素的所有子元素。
//* 選取文檔中的所有元素。
//title[@*] 選取所有帶有屬性的 title 元素。

1.4 選取若干路徑

通過在路徑表達(dá)式中使用“|”運(yùn)算符,您可以選取若干個(gè)路徑。

實(shí)例

在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:

路徑表達(dá)式 結(jié)果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素。
//title | //price 選取文檔中的所有 title 和 price 元素。
/bookstore/book/title | //price 選取屬于 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。

實(shí)例:

from lxml import etree
text = ''' <div> <ul> 
    <li class="item-1"><a href="link1.html" rel="external nofollow" >first item</a></li> 
    <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li> 
    <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li> 
    <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li> 
    <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> 
    </ul> </div> '''

html = etree.HTML(text)

#獲取href的列表和title的列表
href_list = html.xpath("http://li[@class='item-1']/a/@href")
title_list = html.xpath("http://li[@class='item-1']/a/text()")


#組裝成字典
for href in href_list:
  item = {}
  item["href"] = href
  item["title"] = title_list[href_list.index(href)]
  print(item)

# 如果取到的是一個(gè)節(jié)點(diǎn),返回的是element對(duì)象,可以繼續(xù)使用xpath方法,對(duì)此我們可以在后面的數(shù)據(jù)提取過程中:先根據(jù)某個(gè)標(biāo)簽進(jìn)行分組,分組之后再進(jìn)行數(shù)據(jù)的提取
li_list = html.xpath("http://li[@class='item-1']")

#在每一組中繼續(xù)進(jìn)行數(shù)據(jù)的提取
for li in li_list:
  item = {}
  item["href"] = li.xpath("./a/@href")[0] if len(li.xpath("./a/@href"))>0 else None
  item["title"] = li.xpath("./a/text()")[0] if len(li.xpath("./a/text()"))>0 else None
  print(item)

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python常用內(nèi)置函數(shù)和關(guān)鍵字使用詳解

    Python常用內(nèi)置函數(shù)和關(guān)鍵字使用詳解

    在Python中有許許多多的內(nèi)置函數(shù)和關(guān)鍵字,它們是我們?nèi)粘V薪?jīng)??梢允褂玫牡降囊恍┗A(chǔ)的工具,可以方便我們的工作。本文將詳細(xì)講解他們的使用方法,需要的可以參考一下
    2022-05-05
  • 快速進(jìn)修Python指南之簡(jiǎn)易跳表

    快速進(jìn)修Python指南之簡(jiǎn)易跳表

    這篇文章主要為大家介紹了Java開發(fā)者快速進(jìn)修Python指南之簡(jiǎn)易跳表示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-12-12
  • python檢測(cè)遠(yuǎn)程端口是否打開的方法

    python檢測(cè)遠(yuǎn)程端口是否打開的方法

    這篇文章主要介紹了python檢測(cè)遠(yuǎn)程端口是否打開的方法,實(shí)例分析了Python基于socket檢測(cè)端口的技巧,需要的朋友可以參考下
    2015-03-03
  • Python 中最長(zhǎng)公共子序列的長(zhǎng)度

    Python 中最長(zhǎng)公共子序列的長(zhǎng)度

    子序列是在不改變剩余字符的順序的情況下,在刪除一些字符或不刪除任何字符后從給定序列獲得的序列,這篇文章主要介紹了Python 中的最長(zhǎng)公共子序列,需要的朋友可以參考下
    2023-06-06
  • Python使用paramiko操作linux的方法講解

    Python使用paramiko操作linux的方法講解

    今天小編就為大家分享一篇關(guān)于Python使用paramiko操作linux的方法講解,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • pygame中blit()參數(shù)的使用及臟矩形動(dòng)畫形成的說明

    pygame中blit()參數(shù)的使用及臟矩形動(dòng)畫形成的說明

    這篇文章主要介紹了pygame中blit()參數(shù)的使用及臟矩形動(dòng)畫形成的說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-03-03
  • pandas庫中?DataFrame的用法小結(jié)

    pandas庫中?DataFrame的用法小結(jié)

    這篇文章主要介紹了pandas庫中?DataFrame的用法,利用pandas.DataFrame可以構(gòu)建表格,通過列標(biāo)屬性調(diào)用列對(duì)象,本文結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • 詳解Python中的Descriptor描述符類

    詳解Python中的Descriptor描述符類

    這里我們將來詳解Python中的Descriptor描述符類,包括定義描述符并展示如何調(diào)用描述符,需要的朋友可以參考下
    2016-06-06
  • Python進(jìn)階之利用+和*進(jìn)行列表拼接

    Python進(jìn)階之利用+和*進(jìn)行列表拼接

    在我們學(xué)習(xí)python的過程中,有一個(gè)非常常見的語法,那就是利用+和*進(jìn)行序列的拼接以及其他操作。今天就帶大家從使用+和*進(jìn)行拼接出發(fā)認(rèn)識(shí)一個(gè)大家非常容易犯的代碼錯(cuò)誤。話不多說我們開始吧
    2023-04-04
  • python將音頻進(jìn)行變速的操作方法

    python將音頻進(jìn)行變速的操作方法

    這篇文章主要介紹了python將音頻進(jìn)行變速的操作方法,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-04-04

最新評(píng)論