欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python數(shù)據(jù)解析之XPath詳解

 更新時(shí)間:2021年09月29日 16:40:56   作者:小緣喵~  
本篇文章主要介紹了python數(shù)據(jù)解析之xpath的基本使用詳解,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧

XPath

XPath即為XML路徑語(yǔ)言(XML Path Language),它是一種用來(lái)確定XML文檔中某部分位置的語(yǔ)言。

xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語(yǔ)言中,還可以用于其他語(yǔ)言中,數(shù)據(jù)解析建議首先xpath。

XPath使用方法

xpath解析原理:

實(shí)例化一個(gè)etree的對(duì)象,且需要將被解析的頁(yè)面源代碼數(shù)據(jù)加載到該對(duì)象中

調(diào)用etree對(duì)象中的xpath方法結(jié)合著xpath表達(dá)式實(shí)現(xiàn)標(biāo)簽的定位和內(nèi)容的捕獲

安裝lxml

pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml

from lxml import etree
tree = etree.parse('./tree.html')  #從本地加載源碼,實(shí)例化一個(gè)etree對(duì)象。必須是本地的文件,不能是字符串
tree = etree.HTML(源碼)           #從互聯(lián)網(wǎng)加載源碼,實(shí)例化etree對(duì)象
#  / 表示從從根節(jié)點(diǎn)開(kāi)始,一個(gè) / 表示一個(gè)層級(jí),//表示多個(gè)層級(jí)
r = tree.xpath('//div//a')       #以列表的形式返回div下的所有的a標(biāo)簽對(duì)象的地址
r = tree.xpath('//div//a')[1]    #返回div下的第二個(gè)a標(biāo)簽對(duì)象地址
r = tree.xpath('//div[@class="tang"]')   #以列表的形式返回tang標(biāo)簽地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang標(biāo)簽下所有的a標(biāo)簽地址
#獲取標(biāo)簽中的文本內(nèi)容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a標(biāo)簽中的文本
#獲取標(biāo)簽中屬性值
r = tree.xpath('//div//a/@href')   ##以列表的形式返回所有a標(biāo)簽中href屬性值

tree.html

<html lang="en">
    <head>
      <meta charset="utf-8" />
      <meta name="theme-color" content="#ffffff"></meta>
      <title>xpaht測(cè)試</title>
    </head>
    <body>
        <div>
            <p>百里守約</p>
        </div>
        <div class="song">
            <p>前程似錦</p>
        </div>
        <div class="song">
            <p>前程似錦2</p>
        </div>
        <div class="ming">  #后面改了名字
            <p>以夢(mèng)為馬</p>
        </div>  
        <div class="tang">
            <ul>
                <li><a  title='qing'>清明時(shí)節(jié)</a></li>
                <li><a  title='qing'>秦時(shí)明月</a></li>
                <li><a  title='qing'>漢時(shí)關(guān)</a></li>
            </ul>
        </div>
      <flink-root></flink-root>
        <script type="text/javascript" src="runtime.0dcf16aad31edd73d8e8.js"></script>
        <script type="text/javascript" src="es2015-polyfills.923637a8e6d276e6f6df.js"></script>
        <script type="text/javascript" src="polyfills.bb2456cce5322b484b77.js"></script>
        <script type="text/javascript" src="main.8128365baee3dc30e607.js"></script>
    </body>
</html>

案例—58二手房

將頁(yè)面中的房源名稱(chēng)解析出來(lái),即將title值解析出來(lái)就行

思路

  • 獲取房源名稱(chēng)所在的url,并獲取其響應(yīng)數(shù)據(jù)
  • 數(shù)據(jù)解析,構(gòu)造xpath表達(dá)式。提取目標(biāo)數(shù)據(jù)
import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#實(shí)例化一個(gè)etree對(duì)象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #獲取所有//span標(biāo)簽為"content-title"的文本內(nèi)容
print(r)

Tips:我們使用xpath進(jìn)行數(shù)據(jù)解析時(shí),不能直接看元素就進(jìn)行構(gòu)造xpath表達(dá)式,以為很多情況下從瀏覽中看的元素結(jié)構(gòu)和爬取下來(lái)的源碼結(jié)構(gòu)不一樣。所以正確方法是先將源碼爬下來(lái)再觀察進(jìn)行構(gòu)造xpath。

如下瀏覽器中的元素結(jié)構(gòu)和爬取的元素結(jié)構(gòu)就不一樣。如果按照瀏覽器匯總的元素來(lái)構(gòu)造xpath表達(dá)式,則不會(huì)解析成功!

總結(jié)

本篇文章就到這里了,希望能夠給你帶來(lái)幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

相關(guān)文章

  • django美化后臺(tái)django-suit的安裝配置操作

    django美化后臺(tái)django-suit的安裝配置操作

    這篇文章主要介紹了django美化后臺(tái)django-suit的安裝配置操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-07-07
  • Python端口掃描簡(jiǎn)單程序

    Python端口掃描簡(jiǎn)單程序

    這篇文章主要為大家詳細(xì)介紹了Python端口掃描簡(jiǎn)單程序的實(shí)現(xiàn)方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2016-11-11
  • SpringBoot調(diào)用python接口的實(shí)現(xiàn)步驟

    SpringBoot調(diào)用python接口的實(shí)現(xiàn)步驟

    本文主要介紹如何利用Springboot框架調(diào)用python腳本,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-12-12
  • TensorFlow 滑動(dòng)平均的示例代碼

    TensorFlow 滑動(dòng)平均的示例代碼

    這篇文章主要介紹了TensorFlow 滑動(dòng)平均的示例代碼,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-06-06
  • python?中的?module?和?package

    python?中的?module?和?package

    這篇文章主要介紹了?python?中的?module?和?package?,文章基于Python的相關(guān)資料展開(kāi)對(duì)主題的詳細(xì)介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-04-04
  • 如何使用python進(jìn)行pdf文件分割

    如何使用python進(jìn)行pdf文件分割

    這篇文章主要介紹了如何使用python進(jìn)行pdf文件分割,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-11-11
  • Python matplotlib畫(huà)曲線例題解析

    Python matplotlib畫(huà)曲線例題解析

    這篇文章主要介紹了Python matplotlib畫(huà)曲線例題解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-02-02
  • Python 記錄日志的靈活性和可配置性介紹

    Python 記錄日志的靈活性和可配置性介紹

    這篇文章給大家介紹了關(guān)于日志記錄庫(kù)的靈活性和可配置性,目的在于證明它如何設(shè)計(jì)的,對(duì)python 日志記錄相關(guān)知識(shí)感興趣的朋友跟隨腳本之家小編一起學(xué)習(xí)吧
    2018-02-02
  • Python中拆包的實(shí)現(xiàn)

    Python中拆包的實(shí)現(xiàn)

    拆包是一個(gè)非常實(shí)用且常見(jiàn)的操作,它能夠簡(jiǎn)化代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2024-07-07
  • Matplotlib實(shí)戰(zhàn)之平行坐標(biāo)系繪制詳解

    Matplotlib實(shí)戰(zhàn)之平行坐標(biāo)系繪制詳解

    平行坐標(biāo)系是一種統(tǒng)計(jì)圖表,它包含多個(gè)垂直平行的坐標(biāo)軸,每個(gè)軸表示一個(gè)字段,并用刻度標(biāo)明范圍,下面我們就來(lái)看看如何繪制平行坐標(biāo)系吧
    2023-08-08

最新評(píng)論