欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲(chóng)xpath模塊簡(jiǎn)介示例代碼

 更新時(shí)間:2023年02月14日 17:22:22   作者:DY.memory  
xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語(yǔ)言中,還可以用于其他語(yǔ)言中,數(shù)據(jù)解析建議首先xpath,這篇文章主要介紹了python爬蟲(chóng)xpath模塊簡(jiǎn)介,需要的朋友可以參考下

一、前言

前兩篇博客講解了爬蟲(chóng)解析網(wǎng)頁(yè)數(shù)據(jù)的兩種常用方法,re正則表達(dá)解析和beautifulsoup標(biāo)簽解析,所以今天的博客將圍繞另外一種數(shù)據(jù)解析方法,它就是xpath模塊解析,話不多說(shuō),進(jìn)入內(nèi)容:

二、簡(jiǎn)介

XPath 是一門(mén)在 XML 文檔中查找信息的語(yǔ)言。XPath 可用來(lái)在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的主要元素,并且 XQuery 和 XPointer 都構(gòu)建于 XPath 表達(dá)之上。

XPath即為XML路徑語(yǔ)言(XML Path Language),它是一種用來(lái)確定XML文檔中某部分位置的語(yǔ)言。

xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語(yǔ)言中,還可以用于其他語(yǔ)言中,數(shù)據(jù)解析建議首先xpath。

三、安裝

pip3 install lxml

四、使用

1、導(dǎo)入

from?lxml?import?etree

2、基本使用

實(shí)例化一個(gè)etree的對(duì)象,且需要將被解析的頁(yè)面源代碼數(shù)據(jù)加載到該對(duì)象中

調(diào)用etree對(duì)象中的xpath方法結(jié)合著xpath表達(dá)式實(shí)現(xiàn)標(biāo)簽的定位和內(nèi)容的捕獲

from lxml import etree
tree = etree.parse('./tree.html')  #從本地加載源碼,實(shí)例化一個(gè)etree對(duì)象。必須是本地的文件,不能是字符串
tree = etree.HTML(源碼)           #從互聯(lián)網(wǎng)加載源碼,實(shí)例化etree對(duì)象
#  / 表示從從根節(jié)點(diǎn)開(kāi)始,一個(gè) / 表示一個(gè)層級(jí),//表示多個(gè)層級(jí)
r = tree.xpath('//div//a')       #以列表的形式返回div下的所有的a標(biāo)簽對(duì)象的地址
r = tree.xpath('//div//a')[1]    #返回div下的第二個(gè)a標(biāo)簽對(duì)象地址
r = tree.xpath('//div[@class="tang"]')   #以列表的形式返回tang標(biāo)簽地址
r = tree.xpath('//div[@class="tang"]//a') #以列表的形式返回tang標(biāo)簽下所有的a標(biāo)簽地址
#獲取標(biāo)簽中的文本內(nèi)容
r = tree.xpath('//div[@class="tang"]//a/text()') #以列表的形式返回所有a標(biāo)簽中的文本
#獲取標(biāo)簽中屬性值
r = tree.xpath('//div//a/@href')   ##以列表的形式返回所有a標(biāo)簽中href屬性值

3、基本使用

from lxml import etree
 
wb_data = """
        <div>
            <ul>
                 <li><a href="link1.html" rel="external nofollow"  rel="external nofollow"     >first item</a></li>
                 <li><a href="link2.html" rel="external nofollow"  rel="external nofollow"     >second item</a></li>
                 <li><a href="link3.html" rel="external nofollow"  rel="external nofollow"     >third item</a></li>
                 <li><a href="link4.html" rel="external nofollow"  rel="external nofollow"     >fourth item</a></li>
                 <li><a href="link5.html" rel="external nofollow"  rel="external nofollow"     >fifth item</a>
             </ul>
         </div>
        """
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))

從下面的結(jié)果來(lái)看,我們打印機(jī)html其實(shí)就是一個(gè)python對(duì)象,etree.tostring(html)則是補(bǔ)全html的基本寫(xiě)法,補(bǔ)全了缺胳膊少腿的標(biāo)簽。

<Element html at 0x39e58f0>
<html><body><div>
            <ul>
                 <li><a href="link1.html" rel="external nofollow"  rel="external nofollow"     >first item</a></li>
                 <li><a href="link2.html" rel="external nofollow"  rel="external nofollow"     >second item</a></li>
                 <li><a href="link3.html" rel="external nofollow"  rel="external nofollow"     >third item</a></li>
                 <li><a href="link4.html" rel="external nofollow"  rel="external nofollow"     >fourth item</a></li>
                 <li><a href="link5.html" rel="external nofollow"  rel="external nofollow"     >fifth item</a>
             </li></ul>
         </div>
        </body></html>

3、獲取某個(gè)標(biāo)簽的內(nèi)容(基本使用),注意,獲取a標(biāo)簽的所有內(nèi)容,a后面就不用再加正斜杠,否則報(bào)錯(cuò)。

寫(xiě)法一

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')
print(html)
for i in html_data:
    print(i.text)
 
# 打印結(jié)果如下:
<Element html at 0x12fe4b8>
first item
second item
third item
fourth item
fifth item

寫(xiě)法二(直接在需要查找內(nèi)容的標(biāo)簽后面加一個(gè)/text()就行)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
    print(i)

# 打印結(jié)果如下: 
<Element html at 0x138e4b8>
first item
second item
third item
fourth item
fifth item

4、打開(kāi)讀取html文件

#使用parse打開(kāi)html的文件
html = etree.parse('test.html')
html_data = html.xpath('//*')<br>#打印是一個(gè)列表,需要遍歷
print(html_data)
for i in html_data:
    print(i.text)
html = etree.parse('test.html')
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode('utf-8')
print(res)
?
打?。?
<div>
? ? ?<ul>
? ? ? ? ?<li><a href="link1.html">first item</a></li>
? ? ? ? ?<li><a href="link2.html">second item</a></li>
? ? ? ? ?<li><a href="link3.html">third item</a></li>
? ? ? ? ?<li><a href="link4.html">fourth item</a></li>
? ? ? ? ?<li><a href="link5.html">fifth item</a></li>
? ? ?</ul>
</div>

5、打印指定路徑下a標(biāo)簽的屬性(可以通過(guò)遍歷拿到某個(gè)屬性的值,查找標(biāo)簽的內(nèi)容)

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
? ? print(i)
?
打?。?
link1.html
link2.html
link3.html
link4.html
link5.html

6、我們知道我們使用xpath拿到得都是一個(gè)個(gè)的ElementTree對(duì)象,所以如果需要查找內(nèi)容的話,還需要遍歷拿到數(shù)據(jù)的列表。

查到絕對(duì)路徑下a標(biāo)簽屬性等于link2.html的內(nèi)容。

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['second item']
second item

7、上面我們找到全部都是絕對(duì)路徑(每一個(gè)都是從根開(kāi)始查找),下面我們查找相對(duì)路徑,例如,查找所有l(wèi)i標(biāo)簽下的a標(biāo)簽內(nèi)容。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item

8、上面我們使用絕對(duì)路徑,查找了所有a標(biāo)簽的屬性等于href屬性值,利用的是/—絕對(duì)路徑,下面我們使用相對(duì)路徑,查找一下l相對(duì)路徑下li標(biāo)簽下的a標(biāo)簽下的href屬性的值,注意,a標(biāo)簽后面需要雙//。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a//@href')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html

9、相對(duì)路徑下跟絕對(duì)路徑下查特定屬性的方法類似,也可以說(shuō)相同。

html = etree.HTML(wb_data)
html_data = html.xpath('//li/a[@href="link2.html"]')
print(html_data)
for i in html_data:
? ? print(i.text)
?
打?。?
[<Element a at 0x216e468>]
second item

10、查找最后一個(gè)li標(biāo)簽里的a標(biāo)簽的href屬性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()]/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['fifth item']
fifth item

11、查找倒數(shù)第二個(gè)li標(biāo)簽里的a標(biāo)簽的href屬性

html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()-1]/a/text()')
print(html_data)
for i in html_data:
? ? print(i)
?
打?。?
['fourth item']
fourth item

五、案例

案例1:獲取58商城房?jī)r(jià)單位:

import requests
from lxml import etree
url = "https://bj.58.com/ershoufang/p1/"
headers={
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Mobile Safari/537.36'
}
pag_response = requests.get(url,headers=headers,timeout=3).text
#實(shí)例化一個(gè)etree對(duì)象
tree = etree.HTML(pag_response)
r = tree.xpath('//span[@class="content-title"]/text()') #獲取所有//span標(biāo)簽為"content-title"的文本內(nèi)容,列表形式
with open("58房?jī)r(jià).txt",mode="w",encoding="utf-8") as fp:
    for r_list in r:
        fp.writelines(str(r_list))
        print(r_list)

案例2:獲取豆瓣top榜電影信息(這個(gè)是老生常談的話題了) 

import re
from time import sleep
import requests
from lxml import etree
import random
import csv
  
def main(page,f):
    url = f'https://movie.douban.com/top250?start={page*25}&filter='
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',}
    resp = requests.get(url,headers=headers)
    tree = etree.HTML(resp.text)
    # 獲取詳情頁(yè)的鏈接列表
    href_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')
    # 獲取電影名稱列表
    name_list = tree.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')
    for url,name in zip(href_list,name_list):
        f.flush()  # 刷新文件
        try:
            get_info(url,name)  # 獲取詳情頁(yè)的信息
        except:
            pass
        sleep(1 + random.random())  # 休息
    print(f'第{i+1}頁(yè)爬取完畢')
  
def get_info(url,name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.35 Safari/537.36',
        'Host': 'movie.douban.com',
    }
    resp = requests.get(url,headers=headers)
    html = resp.text
    tree = etree.HTML(html)
    # 導(dǎo)演
    dir = tree.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0]
    # 電影類型
    type_ = re.findall(r'property="v:genre">(.*?)</span>',html)
    type_ = '/'.join(type_)
    # 國(guó)家
    country = re.findall(r'地區(qū):</span> (.*?)<br',html)[0]
    # 上映時(shí)間
    time = tree.xpath('//*[@id="content"]/h1/span[2]/text()')[0]
    time = time[1:5]
    # 評(píng)分
    rate = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0]
    # 評(píng)論人數(shù)
    people = tree.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span/text()')[0]
    print(name,dir,type_,country,time,rate,people)  # 打印結(jié)果
    csvwriter.writerow((name,dir,type_,country,time,rate,people))  # 保存到文件中
  
if __name__ == '__main__':
    # 創(chuàng)建文件用于保存數(shù)據(jù)
    with open('03-movie-xpath.csv','a',encoding='utf-8',newline='')as f:
        csvwriter = csv.writer(f)
        # 寫(xiě)入表頭標(biāo)題
        csvwriter.writerow(('電影名稱','導(dǎo)演','電影類型','國(guó)家','上映年份','評(píng)分','評(píng)論人數(shù)'))
        for i in range(10):  # 爬取10頁(yè)
            main(i,f)  # 調(diào)用主函數(shù)
            sleep(3 + random.random())

到此這篇關(guān)于python爬蟲(chóng)xpath模塊簡(jiǎn)介的文章就介紹到這了,更多相關(guān)python xpath模塊內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python中Pickling和Unpickling的區(qū)別詳解

    Python中Pickling和Unpickling的區(qū)別詳解

    在本文中,我們將探討 Python 中 pickling 和 unpickling 之間的主要區(qū)別,我們將詳細(xì)討論 Python pickling 和 unpickling 的概念,包括它們的目的、語(yǔ)法、用法以及安全可靠的 pickling 和 unpickling 操作的注意事項(xiàng),需要的朋友可以參考下
    2023-09-09
  • Python基于列表模擬堆棧和隊(duì)列功能示例

    Python基于列表模擬堆棧和隊(duì)列功能示例

    這篇文章主要介紹了Python基于列表模擬堆棧和隊(duì)列功能,簡(jiǎn)單描述了隊(duì)列與堆棧的特點(diǎn),并結(jié)合列表相關(guān)函數(shù)分析了隊(duì)列的出隊(duì)、進(jìn)隊(duì)及堆棧的出棧、入棧等操作實(shí)現(xiàn)技巧,需要的朋友可以參考下
    2018-01-01
  • Python利用jmespath模塊進(jìn)行json數(shù)據(jù)處理

    Python利用jmespath模塊進(jìn)行json數(shù)據(jù)處理

    jmespath是python的第三方模塊,是需要額外安裝的。它在python原有的json數(shù)據(jù)處理上做出了很大的貢獻(xiàn)。本文將詳細(xì)介紹如何利用jmespath實(shí)現(xiàn)json數(shù)據(jù)處理,需要的可以參考一下
    2022-03-03
  • python基礎(chǔ)知識(shí)之字典(Dict)

    python基礎(chǔ)知識(shí)之字典(Dict)

    這篇文章主要介紹了python基礎(chǔ)知識(shí)之字典(Dict)的相關(guān)資料,需要的朋友可以參考下
    2023-02-02
  • 低版本中Python除法運(yùn)算小技巧

    低版本中Python除法運(yùn)算小技巧

    這篇文章主要介紹了低版本中Python除法運(yùn)算小技巧,python 2.5版本中存在兩種除法運(yùn)算,即所謂的true除法和floor除法,本文講解了兩種方法的使用技巧,需要的朋友可以參考下
    2015-04-04
  • Python集合操作方法詳解

    Python集合操作方法詳解

    這篇文章主要介紹了Python集合操作方法詳解,需要的朋友可以參考下
    2020-02-02
  • Python深入淺出分析元類

    Python深入淺出分析元類

    在Python里一切都是對(duì)象(object),基本數(shù)據(jù)類型,如數(shù)字,字符串,函數(shù)都是對(duì)象。對(duì)象可以由類(class)進(jìn)行創(chuàng)建。那么既然一切都是對(duì)象,那么類是對(duì)象嗎?是的,類也是對(duì)象,那么又是誰(shuí)創(chuàng)造了類呢?答案也很簡(jiǎn)單,也是類,一個(gè)能創(chuàng)作類的類,稱之為(type)元類
    2022-07-07
  • Python中ArcPy柵格裁剪柵格(批量對(duì)齊柵格圖像范圍并統(tǒng)一行數(shù)與列數(shù))

    Python中ArcPy柵格裁剪柵格(批量對(duì)齊柵格圖像范圍并統(tǒng)一行數(shù)與列數(shù))

    本文介紹基于Python中ArcPy模塊,實(shí)現(xiàn)基于柵格圖像批量裁剪柵格圖像,同時(shí)對(duì)齊各個(gè)柵格圖像的空間范圍,統(tǒng)一其各自行數(shù)與列數(shù)的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-02-02
  • python自動(dòng)化腳本安裝指定版本python環(huán)境詳解

    python自動(dòng)化腳本安裝指定版本python環(huán)境詳解

    這篇文章主要為大家詳細(xì)介紹了python自動(dòng)化腳本安裝指定版本python環(huán)境的相關(guān)方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-09-09
  • 基于Python中的turtle繪畫(huà)星星和星空

    基于Python中的turtle繪畫(huà)星星和星空

    這篇文章主要介紹了基于Python中的turtle繪畫(huà)星星和星空,turtle?是?Python?中自帶的繪圖模塊,下文章關(guān)于turtle繪畫(huà)星星和星空的詳細(xì)內(nèi)容,需要的朋友可以參考一下,可以當(dāng)作學(xué)習(xí)小練習(xí)
    2022-03-03

最新評(píng)論