欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲lxml庫解析xpath網頁過程示例

 更新時間:2022年05月10日 09:08:15   作者:蘇涼.py  
這篇文章主要為大家介紹了python爬蟲lxml庫解析xpath網頁的過程示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

前言

在我們抓取網頁內容的時候,通常是抓取一整個頁面的內容,而我們僅僅只是需要該網頁中的部分內容,那該如何去提取呢?本章就帶你學習xpath插件的使用。去對網頁的內容進行提取。

(一)xpath是什么

xpath是一門在XML文檔中查找信息的語言,xpath可用來在XML 文檔中對元素和屬性進行遍歷,主流的瀏覽器都支持xpath,因為html頁面在DOM中表示為XHTML文檔。

xpath語言是基于XML文檔的樹結構,并提供了瀏覽樹的能力,通過多樣的標準來選擇節(jié)點。從而找到我們想要的數據。

首先我們需要在chrome瀏覽器中安裝xpath插件。
可以到谷歌應用商店搜索下載。

安裝好之后重啟瀏覽器按下快捷鍵Ctrl +Shift+X網頁上會出現黑色的框就表示成功啦!

(二)xpath的基本語法 路徑查詢。

// : 查找所有子孫節(jié)點,不考慮層級關系
/ : 找直接子節(jié)點

謂詞查詢

//div[@id]
//div[@id=“maincontent”]

屬性查詢

//@class

模糊查詢

//div[contains(@id, “he”)]
//div[starts -with(@id, “he”)]

內容查詢

//div/h1/text()

(三) lxml庫

lxml是python的一個解析庫,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
在使用前我們需要在pycharm里安裝lxml庫。
在終端輸入指令即可:

pip install lxml -i https://pypi.douban.com/simple

注意:必須安裝在我們當前所使用的環(huán)境下

(四)lxml庫的使用 導入lxml.etree

from lxml import etree

解析本地文件

tree = etree.parse(xxx.html) #解析本地文件

解析服務器響應文件

tree = etree.HTML(content) #解析網頁文件

返回結果

result = tree.xpath('//div/div/@aria-label')[0]

注:xpath返回的結果類型為列表,當結果有許多值時我們可以使用下標來取我們想要的值。

(五)實例演示

import urllib.request
from lxml import etree
import urllib.parse
url ='https://www.baidu.com/s?'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
cre_data = {
    'wd' : '這里寫關鍵詞'
}
data = urllib.parse.urlencode(cre_data)
url = url + data
request = urllib.request.Request(url = url , headers = headers )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
# tree = etree.parse(xxx.html) #解析本地文件
tree = etree.HTML(content)  #解析網頁文件
result = tree.xpath('//div/div/@aria-label')[0]
print(result)

以上就是python爬蟲lxml庫解析xpath網頁過程示例的詳細內容,更多關于python爬蟲lxml庫解析xpath網頁的資料請關注腳本之家其它相關文章!

相關文章

  • Python中常用數據類型使用示例概括總結

    Python中常用數據類型使用示例概括總結

    這篇文章主要為大家介紹了Python中常用數據類型使用示例概括總結,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-04-04
  • vscode搭建之python?Django環(huán)境配置方式

    vscode搭建之python?Django環(huán)境配置方式

    這篇文章主要介紹了vscode搭建之python?Django環(huán)境配置方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • Python基于遞歸算法求最小公倍數和最大公約數示例

    Python基于遞歸算法求最小公倍數和最大公約數示例

    這篇文章主要介紹了Python基于遞歸算法求最小公倍數和最大公約數,結合實例形式分析了Python使用遞歸算法進行數值計算的相關操作技巧,需要的朋友可以參考下
    2018-07-07
  • 淺析python常用數據文件處理方法

    淺析python常用數據文件處理方法

    這篇文章主要介紹了python常用數據文件處理方法,雖說python運行速度慢,但其編程速度,第三方包的豐富度是真的高,涉及到文件批處理還是會選擇python,感興趣的朋友跟隨小編一起看看吧
    2021-10-10
  • Python編程中被忽視的核心技巧總結

    Python編程中被忽視的核心技巧總結

    這篇文章主要介紹了一些在?Python?編程中可能被忽視的核心功能,包括默認參數、海象運算符、*args?和?**kwargs?的使用等,需要的可參考下
    2023-08-08
  • 詳解Python自建logging模塊

    詳解Python自建logging模塊

    本篇文章給大家詳細分析了Python自建logging模塊的方法和代碼分享,有需要的朋友參考學習下吧。
    2018-01-01
  • python超詳細實現完整學生成績管理系統(tǒng)

    python超詳細實現完整學生成績管理系統(tǒng)

    讀萬卷書不如行萬里路,只學書上的理論是遠遠不夠的,只有在實戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用Java實現一個完整版學生成績管理系統(tǒng),大家可以在過程中查缺補漏,提升水平
    2022-03-03
  • 一篇文章帶你了解Python和Java的正則表達式對比

    一篇文章帶你了解Python和Java的正則表達式對比

    正則表達式有元字符及不同組合來構成,通過巧妙的構造正則表達式可以匹配任意字符串,并完成復雜的字符串處理任務,希望本片文章能給你帶來幫助
    2021-09-09
  • Python解析網頁源代碼中的115網盤鏈接實例

    Python解析網頁源代碼中的115網盤鏈接實例

    這篇文章主要介紹了Python解析網頁源代碼中的115網盤鏈接實例,主要采用了正則表達式re模塊來實現該功能,需要的朋友可以參考下
    2014-09-09
  • python主要用于哪些方向

    python主要用于哪些方向

    在本篇文章里小編給大家整理了一篇關于python用于的方向的相關文章,有需要的閱讀下吧。
    2020-07-07

最新評論