Python爬蟲基礎之XPath語法與lxml庫的用法詳解

更新時間：2018年09月13日 10:44:19 作者：qq52o

這篇文章主要給大家介紹了關(guān)于Python爬蟲基礎之XPath語法與lxml庫用法的相關(guān)資料，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

前言

本來打算寫的標題是XPath語法，但是想了一下Python中的解析庫lxml，使用的是Xpath語法，同樣也是效率比較高的解析方法，所以就寫成了XPath語法和lxml庫的用法

XPath 即為 XML 路徑語言，它是一種用來確定 XML（標準通用標記語言的子集）文檔中某部分位置的語言。

XPath 基于 XML 的樹狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點的能力。 XPath 同樣也支持HTML。

XPath 是一門小型的查詢語言。

python 中 lxml庫使用的是 Xpath 語法，是效率比較高的解析方法。

下面話不多說了，來一起看看詳細的介紹吧

安裝

為什么要用這個庫呢，因為要寫爬蟲啊，利用lxml庫來解析 HTML 代碼，同時lxml也繼承了libxml2的特性自動修正HTML代碼，利用pip安裝即可

pip install lxml

XPath語法

XPath是一門在XML文檔中查找信息的語言，可以用于在XML文檔中通過元素和屬性進行導航

舉個栗子 😎

我們可以使用XPath提取網(wǎng)站地圖中的所有鏈接，也就是說可以使用XPath去找我們HTML中的一些具體的東西

節(jié)點關(guān)系

在XPath中，有七種類型的節(jié)點：元素、屬性、文本、命名空間、處理指令、注釋以及文檔節(jié)點（或稱為根節(jié)點）

再舉個栗子 😎

<urlset>
<url>
<loc>https://qq52o.me</loc>
<lastmod>2018-04-28T19:00:42+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

第一個：父（Parent）

每個元素以及屬性都有一個父

url元素是 loc、lastmod、changefreq以及 priority元素的父

第二個：子（Children）

元素節(jié)點可有零個、一個或多個子

loc、lastmod、changefreq以及 priority元素都是url元素的子

第三個：同胞（Sibling）

擁有相同的父的節(jié)點

loc、lastmod、changefreq以及 priority元素都是url元素的同胞

第四個：先輩（Ancestor）

某節(jié)點的父、父的父，等等

loc元素的先輩是 url元素和 urlset元素

第五個：后代（Descendant）

某個節(jié)點的子，子的子，等等

urlset的后代是url、loc、lastmod、changefreq以及 priority元素

如果你分不清楚，就按照子元素從上到下的去找元素節(jié)點

選取節(jié)點

XPath使用路徑表達式在 XML 文檔中選取節(jié)點，節(jié)點是通過沿著路徑或者 step 來選取的，也就是上面所說的按照子元素從上到下去找元素節(jié)點

這些是最有用的路徑表達式 💡

表達式	描述
nodename	選取此節(jié)點的所有子節(jié)點
/	從根節(jié)點選取
//	從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點，而不考慮它們的位置
.	選取當前節(jié)點
..	選取當前節(jié)點的父節(jié)點
@	選取屬性

實例

路徑表達式	結(jié)果
urlset	選取urlset元素的所有子節(jié)點
/urlset	選取根元素 urlset
urlset/url	選取屬于urlset的子元素的所有url元素
//url	選取所有url子元素，而不管它們在文檔中的位置
urlset//url	選擇屬于urlset元素的后代的所有url元素，而不管它們位于urlset之下的什么位置
//@href	選取名為href的所有屬性