這篇文章主要介紹了一文掌握Python爬蟲XPath語法，xpath是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進(jìn)行遍歷，XPath 通過使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。下面會更學(xué)習(xí)的介紹,需要的朋友可以參考一下

一、問題描述

1.什么是XPath？

xpath是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進(jìn)行遍歷，XPath 通過使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和在常規(guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。

二、解決方案

1.XPath語法

想要學(xué)好xpath，首先要搞明白html文檔中的節(jié)點(diǎn)。

<div>
     <ul>
          <li class="item-0"><a href="link1.html" rel="external nofollow" >first item</a></li>
          <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
          <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
          <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
          <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> # 注意，此處缺少一個 </li> 閉合標(biāo)簽
      </ul>
  </div>

以上是在網(wǎng)上隨便找的一段html的文本，可以觀察得到，div的標(biāo)簽下是ul標(biāo)簽，而ul標(biāo)簽下是li標(biāo)簽，于是發(fā)現(xiàn)html的標(biāo)簽是一級一級如樹狀的。Xpath正是通過這樣的方式去尋找。以生活中舉例，要確定一個人的位置，首先確定他在中國，然后確定他在某個省份，哪座城市，那個小區(qū)，最后找到他。

表達(dá)式	描述
Nodename	選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn) bookstore 選取bookstore下所有的子節(jié)點(diǎn)
/	如果是在最前面，代表從根節(jié)點(diǎn)選取。否則選擇某節(jié)點(diǎn)下的某個節(jié)點(diǎn) /bookstore 選取根元素下所有的bookstore節(jié)點(diǎn)
//	從全局節(jié)點(diǎn)中選擇節(jié)點(diǎn)，隨便在哪個位置 //book 從全局節(jié)點(diǎn)中找到所有的book節(jié)點(diǎn)
@	選取某個節(jié)點(diǎn)的屬性 //book[@price] 選擇所有擁有price屬性的book節(jié)點(diǎn)
.	當(dāng)前節(jié)點(diǎn)
Text()	獲取標(biāo)簽中的文本

同級標(biāo)簽可以用li[1] ,li[2] ,li[3]的方式獲取

2.lxml庫

簡單介紹一下lxml庫，接下來會用到它

lxml是一個HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML 數(shù)據(jù)。

lxml和正則一樣，也是用C實現(xiàn)的，是一款高性能的PythonHTML/XML解析器，可以利用之前學(xué)習(xí)的XPath語法，來快速的定位特定元素以及節(jié)點(diǎn)信息。

3.實際案例

隨便爬取一個網(wǎng)站，找到找到網(wǎng)站的html文本

如下圖：

要找到title和href，仔細(xì)觀察可以得到路徑分別是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

運(yùn)行如下：

三、結(jié)語

Xpath，是在爬蟲中常見的提取數(shù)據(jù)的方式之一，相比于正則，它更加簡單一些，便于操作，xpath的難點(diǎn)在于準(zhǔn)確的確定數(shù)據(jù)所在的位置。

到此這篇關(guān)于一文掌握Python爬蟲XPath語法的文章就介紹到這了,更多相關(guān)Python爬蟲XPath語法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

一文掌握Python爬蟲XPath語法

目錄