快捷導(dǎo)航

XPath的定義、基礎(chǔ)語(yǔ)法、使用示例和高級(jí)用法

更新時(shí)間：2023年12月02日 15:52:20 作者：每天多學(xué)一點(diǎn)

XPath（XML Path Language）是一種用于在XML文檔中定位和選擇節(jié)點(diǎn)的語(yǔ)言,XPath的選擇功能非常強(qiáng)大,可以通過(guò)簡(jiǎn)單的路徑選擇語(yǔ)法,選取文檔中的任意節(jié)點(diǎn)或節(jié)點(diǎn)集,同樣也支持 HTML 元素的解析,本文介紹了XPath的定義、基礎(chǔ)語(yǔ)法、使用示例、高級(jí)用法、.NET中使用舉例等

一、定義

XPath（XML Path Language）是一種用于在 XML 文檔中定位和選擇節(jié)點(diǎn)的語(yǔ)言。XPath的選擇功能非常強(qiáng)大，可以通過(guò)簡(jiǎn)單的路徑選擇語(yǔ)法，選取文檔中的任意節(jié)點(diǎn)或節(jié)點(diǎn)集。同樣也支持 HTML 元素的解析，學(xué)會(huì)XPath，可以輕松抓取網(wǎng)頁(yè)數(shù)據(jù)，提高數(shù)據(jù)獲取效率。

二、XPath基礎(chǔ)語(yǔ)法

節(jié)點(diǎn)（Nodes）： XML 文檔的基本構(gòu)建塊，可以是元素、屬性、文本等。
路徑表達(dá)式：用于定位 XML 文檔中的節(jié)點(diǎn)。路徑表達(dá)式由一系列步驟組成，每個(gè)步驟用斜杠 / 分隔。

XPath的節(jié)點(diǎn)是指在XML或HTML文檔中被選擇的元素或?qū)傩?。XPath中有7種類型的節(jié)點(diǎn)，包括元素節(jié)點(diǎn)、屬性節(jié)點(diǎn)、文本節(jié)點(diǎn)、命名空間節(jié)點(diǎn)、處理指令節(jié)點(diǎn)、注釋節(jié)點(diǎn)以及文檔節(jié)點(diǎn)（或稱為根節(jié)點(diǎn)）。

- 元素節(jié)點(diǎn)：表示XML或HTML文檔中的元素。例如，在HTML文檔中，<body>、<div>、<p>等都是元素節(jié)點(diǎn)。在XPath中，可以使用元素名稱來(lái)選擇元素節(jié)點(diǎn)，例如：//div表示選擇所有的<div>元素。

- 屬性節(jié)點(diǎn)：表示XML或HTML文檔中元素的屬性。例如，在HTML文檔中，元素的class、id、src等屬性都是屬性節(jié)點(diǎn)。在XPath中，可以使用@符號(hào)來(lái)選擇屬性節(jié)點(diǎn)，例如：//img/@src表示選擇所有<img>元素的src屬性。

- 文本節(jié)點(diǎn)：表示XML或HTML文檔中的文本內(nèi)容。例如，在HTML文檔中，<p>標(biāo)簽中的文本內(nèi)容就是文本節(jié)點(diǎn)。在XPath中，可以使用text()函數(shù)來(lái)選擇文本節(jié)點(diǎn)，例如：//p/text()表示選擇所有<p>元素中的文本內(nèi)容。

- 命名空間節(jié)點(diǎn)：表示XML文檔中的命名空間。命名空間是一種避免元素命名沖突的方法。在XPath中，可以使用namespace軸來(lái)選擇命名空間節(jié)點(diǎn)，例如：//namespace::*表示選擇所有的命名空間節(jié)點(diǎn)。

- 處理指令節(jié)點(diǎn)：表示XML文檔中的處理指令。處理指令是一種用來(lái)給處理器傳遞指令的機(jī)制。在XPath中，可以使用processing-instruction()函數(shù)來(lái)選擇處理指令節(jié)點(diǎn)，例如：//processing-instruction('xml-stylesheet')表示選擇所有的xml-stylesheet處理指令節(jié)點(diǎn)。

- 注釋節(jié)點(diǎn)：表示XML或HTML文檔中的注釋。注釋是一種用來(lái)添加說(shuō)明和備注的機(jī)制。在XPath中，可以使用comment()函數(shù)來(lái)選擇注釋節(jié)點(diǎn)，例如：//comment()表示選擇所有的注釋節(jié)點(diǎn)。

- 文檔節(jié)點(diǎn)：表示整個(gè)XML或HTML文檔。文檔節(jié)點(diǎn)也被稱為根節(jié)點(diǎn)。在XPath中，可以使用/符號(hào)來(lái)選擇文檔節(jié)點(diǎn)，例如：/表示選擇整個(gè)文檔節(jié)點(diǎn)。

本文使用XML示例如下

<bookstore>
    <book category='fiction'>
        <title>活著</title>
        <author>余華</author>
        <press>作家出版社</press>
        <date>2012-8-1</date>
        <page>191</page>
        <price>20.00</price>
        <staple>平裝</staple>
        <series>余華作品（2012版）</series>
        <isbn>9787506365437</isbn>
    </book>
    <book category='non-fiction'>
        <title>撒哈拉的故事</title>
        <author>三毛</author>
        <press>哈爾濱出版社</press>
        <date>2003-8</date>
        <page>217</page>
        <price>15.80</price>
        <staple>平裝</staple>
        <series>三毛全集（華文天下2003版）</series>
        <isbn>9787806398791</isbn>
    </book>
    <book category='non-fiction'>
        <title>明朝那些事兒（1-9）</title>
        <author>當(dāng)年明月</author>
        <press>中國(guó)海關(guān)出版社</press>
        <date>2009-4</date>
        <page>2682</page>
        <price>358.20</price>
        <staple>精裝16開(kāi)</staple>
        <series>明朝那些事兒（典藏本）</series>
        <isbn>9787801656087</isbn>
    </book>
</bookstore>

除了這些基本節(jié)點(diǎn)類型之外，XPath還支持使用通配符：

通配符	描述	示例
`*`	匹配任何元素節(jié)點(diǎn)	`//book/*` 選取`<book>`元素下的任意子元素節(jié)點(diǎn)
`@*`	匹配任何屬性節(jié)點(diǎn)	`//book/@*` 選取`<book>`元素上的任意屬性節(jié)點(diǎn)，如`<book category='fiction'>`中的`category`屬性
`node()`	匹配任何類型的節(jié)點(diǎn)	`//book/node()` 選取`<book>`元素下的所有類型的子節(jié)點(diǎn)，包括元素節(jié)點(diǎn)、文本節(jié)點(diǎn)、注釋節(jié)點(diǎn)等

以及使用謂詞來(lái)進(jìn)一步篩選選擇的節(jié)點(diǎn)集。謂詞是一種用來(lái)對(duì)節(jié)點(diǎn)進(jìn)行過(guò)濾和排序的機(jī)制，可以包含比較運(yùn)算符、邏輯運(yùn)算符和函數(shù)等，部分示例如下：

謂語(yǔ)	描述	示例
`[position()=n]`	選取位于指定位置的節(jié)點(diǎn)。`n` 是節(jié)點(diǎn)的位置（從 1 開(kāi)始計(jì)數(shù)）	`//book[position()=1]` 選取第一個(gè)`<book>`元素
`[last()=n]`	選取位于指定位置的最后一個(gè)節(jié)點(diǎn)。`n` 是節(jié)點(diǎn)的位置（從 1 開(kāi)始計(jì)數(shù)）	`//book[last()=1]` 選取最后一個(gè)`<book>`元素
`[contains(string, substring)]`	選取包含指定子字符串的節(jié)點(diǎn)。`string` 是節(jié)點(diǎn)的文本內(nèi)容，`substring` 是要查找的子字符串	`//book[contains(title, 'XML')]` 選取標(biāo)題中包含子字符串`'XML'`的`<book>`元素
`[starts-with(string, prefix)]`	選取以指定前綴開(kāi)始的節(jié)點(diǎn)。`string` 是節(jié)點(diǎn)的文本內(nèi)容，`prefix` 是要匹配的前綴字符串	`//book[starts-with(title, 'The')]` 選取標(biāo)題以`'The'`開(kāi)始的`<book>`元素
`[text()=string]`	選取文本內(nèi)容完全匹配的節(jié)點(diǎn)。`string` 是要匹配的文本內(nèi)容	`//book[text()='Book Title']` 選取文本內(nèi)容為`'Book Title'`的`<book>`元素
`[@category='non-fiction']`	選取具有指定屬性值的節(jié)點(diǎn)。`category` 是屬性名稱，`non-fiction` 是要匹配的值	`//book[@category='non-fiction']` 選取具有屬性`category`值為`'non-fiction'`的`<book>`元素

XPath使用路徑表達(dá)式來(lái)選取XML或HTML文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。下面是一些常用的路徑表達(dá)式：

表達(dá)式	描述	示例
nodename	選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)	`//bookstore/book` 選取`<bookstore>`元素下所有`<book>`子元素
/	從根節(jié)點(diǎn)選取直接子節(jié)點(diǎn)	`/bookstore` 從根節(jié)點(diǎn)選取`<bookstore>`元素
//	從當(dāng)前節(jié)點(diǎn)選取子孫節(jié)點(diǎn)	`//book` 選取所有`<book>`元素，無(wú)論它們?cè)谖臋n中的位置
.	選取當(dāng)前節(jié)點(diǎn)	`./title` 選取當(dāng)前節(jié)點(diǎn)的`<title>`子元素
..	選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)	`../price` 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)的`<price>`子元素
@	選取屬性	`//book/@id` 選取所有`<book>`元素的`id`屬性

三、XPath使用示例

選擇所有名稱為title的節(jié)點(diǎn)：//title
選擇所有名稱為title，同時(shí)屬性lang的值為eng的節(jié)點(diǎn)：//title[@lang='eng']
選擇id為bookstore的節(jié)點(diǎn)的所有子節(jié)點(diǎn)：/bookstore/*
選擇id為bookstore的節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)：/bookstore//*
選擇id為bookstore的節(jié)點(diǎn)的直接子節(jié)點(diǎn)中的第一個(gè)節(jié)點(diǎn)：/bookstore/*[1]
選擇id為bookstore的節(jié)點(diǎn)的屬性為category的值：/bookstore/@category

四、XPath的高級(jí)用法

XPath語(yǔ)言提供了一些高級(jí)的功能，包括：

軸（Axes）：XPath提供了幾種軸，用于在文檔中導(dǎo)航。包括child（子元素）、ancestor（祖先元素）、descendant（后代元素）和following-sibling（后續(xù)同級(jí)元素）等。

函數(shù)：XPath提供了一些內(nèi)置的函數(shù)，如count(),concat(),string(),local-name(),contains(),not(),string-length()等，可以用于處理和操作節(jié)點(diǎn)和屬性3。

條件語(yǔ)句：XPath提供了條件語(yǔ)句（如if-else語(yǔ)句），使得我們可以根據(jù)某些條件來(lái)選擇性地提取元素或?qū)傩?。

五、.NET中使用

// XML 文檔內(nèi)容
string xmlContent = @"
            <bookstore>
                <book category='fiction'>
                    <title>活著</title>
                    <author>余華</author>
                    <press>作家出版社</press>
                    <date>2012-8-1</date>
                    <page>191</page>
                    <price>20.00</price>
                    <staple>平裝</staple>
                    <series>余華作品（2012版）</series>
                    <isbn>9787506365437</isbn>
                </book>
                <book category='non-fiction'>
                    <title>撒哈拉的故事</title>
                    <author>三毛</author>
                    <press>哈爾濱出版社</press>
                    <date>2003-8</date>
                    <page>217</page>
                    <price>15.80</price>
                    <staple>平裝</staple>
                    <series>三毛全集（華文天下2003版）</series>
                    <isbn>9787806398791</isbn>
                </book>
                <book category='non-fiction'>
                    <title>明朝那些事兒（1-9）</title>
                    <author>當(dāng)年明月</author>
                    <press>中國(guó)海關(guān)出版社</press>
                    <date>2009-4</date>
                    <page>2682</page>
                    <price>358.20</price>
                    <staple>精裝16開(kāi)</staple>
                    <series>明朝那些事兒（典藏本）</series>
                    <isbn>9787801656087</isbn>
                </book>
            </bookstore>";

// 創(chuàng)建 XPath 文檔
using (XmlReader reader = XmlReader.Create(new StringReader(xmlContent)))
{
    XPathDocument xpathDoc = new XPathDocument(reader);

    // 創(chuàng)建 XPath 導(dǎo)航器
    XPathNavigator navigator = xpathDoc.CreateNavigator();

    // 使用 XPath 查詢（選擇所有位于bookstore下、其category屬性值為'fiction'的book元素中的title元素）
    string xpathExpression = "http://bookstore/book[@category='fiction']/title";
    XPathNodeIterator nodes = navigator.Select(xpathExpression);

    // 檢查是否有匹配的節(jié)點(diǎn)
    if (nodes != null)
    {
        // 遍歷結(jié)果
        while (nodes.MoveNext())
        {
            // 檢查當(dāng)前節(jié)點(diǎn)是否為空
            if (nodes.Current != null)
            {
                Console.WriteLine(nodes.Current.Value);
            }
        }
    }
}

六、XPath在自動(dòng)化測(cè)試中的應(yīng)用

XPath最常用的場(chǎng)景之一就是在自動(dòng)化測(cè)試中用來(lái)選擇HTML DOM節(jié)點(diǎn)。例如，在Selenium自動(dòng)化測(cè)試中，可以使用XPath作為選擇web元素的主要方法之一。通過(guò)XPath選擇器，可以方便地定位頁(yè)面中的任意元素，進(jìn)行自動(dòng)化測(cè)試操作。

七、XPath的優(yōu)勢(shì)與不足

XPath的優(yōu)勢(shì)在于其強(qiáng)大的選擇功能，可以通過(guò)簡(jiǎn)單的路徑選擇語(yǔ)法，選取文檔中的任意節(jié)點(diǎn)或節(jié)點(diǎn)集。此外，XPath還支持超過(guò)100個(gè)內(nèi)建函數(shù)，可用于字符串處理、數(shù)值計(jì)算、日期和時(shí)間比較等等。這些函數(shù)可以大大提高數(shù)據(jù)處理的效率。

然而，XPath也有其不足之處。首先，XPath對(duì)于復(fù)雜的文檔結(jié)構(gòu)可能會(huì)變得非常復(fù)雜，導(dǎo)致選擇語(yǔ)句難以理解和維護(hù)。其次，XPath在處理大量數(shù)據(jù)時(shí)可能會(huì)出現(xiàn)性能問(wèn)題，因?yàn)樗枰闅v整個(gè)文檔來(lái)查找匹配的節(jié)點(diǎn)。因此，在使用XPath時(shí)需要注意優(yōu)化查詢語(yǔ)句，提高查詢效率。

八、總結(jié)

學(xué)會(huì)XPath，可以輕松抓取網(wǎng)頁(yè)數(shù)據(jù)，提高數(shù)據(jù)獲取效率。本文介紹了XPath的定義、基礎(chǔ)語(yǔ)法、使用示例、高級(jí)用法、.NET中使用舉例以及在自動(dòng)化測(cè)試中的應(yīng)用場(chǎng)景，同時(shí)也討論了XPath的優(yōu)勢(shì)與不足。希望本文能夠幫助讀者更好地理解和掌握XPath的使用方法。

您可能感興趣的文章: