快捷導(dǎo)航

python+selenium使用xpath定位的問題及解決

更新時間：2024年05月16日 14:39:32 作者：wuXu_0720

這篇文章主要介紹了python+selenium使用xpath定位的問題及解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教

python用selenium調(diào)chrome爬取網(wǎng)頁信息遇到報錯

1.InvalidSelectorException: Message: invalid selector: The result of the xpath expression is [object Attr]. It should be an element

原因是selenium不支持從xpath中直接獲取text文本信息。

name=web.find_element(By.XPATH,"/html/body/div[3]/div/div[2]/h2/text()")
website=web.find_element(By.XPATH,"/html/body/div[3]/div/div[2]/a[3]/@href")

xpath表達(dá)式修改為：

name=web.find_element(By.XPATH,"/html/body/div[3]/div/div[2]/h2/text()")
website=web.find_element(By.XPATH,"/html/body/div[3]/div/div[2]/a[3]/@href")

2.Message: no such element: Unable to locate element:

xpath表達(dá)式一直無法準(zhǔn)確定位，原因是通過瀏覽器開發(fā)者工具copy的xpath表達(dá)式和實際selenium獲取的網(wǎng)頁資源不同，表達(dá)式錯誤無法定位。（經(jīng)對比發(fā)現(xiàn)是selenium有一個需用戶同意的cookie彈窗）

通過print(web.page_source)拿到selenium獲取的網(wǎng)頁資源，發(fā)現(xiàn)有一個div未加載出來。

其實應(yīng)該是body下第2個div。

通過開發(fā)者工具重新獲得準(zhǔn)確的xpath表達(dá)式。

原xpath表達(dá)式：

title = web.find_element(By.XPATH,"/html/body/div[3]/div/div[2]/h2").text

改為正確的xpath表達(dá)式：

title = web.find_element(By.XPATH,"/html/body/div[2]/div/div[2]/h2").text

3.使用發(fā)現(xiàn)selenium效率過低，一個網(wǎng)頁全部加載完畢要1分鐘左右。

解決辦法是設(shè)置最長加載時長，超過時長則停止加載，開始定位數(shù)據(jù)。

from selenium.common.exceptions import TimeoutException
 
web = webdriver.Chrome()
web.set_page_load_timeout(10)#設(shè)置頁面加載時長
web.set_script_timeout(10)#設(shè)置JS加載時長
 
try:
	web.get(str(url))
except TimeoutException: #加載超時異常處理
	web.execute_script('window.stop()')

python selenium xpath高級定位用法

目前很多網(wǎng)頁前端代碼是框架或 JS 生成的，就導(dǎo)致了混亂而難以定位。

為了快速而又復(fù)雜定位 Selenium 中有一個 Xpath 選擇器，可以選擇復(fù)雜的頁面定位，也是爬蟲在網(wǎng)頁定位中的較優(yōu)的選擇。

1、通過絕對路徑定位元素

driver.find_element_by_xpath("html/body/div/form/input")

2、通過相對路徑定位元素

driver.find_element_by_xpath("http://input")

3、使用索引定位元素

driver.find_element_by_xpath("http://input[1]")

4、使用XPATH的屬性值定位元素

driver.find_element_by_xpath("http://input[@id='username']")
driver.find_element_by_xpath("http://input[@type='submit'][@name='sub1']")
driver.find_element_by_xpath("http://input[@type='submit' and @name='sub1']")
driver.find_element_by_xpath("http://input[@type='submit' or @name='sub1']")

5、使用XPATH的屬性名稱定位元素

# 查找所有input標(biāo)簽中含有type屬性的元素
driver.find_element_by_xpath("http://input[@type]")
 
# 查找所有a標(biāo)簽中含有onclick屬性的元素
driver.find_element_by_xpath("http://a[@onclick]")
 
.....

6、使用任意值來匹配屬性及元素

# 匹配所有input元素中含有屬性的值為readonly的元素
driver.find_element_by_xpath("http://input[@*='readonly']"))

7、使用模糊的屬性值匹配

starts-with()：匹配一個屬性開始位置的關(guān)鍵字，是模糊定位的一種。

# 匹配id以submit開頭的元素，如：id='submit'
driver.find_element_by_xpath("http://input[start-with(@id,'submit')]")

ends-with()：匹配一個屬性結(jié)束位置的關(guān)鍵字，是模糊定位的一種。

# 匹配id以submit結(jié)尾的元素，如：id='submit'
driver.find_element_by_xpath("http://input[ends-with(@id,'submit')]")
contains()：匹配一個屬性值中包含的字符串，也是模糊定位的一種。

# 匹配id中含有submit的元素，如：id='submit'
driver.find_element_by_xpath("http://input[contains(@id,'submit')]")
 
# 匹配name屬性中包含na關(guān)鍵字的頁面元素
driver.find_element_by_xpath("http://input[contains(@name,'na')]")
text()：根據(jù)文本信息匹配元素位置。

# 如：<a  rel="external nofollow" >百度搜索</a>
driver.find_element_by_xpath("http://a[text()='百度搜索'] ")
driver.find_element_by_xpath("http://a[contains(text(),"百度搜索")]")
last()：函數(shù)位置定位。

# 表示div元素->form元素->input元素的最后一個子元素，得到id值為e2的E元素
driver.find_element_by_xpath("/div/form/input[last()]")

8、過慮某個元素

name()：獲取標(biāo)簽名稱。

# 表示過慮掉在 div id='query_reulst_box' 的下的 style 標(biāo)簽和 meta 標(biāo)簽
driver.find_element_by_xpath("http://div[@id='query_reulst_box']/*[not(name()='style' and name()='meta')]//text())

總結(jié)

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python+selenium使用xpath定位的問題及解決

目錄

python用selenium調(diào)chrome爬取網(wǎng)頁信息遇到報錯

python selenium xpath高級定位用法

1、通過絕對路徑定位元素

2、通過相對路徑定位元素

3、使用索引定位元素

4、使用XPATH的屬性值定位元素

5、使用XPATH的屬性名稱定位元素

6、使用任意值來匹配屬性及元素

7、使用模糊的屬性值匹配

8、過慮某個元素

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python+selenium使用xpath定位的問題及解決

目錄

python用selenium調(diào)chrome爬取網(wǎng)頁信息遇到報錯

python selenium xpath高級定位用法

1、通過絕對路徑定位元素

2、通過相對路徑定位元素

3、使用索引定位元素

4、使用XPATH的屬性值定位元素

5、使用XPATH的屬性名稱定位元素

6、使用任意值來匹配屬性及元素

7、使用模糊的屬性值匹配

8、過慮某個元素

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1、通過絕對路徑定位元素

3、使用索引定位元素

4、使用XPATH的屬性值定位元素

5、使用XPATH的屬性名稱定位元素

6、使用任意值來匹配屬性及元素

7、使用模糊的屬性值匹配