淺談selenium如何應(yīng)對(duì)網(wǎng)頁(yè)內(nèi)容需要鼠標(biāo)滾動(dòng)加載的問(wèn)題
相信大家在selenium爬取網(wǎng)頁(yè)的時(shí)候都遇到過(guò)這樣的問(wèn)題:就是網(wǎng)頁(yè)內(nèi)容需要用鼠標(biāo)滾動(dòng)加載剩余內(nèi)容,而不是一次全部加載出網(wǎng)頁(yè)的全部?jī)?nèi)容,這個(gè)時(shí)候如果要模擬翻頁(yè)的時(shí)候就必須加載出全部的內(nèi)容,不然定位元素會(huì)找不到,出現(xiàn)報(bào)錯(cuò)。
這里提供兩種方法供大家參考
一,通過(guò)selenium模擬瀏覽器,然后設(shè)置瀏覽器高度足夠長(zhǎng),最后延時(shí)使之能夠?qū)㈨?yè)面的內(nèi)容都能夠加載出來(lái)
import time from selenium import webdriver driver = webdriver.Firefox() driver.set_window_size(1000,30000) driver.get(url) time.sleep(5)
二,通過(guò)selenium模擬瀏覽器下拉操作
from selenium import webdriver import time browser.execute_script("window.scrollBy(0,3000)") time.sleep(1) browser.execute_script("window.scrollBy(0,5000)") time.sleep(1) browser.execute_script("window.scrollBy(0,8000)") time.sleep(1)
補(bǔ)充知識(shí):針對(duì)懶加載如何實(shí)現(xiàn)selenium 滑動(dòng)至頁(yè)面底部page_source一次性包含全部網(wǎng)頁(yè)內(nèi)容
有時(shí)網(wǎng)站使用了懶加載技術(shù):只有在瀏覽器中縱向滾動(dòng)條滾動(dòng)到指定的位置時(shí),頁(yè)面的元素才會(huì)被動(dòng)態(tài)加載。
注意,在加載之前,selenium的page_source是不會(huì)包含該頁(yè)面的內(nèi)容,page_source只包含加載出來(lái)的頁(yè)面內(nèi)容。
那么如何實(shí)現(xiàn)加載全部?jī)?nèi)容了,就需要模擬人滾動(dòng)滾動(dòng)條的行為,實(shí)現(xiàn)頁(yè)面的加載
from selenium.webdriver.chrome.options import Options from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC def scroll_until_loaded(self): check_height = self.browser.execute_script("return document.body.scrollHeight;") while True: self.browser.execute_script("window.scrollTo(0, document.body.scrollHeight);") try: self.wait.until(lambda driver: self.browser.execute_script("return document.body.scrollHeight;") > check_height) check_height = self.browser.execute_script("return document.body.scrollHeight;") except TimeoutException: break
這里懶加載并不是一直有效, 當(dāng)網(wǎng)速不好時(shí),加載超過(guò)self.wait()時(shí)間, 頁(yè)面還沒(méi)加載出來(lái)時(shí), 會(huì)認(rèn)為全部加載完成, page_source里面的代碼就會(huì)是以前加載出來(lái)的, 所以執(zhí)行翻頁(yè)操作后, 要執(zhí)行time.sleep(3), 等待網(wǎng)頁(yè)加載, 更新html再獲取網(wǎng)頁(yè)源代碼
以上這篇淺談selenium如何應(yīng)對(duì)網(wǎng)頁(yè)內(nèi)容需要鼠標(biāo)滾動(dòng)加載的問(wèn)題就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
如何優(yōu)雅地處理Django中的favicon.ico圖標(biāo)詳解
默認(rèn)情況下,瀏覽器訪問(wèn)一個(gè)網(wǎng)站的時(shí)候,同時(shí)還會(huì)向服務(wù)器請(qǐng)求"/favicon.ico"這個(gè)URL,目的是獲取網(wǎng)站的圖標(biāo),下面這篇文章主要給大家介紹了關(guān)于如何優(yōu)雅地處理Django中favicon.ico圖標(biāo)的相關(guān)資料,需要的朋友可以參考下2018-07-07Python3簡(jiǎn)單實(shí)例計(jì)算同花的概率代碼
這篇文章主要介紹了Python3簡(jiǎn)單實(shí)例計(jì)算同花的概率代碼,具有一定參考價(jià)值,需要的朋友可以了解下。2017-12-12Python使用XlsxWriter庫(kù)操作Excel詳解
XlsxWriter 是一個(gè)功能強(qiáng)大的 Python 模塊,專(zhuān)門(mén)用于生成 Microsoft Excel 2007及以上版本的電子表格文件,本文主要為大家介紹了如何使用XlsxWriter庫(kù)進(jìn)行Excel基本操作,需要的可以參考下2023-11-11Python股票開(kāi)源庫(kù)akshare的具體使用
AKShare是一個(gè)開(kāi)源財(cái)經(jīng)數(shù)據(jù)接口庫(kù),本文主要介紹了Python股票開(kāi)源庫(kù)akshare的具體使用,具有一定的參考價(jià)值,感興趣的可以了解一下2024-04-04python處理 yaml 時(shí)保持輸入輸出格式一致的問(wèn)題記錄
這篇文章主要介紹了python處理 yaml 時(shí)保持輸入輸出格式一致的問(wèn)題記錄,要想保持順序不變?cè)赿ump時(shí)添加sort_keys=False,使yaml格式保持原來(lái)的排序,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下2024-06-06一篇文章帶你學(xué)習(xí)Python3的高級(jí)特性(2)
這篇文章主要為大家詳細(xì)介紹了Python3的高階函數(shù),主要介紹什么是高級(jí)特性,高級(jí)特性的用法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-01-01