欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

淺談python爬蟲使用Selenium模擬瀏覽器行為

 更新時間:2018年02月23日 10:51:59   作者:十月狐貍  
這篇文章主要介紹了淺談python爬蟲使用Selenium模擬瀏覽器行為,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧

前幾天有位微信讀者問我一個爬蟲的問題,就是在爬去百度貼吧首頁的熱門動態(tài)下面的圖片的時候,爬取的圖片總是爬取不完整,比首頁看到的少。原因他也大概分析了下,就是后面的圖片是動態(tài)加載的。他的問題就是這部分動態(tài)加載的圖片該怎么爬取到。

分析

他的代碼比較簡單,主要有以下的步驟:使用BeautifulSoup庫,打開百度貼吧的首頁地址,再解析得到id為new_list標簽底下的img標簽,最后將img標簽的圖片保存下來。

headers = {
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
}

data=requests.get("https://tieba.baidu.com/index.html",headers=headers)
html=BeautifulSoup(data.text,'lxml')

前面提到過,有部分圖片是動態(tài)加載的,那么首先我們得弄清楚,這部分圖片是怎么動態(tài)加載的。在瀏覽器中打開百度貼吧的首頁,可以明顯的看到,在往下滾動滾動條的時候,當滾動到底部的時候,滾動條縮短了,并向上移動了一段距離。這個現(xiàn)象也正是有DOM元素動態(tài)的添加到了html文檔的一個表現(xiàn)。動態(tài)加載數(shù)據(jù)無非就是ajax請求,而ajax本質(zhì)上就是XMLHttpRequest請求(簡稱xhr)。在谷歌瀏覽器中,我們可以通過開發(fā)者工具的network面板來監(jiān)測xhr請求。

剛打開首頁時的xhr請求,這里的請求都和要爬取的圖片無關(guān)。

滾動條向下第1次滾動到底部,這里請求的是第20-40條熱門動態(tài),包含要爬取圖片。

滾動條向下第2次滾動到底部,這里請求的是第40-60條熱門動態(tài),包含要爬取圖片。并且返回的的has_more:false表明沒有跟多數(shù)據(jù)了。

滾動條向下第3次滾動到底部,再無xhr請求。

解決方案

根據(jù)上面的分析,我們已經(jīng)明白,單純使用BeautifulSoup進行爬蟲的時候,只能爬取到1-20條熱門動態(tài)里面的圖片。為了爬取到完整的熱門動態(tài)里面的圖片,我們則需要模擬瀏覽器的滾動條滾動,讓網(wǎng)頁去觸發(fā)xhr請求更多的熱門動態(tài)。

在python中,如果需要模擬瀏覽器的行為,可以使用selenium庫。selenium庫是一個自動化測試框架,可以用來模擬測試瀏覽器的各種行為,這里我們使用它來模擬瀏覽器打開百度貼吧的首頁,并模擬滾動條向下滾動到底部的操作。

安裝

pip install selenium

下載瀏覽器驅(qū)動

火狐瀏覽器驅(qū)動,其下載地址是:https://github.com/mozilla/geckodriver/releases

谷歌瀏覽器驅(qū)動,其下載地址是:http://chromedriver.storage.googleapis.com/index.html?path=2.33/

opera瀏覽器驅(qū)動,其下載地址是:https://github.com/operasoftware/operachromiumdriver/releases

對照自己電腦安裝的瀏覽器和對應的版本,分別從上面的地址下載驅(qū)動文件,也可以從我的github項目中統(tǒng)一下載以上幾個驅(qū)動(地址:https://github.com/Sesshoumaru/attachments/tree/master/Selenium%20WebDriver)。下載解壓后,將所在的目錄添加系統(tǒng)的環(huán)境變量中。當然你也可以將下載下來的驅(qū)動放到python安裝目錄的lib目錄中,因為它本身已經(jīng)存在于環(huán)境變量(我就是這么干的)。

使用python代碼模擬瀏覽器行為

要使用selenium先需要定義一個具體browser對象,這里就定義的時候就看你電腦安裝的具體瀏覽器和安裝的哪個瀏覽器的驅(qū)動。這里以火狐瀏覽器為例:

from selenium import webdriver
browser = webdriver.Firefox()

再模擬打開貼吧首頁:

再模擬滾動條滾動到底部

for i in range(1, 5):
 browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
 time.sleep(1)

最后再使用BeautifulSoup,解析圖片標簽:

html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")

幾個注意點

必須安裝瀏覽器和瀏覽器驅(qū)動,并且瀏覽器和瀏覽器驅(qū)動要配到

即如果使用谷歌瀏覽器模擬網(wǎng)頁行為,則需要下載谷歌瀏覽器驅(qū)動;
如果使用火狐瀏覽器模擬網(wǎng)頁行為,則需要下載火狐瀏覽器驅(qū)動

瀏覽器驅(qū)動所在的目錄要在環(huán)境變量中,或者定義瀏覽器browser的時候指定驅(qū)動的路徑

selenium更多用法

查找元素

from selenium import webdriver

browser = webdriver.Firefox()
browser.get("https://tieba.baidu.com/index.html")

new_list = browser.find_element_by_id('new_list')
user_name = browser.find_element_by_name ('user_name')
active = browser.find_element_by_class_name ('active')
p = browser.find_element_by_tag_name ('p')

# find_element_by_name 通過name查找單個元素
# find_element_by_xpath 通過xpath查找單個元素
# find_element_by_link_text 通過鏈接查找單個元素
# find_element_by_partial_link_text 通過部分鏈接查找單個元素
# find_element_by_tag_name 通過標簽名稱查找單個元素
# find_element_by_class_name 通過類名查找單個元素
# find_element_by_css_selector 通過css選擇武器查找單個元素
# find_elements_by_name 通過name查找多個元素
# find_elements_by_xpath 通過xpath查找多個元素
# find_elements_by_link_text 通過鏈接查找多個元素
# find_elements_by_partial_link_text 通過部分鏈接查找多個元素
# find_elements_by_tag_name 通過標簽名稱查找多個元素
# find_elements_by_class_name 通過類名查找多個元素
# find_elements_by_css_selector 通過css選擇武器查找多個元素

獲取元素信息

btn_more = browser.find_element_by_id('btn_more')
print(btn_more.get_attribute('class')) # 獲取屬性
print(btn_more.get_attribute('href')) # 獲取屬性
print(btn_more.text) # 獲取文本值

元素交互操作

btn_more = browser.find_element_by_id('btn_more')
btn_more.click() # 模擬點擊,可以模擬點擊加載更多

input_search = browser.find_element(By.ID,'q')
input_search.clear() # 清空輸入

執(zhí)行JavaScript

# 執(zhí)行JavaScript腳本
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python 爬蟲 批量獲取代理ip的實例代碼

    python 爬蟲 批量獲取代理ip的實例代碼

    今天小編就為大家分享一篇python 爬蟲 批量獲取代理ip的實例代碼,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • python打包成 .so的實現(xiàn)步驟

    python打包成 .so的實現(xiàn)步驟

    當需要將產(chǎn)品發(fā)布到外部環(huán)境的時候,源碼的保護尤為重要,因此需要將python文件打成so文件的目的就是為了保護源碼,本文主要介紹了python打包成.so的實現(xiàn)步驟,感興趣的可以了解一下
    2023-12-12
  • Python多線程threading join和守護線程setDeamon原理詳解

    Python多線程threading join和守護線程setDeamon原理詳解

    這篇文章主要介紹了Python多線程threading join和守護線程setDeamon原理詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-03-03
  • 詳解tensorflow之過擬合問題實戰(zhàn)

    詳解tensorflow之過擬合問題實戰(zhàn)

    這篇文章主要介紹了詳解tensorflow之過擬合問題實戰(zhàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-11-11
  • langchain中的chat?models介紹和使用實例

    langchain中的chat?models介紹和使用實例

    這篇文章主要介紹了langchain中的chat?models介紹和使用實例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-11-11
  • Python matplotlib的使用并自定義colormap的方法

    Python matplotlib的使用并自定義colormap的方法

    今天小編就為大家分享一篇Python matplotlib的使用并自定義colormap的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • Python 分發(fā)包中添加額外文件的方法

    Python 分發(fā)包中添加額外文件的方法

    這篇文章主要介紹了Python 分發(fā)包中添加額外文件的方法,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-08-08
  • 淺談python 線程池threadpool之實現(xiàn)

    淺談python 線程池threadpool之實現(xiàn)

    這篇文章主要介紹了淺談python 線程池threadpool之實現(xiàn),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-11-11
  • Python持續(xù)監(jiān)聽文件變化代碼實例

    Python持續(xù)監(jiān)聽文件變化代碼實例

    這篇文章主要介紹了Python持續(xù)監(jiān)聽文件變化代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-07-07
  • Python異步發(fā)送日志到遠程服務器詳情

    Python異步發(fā)送日志到遠程服務器詳情

    這篇文章主要介紹了Python異步發(fā)送日志到遠程服務器詳情,文章通過簡單輸出到cmd和文件中的代碼展開詳情,需要的朋友可以參考一下
    2022-07-07

最新評論