python如何爬取動(dòng)態(tài)網(wǎng)站
python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲,爬取某些頁面,獲得有價(jià)值的信息!但許多時(shí)候,爬蟲取到的頁面僅僅是一個(gè)靜態(tài)的頁面,即網(wǎng)頁 的源代碼,就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動(dòng)態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執(zhí)行后輸出的信息。
1、兩種基本的解決方案
1.1 用dryscrape庫動(dòng)態(tài)抓取頁面
js腳本是通過瀏覽器來執(zhí)行并返回信息的,所以,抓取js執(zhí)行后的頁面,一個(gè)最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個(gè)開源的瀏覽器引擎,python提供了許多庫可以調(diào)用這個(gè)引擎,dryscrape便是其中之一,它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁!
import dryscrape # 使用dryscrape庫 動(dòng)態(tài)抓取頁面 def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #請(qǐng)求頁面 response=session_req.body() #網(wǎng)頁的文本 #print(response) return response get_text_line(get_url_dynamic(url)) #將輸出一條文本
這里對(duì)于其余包含js的網(wǎng)頁也是適用的!雖然可以滿足抓取動(dòng)態(tài)頁面的要求,但缺點(diǎn)還是很明顯的:慢!太慢了,其實(shí)想一想也合理,python調(diào)用 webkit請(qǐng)求頁面,而且等頁面加載完,載入js文件,讓js執(zhí)行,將執(zhí)行后的頁面返回,慢一點(diǎn)也是應(yīng)該的!除外還有很多庫可以調(diào)用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個(gè)瀏覽器),pyjamas等等,聽說它們也可以實(shí)現(xiàn)相同的功能!
1.2 selenium web測(cè)試框架
selenium是一個(gè)web測(cè)試框架,它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請(qǐng)求,所以,它同樣可以實(shí)現(xiàn)抓取頁面的要求。
# 使用 selenium webdriver 可行,但會(huì)實(shí)時(shí)打開瀏覽器窗口
def get_url_dynamic2(url): driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的 driver.get(url) #請(qǐng)求頁面,會(huì)打開一個(gè)瀏覽器窗口 html_text=driver.page_source driver.quit() #print html_text return html_text get_text_line(get_url_dynamic2(url)) #將輸出一條文本
這也不失為一條臨時(shí)的解決方案!與selenium類似的框架還有一個(gè)windmill,感覺稍復(fù)雜一些,就不再贅述!
2、selenium的安裝與使用
2.1 selenium的安裝
在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:
1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path="geckodriver";而2.x是executable_path="wires"
2. firefox 47以上版本,需要下載第三方driver,即geckodriver
還需要一些特殊操作:
1. 下載 geckodriverckod 地址:
mozilla/geckodriver
2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:
sudo mv ~/Downloads/geckodriver /usr/local/bin/
2.2 selenium的使用
1. 運(yùn)行報(bào)錯(cuò):
driver = webdriver.chrome() TypeError: 'module' object is not callable
解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie
2. 通過
content = driver.find_element_by_class_name('content')
來定位元素時(shí),該方法返回的是FirefoxWebElement,想要獲取包含的值時(shí),可以通過
value = content.text
到此這篇關(guān)于python如何爬取動(dòng)態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動(dòng)態(tài)網(wǎng)站內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python采集貓眼兩萬條數(shù)據(jù) 對(duì)《無名之輩》影評(píng)進(jìn)行分析
這篇文章主要給大家介紹了關(guān)于利用Python榮國采集兩萬條貓眼數(shù)據(jù),對(duì)《無名之輩》影評(píng)進(jìn)行分析的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-12-12Python 使用type來定義類的實(shí)現(xiàn)
今天小編就為大家分享一篇Python 使用type來定義類的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-11-11python實(shí)現(xiàn)selenium網(wǎng)絡(luò)爬蟲的方法小結(jié)
這篇文章主要介紹了python實(shí)現(xiàn)selenium網(wǎng)絡(luò)爬蟲的方法小結(jié),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-03-03python導(dǎo)入其它py文件的實(shí)現(xiàn)步驟
本文主要介紹了python導(dǎo)入其它py文件的實(shí)現(xiàn)步驟,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2024-02-02python自動(dòng)化測(cè)試之破解滑動(dòng)驗(yàn)證碼
這篇文章介紹了python自動(dòng)化破解之破解滑動(dòng)驗(yàn)證碼的解決方案,文中通過示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-07-07PyTorch之torch.matmul函數(shù)的使用及說明
PyTorch的torch.matmul是一個(gè)強(qiáng)大的矩陣乘法函數(shù),支持不同維度張量的乘法運(yùn)算,包括廣播機(jī)制。提供了矩陣乘法的語法,參數(shù)說明,以及使用示例,幫助理解其應(yīng)用方式和乘法規(guī)則2024-09-09Python實(shí)現(xiàn)尋找回文數(shù)字過程解析
這篇文章主要介紹了Python實(shí)現(xiàn)尋找回文數(shù)字過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06