詳解使用Selenium爬取豆瓣電影前100的愛(ài)情片相關(guān)信息
什么是Selenium
Selenium是一個(gè)用于測(cè)試網(wǎng)站的自動(dòng)化測(cè)試工具,支持各種瀏覽器包括Chrome、Firefox、Safari等主流界面瀏覽器,同時(shí)也支持phantomJS無(wú)界面瀏覽器。
1.準(zhǔn)備工作
由于Selenium的環(huán)境配置過(guò)程比較繁瑣,我會(huì)盡可能詳細(xì)的對(duì)其進(jìn)行講解。
1.1 安裝Selenium
由于Selenium的環(huán)境配置過(guò)程比較繁瑣,我會(huì)多花一些篇幅對(duì)其進(jìn)行講解??梢栽赾md命令框輸入以下內(nèi)容安裝Selenium庫(kù)。
pip install Selenium
1.2 瀏覽器驅(qū)動(dòng)安裝
Selenium的使用必須有相應(yīng)瀏覽器的webdriver,以Chrome瀏覽器為例,可以在這個(gè)鏈接查看自己的瀏覽器對(duì)應(yīng)的Chromedriver的版本。
1.3 環(huán)境變量添加
設(shè)置瀏覽器的地址非常簡(jiǎn)單。 我們可以手動(dòng)創(chuàng)建一個(gè)存放瀏覽器驅(qū)動(dòng)的目錄, , 將下載的瀏覽器驅(qū)動(dòng)文件丟到該目錄下。然后在我的電腦–>屬性–>系統(tǒng)設(shè)置–>高級(jí)–>環(huán)境變量–>系統(tǒng)變量–>Path,將該目錄添加到Path的值中。如果配置變量有問(wèn)題,可以參照這個(gè)鏈接
注意,如果系統(tǒng)報(bào)錯(cuò)為:
selenium.common.exceptions.SessionNotCreatedException: Message: session not created:This version of ChromeDriver only supports Chrome version***
表示當(dāng)前下載的Chromedriver的版本與自己瀏覽器的版本無(wú)法對(duì)應(yīng),可以通過(guò)Chrome的幫助查看自己的瀏覽器版本
1.4 小試牛刀
接下來(lái)就可以測(cè)試我們的selenium是不是可以正常使用了,以一個(gè)簡(jiǎn)單的例子開(kāi)始:驅(qū)動(dòng)瀏覽器打開(kāi)百度。
from selenium import webdriver url='https://www.baidu.com/' browser=webdriver.Chrome() browser.get(url)
如果到這里都沒(méi)有問(wèn)題的話,就已經(jīng)可以開(kāi)始進(jìn)行下一步了。
2.相關(guān)步驟
2.1 引入相關(guān)模塊
首先導(dǎo)入本次爬蟲(chóng)任務(wù)需要的相關(guān)庫(kù):
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time
其中selenium.webdriver.common.by 主要用于搜尋網(wǎng)頁(yè)元素的id信息,用于定位按鈕、輸入框之類的元素,WebDriverWait主要是用于等待網(wǎng)頁(yè)響應(yīng)完成,因?yàn)榫W(wǎng)頁(yè)沒(méi)有完全加載,就使用find_elements_by_**等方法,就會(huì)出現(xiàn)找不到對(duì)應(yīng)元素的情況。
2.2 獲取信息
movies=browser.find_elements_by_class_name('movie-name-text') names=[] for item in movies: if item.text!='': names.append(item.text)
其中find_elements_by_class_name就是通過(guò)查找class_name來(lái)鎖定影片名稱這個(gè)信息。
審查元素后右鍵即可Copy這個(gè)元素的JS path,selector等信息,可以鎖定這個(gè)元素及其類似的其他元素的信息。以‘霸王別姬'這部影片為例,他的selector就是#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(1) > div > div > div.movie-name > span.movie-name-text > a
那么就可以用下面的代碼來(lái)鎖定影片名稱。
movies=browser.find_elements_by_class_name('#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(1) > div > div > div.movie-name > span.movie-name-text > a')
2.3 設(shè)置等待時(shí)間
前面已經(jīng)說(shuō)過(guò),如果頁(yè)面還沒(méi)有完全加載出,我們就進(jìn)行元素的查找,返回的很可能是空列表,所以我們需要設(shè)置等待時(shí)間。
這里就涉及到顯示等待和隱式等待的區(qū)別。
2.3.1 顯式等待
每隔一段時(shí)間檢測(cè)一次當(dāng)前頁(yè)面元素是否存在,如果超過(guò)設(shè)置時(shí)間檢測(cè)不到則拋出異常(TimeoutException)代碼格式:WebDriverWait(driver, timeout, poll_frequency=0.5, ignored_exceptions=None)
2.3.2 隱式等待
隱式等待是通過(guò)一定的時(shí)長(zhǎng)等待頁(yè)面上某個(gè)元素加載完成。如果超出了設(shè)置的時(shí)長(zhǎng)元素還沒(méi)有被加載,則拋出NoSuchElementException異常。
操作如下:implicitly_wait()
當(dāng)使用了隱式等待執(zhí)行測(cè)試的時(shí)候,如果 WebDriver沒(méi)有在 DOM中找到元素,將繼續(xù)等待,超出設(shè)定時(shí)間后則拋出找不到元素的異常換句話說(shuō),當(dāng)查找元素或元素并沒(méi)有立即出現(xiàn)的時(shí)候,隱式等待將等待一段時(shí)間再查找 DOM,默認(rèn)的時(shí)間是0,一旦設(shè)置了隱式等待,則它存在整個(gè) WebDriver 對(duì)象實(shí)例的聲明周期中,隱式的等到會(huì)讓一個(gè)正常響應(yīng)的應(yīng)用的測(cè)試變慢,它將會(huì)在尋找每個(gè)元素的時(shí)候都進(jìn)行等待,這樣會(huì)增加整個(gè)測(cè)試執(zhí)行的時(shí)間。我們這里使用的就是隱式等待。
def get_page(): browser.implicitly_wait(10) for i in range(50): time.sleep(0.3) browser.execute_script('window.scrollTo(0,document.body.scrollHeight)') print('正在下滑第{}次'.format(i)) print('-------------') #time.sleep(10) print("*****請(qǐng)等待幾秒*****") time.sleep(10) when=wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(380) > div > a > img')))
2.3.3 強(qiáng)制等待(補(bǔ)充)
強(qiáng)制等待就是使用python自帶的time模塊,設(shè)置等待時(shí)間,操作如下:time.sleep(time)一般可以用強(qiáng)制等待來(lái)限制計(jì)算機(jī)頻繁訪問(wèn)目標(biāo)鏈接導(dǎo)致驗(yàn)證問(wèn)題。
2.4 頁(yè)面自動(dòng)下滑
頁(yè)面下滑過(guò)程比較簡(jiǎn)單,不多贅述。其實(shí)現(xiàn)過(guò)程如下:
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下滑操作
2.5 保存文件
爬取出的數(shù)據(jù)是列表形式,使用pandas的to_csv方法就可以保存到本地了。
rate,miscs,actor_list,ranks,playable_sign,names=get_page() datas=pd.DataFrame({'names':names,'rank':ranks,'分類':miscs,'評(píng)分':rate}) try: datas.to_csv('機(jī)器學(xué)習(xí)\爬蟲(chóng)\douban_0327.csv',encoding='utf_8_sig') print("保存成功") print(datas)
3.完整代碼
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import pandas as pd import time url='https://movie.douban.com/typerank?type_name=愛(ài)情片&type=13&interval_id=100:90&action=' options=webdriver.ChromeOptions() options.add_argument('lang=zh_CN.UTF-8') options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"') browser=webdriver.Chrome() browser.get(url) wait=WebDriverWait(browser,10) def get_page(): browser.implicitly_wait(10) for i in range(50): time.sleep(0.3) browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')#下滑操作 print('正在下滑第{}次'.format(i)) print('-------------') #time.sleep(10) print("*****請(qǐng)等待幾秒*****") time.sleep(10) when=wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#content > div > div.article > div.movie-list-panel.pictext > div:nth-child(380) > div > a > img'))) #----------------------------------------------------------------- movies=browser.find_elements_by_class_name('movie-name-text') names=[] for item in movies: if item.text!='': names.append(item.text) print("爬取成功") print(len(names)) #--------------------------------------------------------------- playables=browser.find_elements_by_class_name('playable-sign') playable_sign=[] for sign in playables: if sign.text!='': playable_sign.append(sign.text) print('爬取成功') print(len(playable_sign)) #------------------------------------------------------------ rank_names=browser.find_elements_by_class_name('rank-num') ranks=[] for rank in rank_names: if rank.text!='': ranks.append(rank.text) print('爬取成功') print(len(ranks)) #--------------------------------------------------------- actors=browser.find_elements_by_class_name('movie-crew') actor_list=[] for actor in actors: if actor.text!='': actor_list.append(actor.text) print('爬取成功') print(len(actor_list)) #---------------------------------------------------------- clasic=browser.find_elements_by_class_name('movie-misc') miscs=[] for misc in clasic: if misc.text!='': miscs.append(misc.text) print('爬取成功') print(len(miscs)) #----------------------------------------------------------- rates=browser.find_elements_by_class_name('movie-rating') rate=[] for score in rates: if score.text!='': rate.append(score.text) print('爬取成功') print(len(rate)) #----------------------------------------------------------- ''' links=browser.find_elements_by_class_name('movie-content') for link in links: link_img=link.get_attribute('data-original') print(link_img) ''' return rate,miscs,actor_list,ranks,playable_sign,names if __name__ == "__main__": rate,miscs,actor_list,ranks,playable_sign,names=get_page() datas=pd.DataFrame({'names':names,'rank':ranks,'分類':miscs,'評(píng)分':rate}) try: datas.to_csv('機(jī)器學(xué)習(xí)\爬蟲(chóng)\douban_0327.csv',encoding='utf_8_sig') print("保存成功") print(datas) except: print('保存失敗')
到此這篇關(guān)于詳解使用Selenium爬取豆瓣電影前100的愛(ài)情片相關(guān)信息的文章就介紹到這了,更多相關(guān)Selenium爬取豆瓣電影內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python Selenium爬取內(nèi)容并存儲(chǔ)至MySQL數(shù)據(jù)庫(kù)的實(shí)現(xiàn)代碼
- Python使用Selenium+BeautifulSoup爬取淘寶搜索頁(yè)
- Scrapy基于selenium結(jié)合爬取淘寶的實(shí)例講解
- python爬蟲(chóng)系列Selenium定向爬取虎撲籃球圖片詳解
- Python使用Selenium爬取淘寶異步加載的數(shù)據(jù)方法
- scrapy與selenium結(jié)合爬取數(shù)據(jù)(爬取動(dòng)態(tài)網(wǎng)站)的示例代碼
- 詳解python selenium 爬取網(wǎng)易云音樂(lè)歌單名
- Python selenium爬取微信公眾號(hào)文章代碼詳解
- java+selenium爬取圖片簽名的方法
- Python selenium爬取微博數(shù)據(jù)代碼實(shí)例
相關(guān)文章
Python?加載?TensorFlow?模型的注意事項(xiàng)
TensorFlow支持多種模型格式,但最常見(jiàn)的兩種是SavedModel和HDF5(對(duì)于Keras模型),這里,我將分別給出加載這兩種模型格式的示例代碼,需要的朋友可以參考下2024-08-08Django 內(nèi)置權(quán)限擴(kuò)展案例詳解
這篇文章主要介紹了Django 內(nèi)置權(quán)限擴(kuò)展案例詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03Python實(shí)現(xiàn)合并excel表格的方法分析
這篇文章主要介紹了Python實(shí)現(xiàn)合并excel表格的方法,結(jié)合實(shí)例形式分析了Python合并Excel表格的原理、實(shí)現(xiàn)步驟與相關(guān)操作技巧,需要的朋友可以參考下2019-04-04python 匿名函數(shù)與三元運(yùn)算學(xué)習(xí)筆記
這篇文章主要介紹了python 匿名函數(shù)與三元運(yùn)算的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python 編程,感興趣的朋友可以了解下2020-10-10Python flask與fastapi性能測(cè)試方法介紹
這篇文章主要介紹了Python flask與fastapi性能測(cè)試方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧2022-12-12