python爬蟲selenium和phantomJs使用方法解析
1.selenum:三方庫(kù)。可以實(shí)現(xiàn)讓瀏覽器完成自動(dòng)化的操作。
2.環(huán)境搭建
2.1 安裝:
pip install selenium
2.2 獲取瀏覽器的驅(qū)動(dòng)程序
下載地址:
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
瀏覽器版本和驅(qū)動(dòng)版本的對(duì)應(yīng)關(guān)系表:
| chromedriver版本 | 支持的Chrome版本 |
|---|---|
| v2.46 | v71-73 |
| v2.45 | v70-72 |
| v2.44 | v69-71 |
| v2.43 | v69-71 |
| v2.42 | v68-70 |
| v2.41 | v67-69 |
| v2.40 | v66-68 |
| v2.39 | v66-68 |
| v2.38 | v65-67 |
| v2.37 | v64-66 |
| v2.36 | v63-65 |
| v2.35 | v62-64 |
| v2.34 | v61-63 |
| v2.33 | v60-62 |
| v2.32 | v59-61 |
| v2.31 | v58-60 |
| v2.30 | v58-60 |
| v2.29 | v56-58 |
| v2.28 | v55-57 |
| v2.27 | v54-56 |
| v2.26 | v53-55 |
| v2.25 | v53-55 |
| v2.24 | v52-54 |
| v2.23 | v51-53 |
| v2.22 | v49-52 |
| v2.21 | v46-50 |
| v2.20 | v43-48 |
| v2.19 | v43-47 |
| v2.18 | v43-46 |
| v2.17 | v42-43 |
| v2.13 | v42-45 |
| v2.15 | v40-43 |
| v2.14 | v39-42 |
| v2.13 | v38-41 |
| v2.12 | v36-40 |
| v2.11 | v36-40 |
| v2.10 | v33-36 |
| v2.9 | v31-34 |
| v2.8 | v30-33 |
| v2.7 | v30-33 |
| v2.6 | v29-32 |
| v2.5 | v29-32 |
| v2.4 | v29-32 |
所有chromedriver均可在下面鏈接中下載到:
http://chromedriver.storage.googleapis.com/index.html
現(xiàn)在有一點(diǎn)好的是出了按照chrome版本對(duì)應(yīng)的driver,直接按照瀏覽器版本去找對(duì)應(yīng)的driver(只對(duì)應(yīng)大版本就行),不用再費(fèi)心去對(duì)應(yīng)了,大家可以嘗試一下

有些同學(xué)說(shuō)下不了,到taobao下也是可以的:
http://npm.taobao.org/mirrors/chromedriver/
定位元素的8種方式:
#使用下面的方法,查找指定的元素進(jìn)行操作即可
find_element_by_id 根據(jù)id找節(jié)點(diǎn)
find_elements_by_name 根據(jù)name找
find_elements_by_xpath 根據(jù)xpath查找
find_elements_by_tag_name 根據(jù)標(biāo)簽名找
find_elements_by_class_name 根據(jù)class名字查找
# 通過(guò)id定位:
dr.find_element_by_id("kw")
# 通過(guò)name定位:
dr.find_element_by_name("wd")
# 通過(guò)class name定位:
dr.find_element_by_class_name("s_ipt")
# 通過(guò)tag name定位:
dr.find_element_by_tag_name("input")
# 通過(guò)xpath定位,xpath定位有N種寫法,這里列幾個(gè)常用寫法:
dr.find_element_by_xpath("http://*[@id='kw']")
dr.find_element_by_xpath("http://*[@name='wd']")
dr.find_element_by_xpath("http://input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("http://span[@class='soutu-btn']/input")
dr.find_element_by_xpath("http://form[@id='form']/span/input")
dr.find_element_by_xpath("http://input[@id='kw' and @name='wd']")
# 通過(guò)css定位,css定位有N種寫法,這里列幾個(gè)常用寫法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")
接下來(lái),我們的頁(yè)面上有一組文本鏈接。
<a class="mnav" rel="external nofollow" name="tj_trnews">新聞</a> <a class="mnav" rel="external nofollow" name="tj_trhao123">hao123</a>
# 通過(guò)link text定位:
dr.find_element_by_link_text("新聞")
dr.find_element_by_link_text("hao123")
# 通過(guò)partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")
Selenium庫(kù)下webdriver模塊常用方法的使用
控制瀏覽器操作的一些方法
方法 說(shuō)明
- set_window_size() 設(shè)置瀏覽器的大小
- back() 控制瀏覽器后退
- forward() 控制瀏覽器前進(jìn)
- refresh() 刷新當(dāng)前頁(yè)面
- clear() 清除文本
- send_keys (value) 模擬按鍵輸入
- click() 單擊元素
- submit() 用于提交表單
- get_attribute(name) 獲取元素屬性值
- is_displayed() 設(shè)置該元素是否用戶可見(jiàn)
- size 返回元素的尺寸
- text 獲取元素的文本
---------------------
例子:
1.chrom瀏覽器自動(dòng)搜索
from selenium import webdriver
from time import sleep
# 創(chuàng)建瀏覽器對(duì)象 驅(qū)動(dòng)為瀏覽器的路徑
bro = webdriver.Chrome("./chromedriver.exe")
url = "https://www.baidu.com"7 # 發(fā)送請(qǐng)求
bro.get(url)
# 讓百度指定詞條的搜索
text = bro.find_element_by_id('kw')
# 發(fā)送關(guān)鍵字
text.send_keys('python')
# 點(diǎn)擊搜索按鈕
button = bro.find_element_by_id('su')
button.click()
# 關(guān)閉瀏覽器
bro.quit()
2.phantomjs無(wú)界面瀏覽器,其自動(dòng)化流程上述操作谷歌自動(dòng)化流程一致。
from selenium import webdriver
from time import sleep
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動(dòng)態(tài)數(shù)據(jù)加載
爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')
url = "https://www.baidu.com"
# 發(fā)送請(qǐng)求
bro.get(url)
bro.save_screenshot('./1.png')
# 讓百度指定詞條的搜索
text = bro.find_element_by_id('kw')
# 發(fā)送關(guān)鍵字
text.send_keys('python')
bro.save_screenshot('./2.png')
# 點(diǎn)擊搜索按鈕
button = bro.find_element_by_id('su')
button.click()
sleep(3)
bro.save_screenshot('./3.png')
# 關(guān)閉瀏覽器
bro.quit()
3.豆瓣網(wǎng)電影排行榜滾動(dòng)條數(shù)據(jù)
from selenium import webdriver
from time import sleep3 url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&typ
e=24&interval_id=100:90&action='
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動(dòng)態(tài)數(shù)據(jù)加載
爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')
bro.get(url)
sleep(1)
bro.save_screenshot("./1.png")
js = 'window.scrollTo(0,document.body.scrollHeight)'
# 執(zhí)行js代碼 滾動(dòng)條
bro.execute_script(js)
sleep(1)
bro.save_screenshot('./2.png')
# 獲取頁(yè)面數(shù)據(jù)
page_source = bro.page_source
print(page_source)
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Pandas之?dāng)?shù)據(jù)追加df.append方式
這篇文章主要介紹了Pandas之?dāng)?shù)據(jù)追加df.append方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08
windows系統(tǒng)下Python環(huán)境搭建教程
這篇文章主要為大家詳細(xì)介紹了windows系統(tǒng)下Python環(huán)境搭建教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-03-03
python實(shí)現(xiàn)在pandas.DataFrame添加一行
下面小編就為大家分享一篇python實(shí)現(xiàn)在pandas.DataFrame添加一行,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
python opencv攝像頭的簡(jiǎn)單應(yīng)用
這篇文章主要為大家詳細(xì)介紹了python opencv攝像頭的簡(jiǎn)單應(yīng)用,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-06-06
基于Python __dict__與dir()的區(qū)別詳解
下面小編就為大家?guī)?lái)一篇基于Python __dict__與dir()的區(qū)別詳解。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-10-10
在Ubuntu系統(tǒng)下安裝使用Python的GUI工具wxPython
這篇文章主要介紹了在Ubuntu系統(tǒng)下安裝使用Python的GUI工具wxPython的方法,wxPython可以為Python提供強(qiáng)大的圖形化界面開(kāi)發(fā)支持,需要的朋友可以參考下2016-02-02

