爬蟲一般是useragent，或者js腳本交互驗算的方式來反機器人爬蟲，只是很多反爬蟲容易被偵測出來容易被攔截，這里有個思路可以用webdrivers來驅(qū)動瀏覽器去爬蟲，這樣就可以繞過大多數(shù)的防爬機制（有些高級的防反爬蟲也不行，比如驗證碼，鼠標(biāo)軌跡驗證等技術(shù)這樣chromedriver就不管用了）

用chrome瀏覽器舉例

第一下載安裝chrome瀏覽器并查明版本號。

┌──(kali?kali)-[~]
└─$ apt-get install google-chrome-stable

然后照著瀏覽器去下載相應(yīng)的chromedriver

下載地址：CNPM Binaries Mirror

下載后解壓，將里面的chromedriver 復(fù)制到/usr/bin/ 目錄下面（pach環(huán)境變量里面）即可

下面開始寫腳本

from time import sleep
import os
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
 
option = webdriver.ChromeOptions() 
#設(shè)置chrome的瀏覽器選項
 
option.add_argument('--headless') 
#設(shè)施chrome選項為無窗口運行
 
driver = webdriver.Chrome(chrome_options=option) 
# 創(chuàng)建一個chrome瀏覽器，應(yīng)用無窗口的配置。
 
driver.get("http://www.jsons.cn/ping/") 
#用chrome去訪問網(wǎng)頁
 
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'txt_url')))
#讓chrome顯式等待driver這個對象，并最多等待10秒，當(dāng)界面出現(xiàn)'txt_url'這個元素后在繼續(xù)往下
 
driver.find_element(By.XPATH, '//*[@id="txt_url"]').send_keys('ss111d.yqw5ey.dnslog.cn')
#再出現(xiàn)//*[@id="txt_url"]這個元素后往這個元素里面填入ss111d.yqw5ey.dnslog.cn這個數(shù)值
 
driver.find_element(By.XPATH, '//*[@id="startbtn"]').click()
#然后找到//*[@id="startbtn"] 這個按鈕模擬點擊它
 
sleep(1)
#等待一秒后退出

find_element(By.XPATH, '//*[@id="txt_url"]') 這個元素怎么來的？如下：

總的來說這個腳本就是用chrome 打開這個網(wǎng)站，然后輸入這個dnslog的網(wǎng)址去ping一下。模仿人點擊去測試網(wǎng)頁

結(jié)果

其他：

下拉菜單如何選擇？

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
 
# 創(chuàng)建一個 WebDriver 實例
driver = webdriver.Chrome()
 
# 訪問網(wǎng)頁
driver.get("https://example.com")
 
# 選擇下拉框元素
select_box = driver.find_element(By.ID, "my_select_box")
 
# 初始化 Select 類
select = Select(select_box)
 
# 選擇一個選項
select.select_by_value("option_value")
 
# 關(guān)閉 WebDriver 實例
driver.quit()

在最新版本的 Selenium Python 包中，推薦使用 find_element 方法的新形式，即指定查找方式的參數(shù) By，以及對應(yīng)的選擇器表達式，具體有以下幾種用法：