selenium常用API的使用過程記錄(包括自動登錄)
什么是Selenium
Selenium是一個自動化測試工具,對各種瀏覽器都能很好地支持,包括Chrome、Firefox這些主流瀏覽器。使用它就可以模擬瀏覽器進行各種各樣的操作,包括爬取一些網(wǎng)頁內(nèi)容。當你看到瀏覽器自己運行并且在網(wǎng)頁上翻頁或者跳轉(zhuǎn)的時候,應該會覺得很有趣的。
安裝selenium先安裝好Selenium庫和對應瀏覽器的WebDriver驅(qū)動,比如我用的是Chrome,則相對應安裝的是ChromeDriver。
1.安裝selenium # 打開命令控制符執(zhí)行 pip install selenium
2.我的Google Chrome 已是最新版本版本 74.0.3729.108(正式版本) (64 位)
安裝三大瀏覽器驅(qū)動driver
1.chromedriver 下載地址:http://chromedriver.storage.googleapis.com/index.html?path=74.0.3729.6/
2.Firefox的驅(qū)動geckodriver 下載地址:https://github.com/mozilla/geckodriver/releases/
3.IE的驅(qū)動IEdriver 下載地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
注意:64位向下兼容,直接下載32位的就可以啦,親測可用。chromedriver_win32.zip
D:\Python\python\Scripts
.粘貼chromedriver.exe到文件d:\Python37\Scripts路徑下。
如果Chrome問題閃退 ,不兼容問題!
為什么要使用selenium?
selenium是一個自動測試工具,它可以幫我通過代碼去實現(xiàn)驅(qū)動瀏覽器自動執(zhí)行相應的操作。所以我們也可以用它來做爬蟲。主要使用selenium的目的是為了跳過登錄驗證。
Python的selenium爬蟲的簡單使用過程記錄
0.預先準備
~首先下載谷歌瀏覽器,然后點擊設置選項那里的幫助—關(guān)于Google Chrome,點進去看瀏覽器的版本號,或者在谷歌瀏覽器輸入chrome://version/ 進行查看;
~然后下載驅(qū)動,驅(qū)動地址:http://chromedriver.storage.googleapis.com/index.html
~將驅(qū)動chromedriver.exe所在的文件夾的路徑添加到電腦的環(huán)境變量中,或者直接放在py文件運行的目錄下
1.導入selenium 庫
from selenium import webdriver
2.設置參數(shù)
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('prefs', {'profile.default_content_setting_values': {'images': 2, }}) # 設置瀏覽器無圖片模式
chrome_options.add_argument(f'--proxy-server=200.200.200.52:8888') #設置代理ip,這個是我隨便寫的ip3.實例化
chrome = webdriver.Chrome(options=chrome_options) # 創(chuàng)建selenium實例化
4.輸入網(wǎng)址
chrome.get('https://www.baidu.com/')5.定位元素
chrome.find_element_by_xpath('//*[@id="kw"]') #定位好元素,主要是卻定要做什么,這一步可以不要
chrome.find_element_by_xpath('//*[@id="kw"]') .send_keys('白某人') #send_keys 主要是用來在輸入框輸入內(nèi)容
chrome.find_element_by_link_text('百度一下').click() # click 方法是點擊
#定位元素的方法有很多,但是要注意點的是find_element 后面有沒有s,有s的話是返回一個列表的6.關(guān)閉瀏覽器
chrome.close()
常用API
初始化WebDriver
首先,我們需要創(chuàng)建一個WebDriver實例,它是與瀏覽器進行交互的主要接口。
from selenium import webdriver
driver = webdriver.Chrome('/path/to/chromedriver') # 若已設置環(huán)境變量,可省略路徑打開和關(guān)閉網(wǎng)頁
driver.get('https://www.example.com') # 打開網(wǎng)頁
print(driver.title) # 獲取網(wǎng)頁標題
driver.quit() # 關(guān)閉瀏覽器并退出WebDriver會話查找元素
在網(wǎng)頁中查找元素是自動化過程的基礎。
from selenium.webdriver.common.by import By element_by_id = driver.find_element(By.ID, 'some-id') element_by_name = driver.find_element(By.NAME, 'some-name') element_by_xpath = driver.find_element(By.XPATH, '//div[@class="some-class"]') element_by_css = driver.find_element(By.CSS_SELECTOR, 'div.some-class')
與元素進行交互
找到元素后,我們可以與它進行各種交互,如點擊、輸入文本等。
# 輸入文本
search_box = driver.find_element(By.NAME, 'q')
search_box.send_keys('Selenium')
# 點擊按鈕
search_button = driver.find_element(By.NAME, 'btnK')
search_button.click()
# 清空文本框
search_box.clear()等待元素
Web自動化中,等待某個條件的成立是常見需求,以確保元素已加載。
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 顯示等待
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, 'some-id'))
)
# 隱式等待
driver.implicitly_wait(10) # 設置全局等待時間處理下拉菜單
下拉菜單是表單常見元素,Selenium提供了Select類來處理它們。
from selenium.webdriver.support.ui import Select
select_element = driver.find_element(By.ID, 'dropdown')
select_object = Select(select_element)
select_object.select_by_index(1) # 通過索引選擇
select_object.select_by_value('value') # 通過value屬性選擇
select_object.select_by_visible_text('Text') # 通過可見文本選擇執(zhí)行JavaScript
有時直接使用JavaScript執(zhí)行操作是必要的。
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);') # 滾動到底部處理Alerts、Frames和Windows
Selenium可以處理JavaScript彈窗、iFrames和新窗口。
# 處理Alert彈窗
alert = driver.switch_to.alert
alert_text = alert.text
alert.accept() # 點擊'OK'
# 切換到iFrame
driver.switch_to.frame('frameName')
# 切換回主文檔
driver.switch_to.default_content()
# 切換窗口
driver.switch_to.window(driver.window_handles[1])獲取屬性和CSS屬性
有時我們需要獲取元素的屬性或者CSS屬性。
attr_value = element.get_attribute('href')
css_value = element.value_of_css_property('color')利用Selenium進行自動登錄
以下是一個利用Selenium進行自動登錄的例子。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome('/path/to/chromedriver')
driver.get('https://www.somewebsite.com/login')
# 填寫用戶名和密碼
username = driver.find_element(By.ID, 'username')
password = driver.find_element(By.ID, 'password')
username.send_keys('your_username')
password.send_keys('your_password')
# 點擊登錄
login_button = driver.find_element(By.ID, 'submit')
login_button.click()
# 等待登錄成功的頁面元素加載
wait = WebDriverWait(driver, 10)
logged_in_element = wait.until(EC.presence_of_element_located((By.ID, 'logged-in-message')))
print('登錄成功!')
# 執(zhí)行后續(xù)的自動化操作...
# 關(guān)閉瀏覽器
driver.quit()在這個例子中,我們自動化了登錄過程,包括填寫認證信息和提交表單,然后等待登錄成功消息的出現(xiàn)。
總結(jié)
Selenium是Python爬蟲和自動化測試領域的強大工具。本篇博客中我們介紹了Selenium的常用API,這些API能幫助你模擬幾乎所有的瀏覽器操作,從而使你能夠構(gòu)建出功能強大的自動化腳本。掌握這些API是提高爬蟲效率和應對復雜頁面的關(guān)鍵。
相關(guān)文章
Python EOL while scanning string literal問題解決方法
這篇文章主要介紹了Python EOL while scanning string literal問題解決方法,本文總結(jié)出是數(shù)據(jù)庫數(shù)據(jù)出現(xiàn)問題導致這個問題,需要的朋友可以參考下2015-04-04
如何利用pandas將Excel轉(zhuǎn)為html格式
工作中經(jīng)常會遇到Excel轉(zhuǎn)為html格式這種需求,下面這篇文章主要給大家介紹了關(guān)于如何利用pandas將Excel轉(zhuǎn)為html格式的相關(guān)資料,主要利用的是pd.to_html,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下2021-08-08
python中的easy_install工具,類似于Php中的pear,或者Ruby中的gem,或者Perl中的cpan,那是相當?shù)乃嵬崃巳绻胧褂?/div> 2013-02-02
python web應用程序之Django數(shù)據(jù)庫詳解
這篇文章主要介紹了python web應用程序之Django數(shù)據(jù)庫,本文通過實例代碼給大家介紹的非常詳細,需要的朋友可以參考下2024-06-06
python使用openpyxl庫處理Excel文件詳細教程
這篇文章主要給大家介紹了關(guān)于python使用openpyxl庫處理Excel文件詳細教程的相關(guān)資料,openpyxl屬于第三方模塊,在python中用來處理excel文件,可以對excel進行的操作有讀寫、修改、調(diào)整樣式及插入圖片等,需要的朋友可以參考下2023-11-11
Python中的google authenticator認證過程
文章介紹了使用Python 3.7生成Google Authenticator所需密鑰的步驟,包括使用pyotp模塊生成密鑰、生成二維碼圖片以及通過客戶端掃描二維碼進行二次認證的實現(xiàn)原理2024-11-11
python?sklearn?畫出決策樹并保存為PDF的實現(xiàn)過程
這篇文章主要介紹了python?sklearn?畫出決策樹并保存為PDF的實現(xiàn)過程,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-07-07最新評論

