快捷導(dǎo)航

Python使用Selenium實現(xiàn)模擬登錄的示例代碼

更新時間：2023年08月29日 10:29:40 作者：陸理手記

Selenium（本文基于python3.8）是一個功能強大的自動化測試工具,它可以用于模擬用戶在瀏覽器中的行為,比如點擊、輸入、滾動等等,本教程將詳細介紹如何使用Python編寫一個模擬登錄地爬蟲,使用XPath等多種元素匹配方法,需要的朋友可以參考下

1.引入Selenium

Selenium（本文基于python3.8）是一個功能強大的自動化測試工具，它可以用于模擬用戶在瀏覽器中的行為，比如點擊、輸入、滾動等等，也可用于模擬登錄網(wǎng)站并進行爬蟲操作。本教程將詳細介紹如何使用Python編寫一個模擬登錄地爬蟲，使用XPath等多種元素匹配方法。

在開始之前，需要先安裝Selenium庫。你可以使用以下命令來安裝：

pip install selenium

2.啟動瀏覽器

接下來，我們需要下載并安裝Chrome瀏覽器（你也可以使用其它瀏覽器）以及對應(yīng)的ChromeDriver。你可以在Chrome官方網(wǎng)站上下載最新的Chrome瀏覽器，并確保下載與你的Chrome瀏覽器版本相匹配的ChromeDriver。安裝完成后，將ChromeDriver的路徑添加到系統(tǒng)環(huán)境變量中。

首先，我們需要導(dǎo)入所需的庫：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

接下來，我們需要創(chuàng)建一個WebDriver對象，這將啟動Chrome瀏覽器：

driver = webdriver.Chrome()

3.模擬登錄網(wǎng)站

現(xiàn)在，我們可以使用WebDriver對象打開我們要模擬登錄的網(wǎng)站：

driver.get("https://example.com")

接下來，我們需要找到登錄表單的元素，并輸入用戶名和密碼。我們可以使用Chrome瀏覽器的開發(fā)者工具來查找這些元素的XPath路徑。

例如，如果我們要找到用戶名輸入框的XPath路徑，我們可以使用以下代碼：

username_input = driver.find_element(By.XPATH, "http://input[@name='username']")

然后，我們可以使用以下代碼將用戶名輸入到輸入框中：

username_input.send_keys("your_username")

同樣的方式，我們可以找到密碼輸入框的XPath路徑，并輸入密碼：

password_input = driver.find_element(By.XPATH, "http://input[@name='password']")
password_input.send_keys("your_password")

現(xiàn)在，我們可以找到登錄按鈕的XPath路徑，并點擊它：

login_button = driver.find_element(By.XPATH, "http://button[@type='submit']")
login_button.click()

在點擊登錄按鈕后，網(wǎng)站將進行登錄驗證。為了確保登錄成功，我們可以使用WebDriverWait來等待特定元素加載完成。例如，我們可以等待頁面上的用戶信息元素加載完成：

user_info = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "http://div[@class='user-info']"))
)

現(xiàn)在，我們已經(jīng)成功模擬登錄并等待特定元素加載完成。我們可以使用WebDriver對象進行進一步的爬蟲操作，例如抓取頁面上的數(shù)據(jù)或點擊其他鏈接。

最后，我們需要關(guān)閉WebDriver對象，以確保瀏覽器窗口被正確關(guān)閉：

driver.quit()

4.Selenium實戰(zhàn)某寶

本來想利用selenium實現(xiàn)模擬登錄國內(nèi)某購物網(wǎng)站，結(jié)果某寶實在有點強，最終還是沒能登錄成功?！菊f明淘寶夠安全啊】

當(dāng)然網(wǎng)上也查了點資料，有說用fiddler抓包工具將登錄頁js替換的，這樣淘寶登錄的滑塊便不會出現(xiàn)，不確定此類方法是否有效，但操作復(fù)雜度，肯定是嘎嘎高的。還有一種方式就是通過微博登錄，綁定淘寶。這種似乎可行。

在本示例中，僅在代碼實現(xiàn)上，盡可能避免大型網(wǎng)站的對爬蟲的檢測。具體請看代碼注釋：

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
# 登錄網(wǎng)站
login_url = f'https://login.taobao.com/member/login.jhtml'
login_username = 'xxxxxxxxxxxx'
login_password = 'xxxxxxxxxxxxxxxxxx'
# 防止打開瀏覽器后閃退
options = webdriver.ChromeOptions()
options.add_experimental_option('detach', True)
#options.add_argument('--headless')  # 無頭模式
# 設(shè)置為開發(fā)者模式，防止被各大網(wǎng)站識別出來使用了Selenium
options.add_experimental_option('excludeSwitches', ['enable-automation'])
browser = webdriver.Chrome(options=options)
browser.get(login_url)
# 設(shè)置window.navigator.webdriver，希望能繞過滑塊驗證
browser.execute_script('Object.defineProperties(navigator,{webdriver:{get:()=>false}})')
# 查找用戶名和密碼輸入框所在元素
username_input = browser.find_element(By.ID, 'fm-login-id')
username_input.click()
username_input.send_keys(login_username)
# 等待
time.sleep(2)
password_input = browser.find_element(By.XPATH, "http://input[@name='fm-login-password']")
password_input.click()
password_input.send_keys(login_password)
time.sleep(2)
# 滑塊處理
browser.switch_to.frame('baxia-dialog-content')
slider = browser.find_element(by=By.XPATH, value='//*[@id="nc_1_n1z"]')
slider_block = browser.find_element(by=By.XPATH, value='//*[@id="nc_1__scale_text"]')
chains = ActionChains(browser)
chains.drag_and_drop_by_offset(slider, slider_block.size['width'], -slider_block.size['height'])
chains.perform()
time.sleep(2)
# 查找按鈕元素，模擬點擊
#點擊登錄按鈕
browser.find_element(By.XPATH, ".//*[@id='login-form']/div[4]/button").click()
browser.implicitly_wait(10)
# 關(guān)閉瀏覽器
browser.close()
browser.quit()

在上述代碼中，我們通過webdriver.Chrome(options=options) 來創(chuàng)建一個瀏覽器窗口實例，并通過傳入options來控制瀏覽器的各個屬性，其中options.add_experimental_option('detach', True)用于防止瀏覽器在執(zhí)行完后閃退。options.add_argument('--headless') 表明啟用了無頭模式。這樣做是為了在后臺運行瀏覽器，而不需要顯示瀏覽器窗口。隨后我們使用了find_element來定位元素，并使用send_keys方法輸入賬戶名及密碼。

在Selenium中，可以使用各種方法來定位網(wǎng)頁上的元素。舊版本selenium 中，使用的是find_element_by_xpath, find_element_by_id, find_element_by_name等，在新版中已經(jīng)修改為 find_element(By.ID, 'id')等，通過傳入By參數(shù)查找。用的比較多的還是XPath，下表列出了部分XPath最有用的路徑表達式：

表達式	描述
nodename	選取此節(jié)點的所有子節(jié)點
/	從根節(jié)點選取
//	從匹配選擇的當(dāng)前節(jié)點選擇文檔中的節(jié)點，而不考慮它們的位置
.	選取當(dāng)前節(jié)點
..	選取當(dāng)前節(jié)點的父節(jié)點
@	選取屬性

OOPS:獲取XPath有個最簡單的方式，就是打開瀏覽器審查元素，選中元素，右鍵Copy，你，學(xué)廢了嗎？:smile::smile::smile:

有些網(wǎng)站的元素并不能直接通過find尋找到，比如有些網(wǎng)站頁面用了大量的frame或iframe，那么此時需要先進入到該元素所在的frame，然后才能找到需要的元素：browser.switch_to.frame('baxia-dialog-content')

有時候瀏覽器的加載速度跟不上你代碼的運行速度，或者請求速度比較慢，可以使用暫停的方法來進行緩沖

time.sleep(2)
browse.implicitly_wait(10)

browser.implicitly_wait(10)，隱性等待設(shè)置了一個時間，在一段時間內(nèi)網(wǎng)頁是否加載完成，如果完成了，就進行下一步；在設(shè)置的時間內(nèi)沒有加載完成，則會報超時加載。

time.sleep(2)一般用于模擬人為操作，防止因為點擊過快，而觸發(fā)網(wǎng)站反爬機制。

5.Cookies模擬登錄

Cookies是存儲在用戶計算機上的小型文本文件，用于跟蹤和存儲用戶在網(wǎng)站上的活動信息。當(dāng)用戶登錄網(wǎng)站時，網(wǎng)站會將一個唯一的標(biāo)識符存儲在Cookies中，以便在用戶的后續(xù)訪問中識別用戶身份。

此時，瀏覽器將會模擬點擊登錄按鈕并提交您的登錄憑據(jù)。如果您的憑據(jù)是正確的，您將被成功登錄到網(wǎng)站。

有時候，網(wǎng)站會要求保持登錄狀態(tài)，以便在后續(xù)訪問中保持身份識別。為了實現(xiàn)這一點，我們可以使用以下代碼來獲取當(dāng)前瀏覽器的Cookies：

# 獲取當(dāng)前瀏覽器的Cookies
cookies = driver.get_cookies()

這樣就可以將這些Cookies保存下來，并在以后的訪問中使用它們來保持登錄狀態(tài)。但如果沒有登錄成功，那用Cookies登錄也是一場空談！

6.總結(jié)

總結(jié)一下，使用Selenium模擬登錄是一種強大而靈活的方式，可以幫助開發(fā)人員實現(xiàn)各種登錄功能。通過使用瀏覽器驅(qū)動程序，訪問登錄頁面，輸入憑據(jù)并模擬點擊登錄按鈕，我們可以輕松地模擬用戶的登錄行為。通過XPath等多種元素匹配方法，我們可以輕松地定位并操作網(wǎng)頁上的元素。此外，還可以通過獲取和保存Cookies保持登錄狀態(tài)，以便在后續(xù)的訪問中保持身份識別。

以上就是Python使用Selenium實現(xiàn)模擬登錄的詳細內(nèi)容，更多關(guān)于Python Selenium模擬登錄的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: