Python實現(xiàn)提取給定網(wǎng)頁內(nèi)的所有鏈接
此腳本從給定的網(wǎng)頁中檢索所有鏈接,并將其保存為txt文件。(文末有完整源碼)
這是一個簡單的網(wǎng)絡(luò)爬蟲示例,使用了 requests 庫來發(fā)送 HTTP 請求并獲取網(wǎng)頁內(nèi)容,使用 BeautifulSoup 庫來解析網(wǎng)頁內(nèi)容。
代碼解釋如下:
1.導(dǎo)入所需的庫
導(dǎo)入 requests 庫并將其重命名為 rq,用于發(fā)送 HTTP 請求和獲取網(wǎng)頁內(nèi)容。
import requests as rq
從 bs4 庫導(dǎo)入 BeautifulSoup 類,用于解析 HTML 內(nèi)容。
from bs4 import BeautifulSoup
2.獲取用戶輸入的鏈接
提示用戶輸入一個鏈接,并將其保存在 url 變量中。
url = input("Enter Link: ")
3.發(fā)送 HTTP 請求獲取網(wǎng)頁內(nèi)容
- 使用條件語句判斷用戶輸入的鏈接是否以 "
https
" 或 "http
" 開頭。 - 如果是,則使用
rq.get(url)
發(fā)送 GET 請求獲取網(wǎng)頁內(nèi)容,并將響應(yīng)保存在 data 變量中。 - 如果不是,則在鏈接前添加 "https://" 并使用
rq.get()
發(fā)送請求,將響應(yīng)保存在 data 變量中。
4.使用 BeautifulSoup 解析網(wǎng)頁內(nèi)容
將 data.text(網(wǎng)頁內(nèi)容)傳遞給 BeautifulSoup 類的構(gòu)造函數(shù),指定解析器為 "html.parser",創(chuàng)建一個 BeautifulSoup 對象 soup。
soup = BeautifulSoup(data.text, "html.parser")
5.提取鏈接
- 創(chuàng)建一個空列表 links 用于存儲提取的鏈接。
- 使用 soup.find_all("a") 查找網(wǎng)頁中所有的
<a>
標(biāo)簽,并返回一個包含這些標(biāo)簽的列表。 - 遍歷列表中的每個標(biāo)簽,使用 link.get("href") 獲取每個標(biāo)簽中的 "href" 屬性值,并將其添加到 links 列表中。
6.將提取的鏈接寫入文件
- 使用
with open("myLinks.txt", 'a') as saved
: 打開一個文件 "myLinks.txt",以追加模式。 - 使用
print(links[:100], file=saved)
將 links 列表中的前 100 個鏈接寫入文件中,每個鏈接占一行。 - 如果需要每次覆蓋文件內(nèi)容而不是追加,可以將文件打開模式由 'a' 改為 'w'。
這段代碼的功能是獲取用戶輸入的鏈接對應(yīng)網(wǎng)頁中的前 100 個鏈接,并將這些鏈接寫入到名為 "myLinks.txt" 的文件中。
運行截圖
附完整代碼
import requests as rq from bs4 import BeautifulSoup url = input("Enter Link: ") if ("https" or "http") in url: data = rq.get(url) else: data = rq.get("https://" + url) soup = BeautifulSoup(data.text, "html.parser") links = [] for link in soup.find_all("a"): links.append(link.get("href")) # 將輸出寫入文件(myLinks.txt) # 可以將“a”更改為“w”以每次覆蓋文件 with open("myLinks.txt", 'a') as saved: print(links[:10], file=saved)
到此這篇關(guān)于Python實現(xiàn)提取給定網(wǎng)頁內(nèi)的所有鏈接的文章就介紹到這了,更多相關(guān)Python提取網(wǎng)頁鏈接內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解
這篇文章主要介紹了Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08Numpy中的shape、reshape函數(shù)的區(qū)別
本文主要介紹了Numpy中的shape、reshape函數(shù)的區(qū)別,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-07-07Python OpenCV學(xué)習(xí)之圖形繪制總結(jié)
在圖像的任務(wù)中,不管是圖像檢測還是圖像識別,我們都需要通過繪制圖形和繪制文字對處理的結(jié)果進行說明,本篇就詳細(xì)介紹下OpenCV中的圖形的繪制,感興趣的可以了解一下2022-01-01Python實現(xiàn)連接postgresql數(shù)據(jù)庫的方法分析
這篇文章主要介紹了Python實現(xiàn)連接postgresql數(shù)據(jù)庫的方法,結(jié)合實例形式分析了Python基于psycopg2和python3-postgresql鏈接postgresql數(shù)據(jù)庫的相關(guān)操作技巧,需要的朋友可以參考下2017-12-12