快捷導(dǎo)航

Python實(shí)現(xiàn)提取給定網(wǎng)頁(yè)內(nèi)的所有鏈接

更新時(shí)間：2023年05月18日 10:42:53 作者：海擁

這篇文章主要和大家分享一個(gè)實(shí)用的Python腳本，可以實(shí)現(xiàn)從給定的網(wǎng)頁(yè)中檢索所有鏈接，并將其保存為txt文件，需要的小伙伴可以收藏一下

1.導(dǎo)入所需的庫(kù)

導(dǎo)入 requests 庫(kù)并將其重命名為 rq，用于發(fā)送 HTTP 請(qǐng)求和獲取網(wǎng)頁(yè)內(nèi)容。

import requests as rq

從 bs4 庫(kù)導(dǎo)入 BeautifulSoup 類，用于解析 HTML 內(nèi)容。

from bs4 import BeautifulSoup

2.獲取用戶輸入的鏈接

提示用戶輸入一個(gè)鏈接，并將其保存在 url 變量中。

url = input("Enter Link: ")

3.發(fā)送 HTTP 請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容

使用條件語(yǔ)句判斷用戶輸入的鏈接是否以 "https" 或 "http" 開頭。
如果是，則使用 rq.get(url) 發(fā)送 GET 請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容，并將響應(yīng)保存在 data 變量中。
如果不是，則在鏈接前添加 "https://" 并使用 rq.get() 發(fā)送請(qǐng)求，將響應(yīng)保存在 data 變量中。

4.使用 BeautifulSoup 解析網(wǎng)頁(yè)內(nèi)容

將 data.text（網(wǎng)頁(yè)內(nèi)容）傳遞給 BeautifulSoup 類的構(gòu)造函數(shù)，指定解析器為 "html.parser"，創(chuàng)建一個(gè) BeautifulSoup 對(duì)象 soup。

soup = BeautifulSoup(data.text, "html.parser")

5.提取鏈接

創(chuàng)建一個(gè)空列表 links 用于存儲(chǔ)提取的鏈接。
使用 soup.find_all("a") 查找網(wǎng)頁(yè)中所有的 <a> 標(biāo)簽，并返回一個(gè)包含這些標(biāo)簽的列表。
遍歷列表中的每個(gè)標(biāo)簽，使用 link.get("href") 獲取每個(gè)標(biāo)簽中的 "href" 屬性值，并將其添加到 links 列表中。

6.將提取的鏈接寫入文件

使用 with open("myLinks.txt", 'a') as saved: 打開一個(gè)文件 "myLinks.txt"，以追加模式。
使用 print(links[:100], file=saved) 將 links 列表中的前 100 個(gè)鏈接寫入文件中，每個(gè)鏈接占一行。
如果需要每次覆蓋文件內(nèi)容而不是追加，可以將文件打開模式由 'a' 改為 'w'。

這段代碼的功能是獲取用戶輸入的鏈接對(duì)應(yīng)網(wǎng)頁(yè)中的前 100 個(gè)鏈接，并將這些鏈接寫入到名為 "myLinks.txt" 的文件中。

運(yùn)行截圖

附完整代碼

import requests as rq
from bs4 import BeautifulSoup

url = input("Enter Link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)
soup = BeautifulSoup(data.text, "html.parser")
links = []
for link in soup.find_all("a"):
    links.append(link.get("href"))

# 將輸出寫入文件（myLinks.txt）
# 可以將“a”更改為“w”以每次覆蓋文件
with open("myLinks.txt", 'a') as saved:
    print(links[:10], file=saved)

到此這篇關(guān)于Python實(shí)現(xiàn)提取給定網(wǎng)頁(yè)內(nèi)的所有鏈接的文章就介紹到這了,更多相關(guān)Python提取網(wǎng)頁(yè)鏈接內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: