欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)提取給定網(wǎng)頁(yè)內(nèi)的所有鏈接

 更新時(shí)間:2023年05月18日 10:42:53   作者:海擁  
這篇文章主要和大家分享一個(gè)實(shí)用的Python腳本,可以實(shí)現(xiàn)從給定的網(wǎng)頁(yè)中檢索所有鏈接,并將其保存為txt文件,需要的小伙伴可以收藏一下

此腳本從給定的網(wǎng)頁(yè)中檢索所有鏈接,并將其保存為txt文件。(文末有完整源碼)

這是一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)示例,使用了 requests 庫(kù)來(lái)發(fā)送 HTTP 請(qǐng)求并獲取網(wǎng)頁(yè)內(nèi)容,使用 BeautifulSoup 庫(kù)來(lái)解析網(wǎng)頁(yè)內(nèi)容。

代碼解釋如下:

1.導(dǎo)入所需的庫(kù)

導(dǎo)入 requests 庫(kù)并將其重命名為 rq,用于發(fā)送 HTTP 請(qǐng)求和獲取網(wǎng)頁(yè)內(nèi)容。

import requests as rq

從 bs4 庫(kù)導(dǎo)入 BeautifulSoup 類(lèi),用于解析 HTML 內(nèi)容。

from bs4 import BeautifulSoup

2.獲取用戶輸入的鏈接

提示用戶輸入一個(gè)鏈接,并將其保存在 url 變量中。

url = input("Enter Link: ")

3.發(fā)送 HTTP 請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容

  • 使用條件語(yǔ)句判斷用戶輸入的鏈接是否以 "https" 或 "http" 開(kāi)頭。
  • 如果是,則使用 rq.get(url) 發(fā)送 GET 請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容,并將響應(yīng)保存在 data 變量中。
  • 如果不是,則在鏈接前添加 "https://" 并使用 rq.get() 發(fā)送請(qǐng)求,將響應(yīng)保存在 data 變量中。

4.使用 BeautifulSoup 解析網(wǎng)頁(yè)內(nèi)容

將 data.text(網(wǎng)頁(yè)內(nèi)容)傳遞給 BeautifulSoup 類(lèi)的構(gòu)造函數(shù),指定解析器為 "html.parser",創(chuàng)建一個(gè) BeautifulSoup 對(duì)象 soup。

soup = BeautifulSoup(data.text, "html.parser")

5.提取鏈接

  • 創(chuàng)建一個(gè)空列表 links 用于存儲(chǔ)提取的鏈接。
  • 使用 soup.find_all("a") 查找網(wǎng)頁(yè)中所有的 <a> 標(biāo)簽,并返回一個(gè)包含這些標(biāo)簽的列表。
  • 遍歷列表中的每個(gè)標(biāo)簽,使用 link.get("href") 獲取每個(gè)標(biāo)簽中的 "href" 屬性值,并將其添加到 links 列表中。

6.將提取的鏈接寫(xiě)入文件

  • 使用 with open("myLinks.txt", 'a') as saved: 打開(kāi)一個(gè)文件 "myLinks.txt",以追加模式。
  • 使用 print(links[:100], file=saved) 將 links 列表中的前 100 個(gè)鏈接寫(xiě)入文件中,每個(gè)鏈接占一行。
  • 如果需要每次覆蓋文件內(nèi)容而不是追加,可以將文件打開(kāi)模式由 'a' 改為 'w'。

這段代碼的功能是獲取用戶輸入的鏈接對(duì)應(yīng)網(wǎng)頁(yè)中的前 100 個(gè)鏈接,并將這些鏈接寫(xiě)入到名為 "myLinks.txt" 的文件中。

運(yùn)行截圖

附完整代碼

import requests as rq
from bs4 import BeautifulSoup

url = input("Enter Link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)
soup = BeautifulSoup(data.text, "html.parser")
links = []
for link in soup.find_all("a"):
    links.append(link.get("href"))

# 將輸出寫(xiě)入文件(myLinks.txt)
# 可以將“a”更改為“w”以每次覆蓋文件
with open("myLinks.txt", 'a') as saved:
    print(links[:10], file=saved)

到此這篇關(guān)于Python實(shí)現(xiàn)提取給定網(wǎng)頁(yè)內(nèi)的所有鏈接的文章就介紹到這了,更多相關(guān)Python提取網(wǎng)頁(yè)鏈接內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解

    Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解

    這篇文章主要介紹了Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-08-08
  • 詳解python校驗(yàn)SQL腳本命名規(guī)則

    詳解python校驗(yàn)SQL腳本命名規(guī)則

    這篇文章主要介紹了python校驗(yàn)SQL腳本命名規(guī)則,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • python實(shí)現(xiàn)自動(dòng)解數(shù)獨(dú)小程序

    python實(shí)現(xiàn)自動(dòng)解數(shù)獨(dú)小程序

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)自動(dòng)解數(shù)獨(dú)小程序,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-01-01
  • Numpy中的shape、reshape函數(shù)的區(qū)別

    Numpy中的shape、reshape函數(shù)的區(qū)別

    本文主要介紹了Numpy中的shape、reshape函數(shù)的區(qū)別,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-07-07
  • Python OpenCV學(xué)習(xí)之圖形繪制總結(jié)

    Python OpenCV學(xué)習(xí)之圖形繪制總結(jié)

    在圖像的任務(wù)中,不管是圖像檢測(cè)還是圖像識(shí)別,我們都需要通過(guò)繪制圖形和繪制文字對(duì)處理的結(jié)果進(jìn)行說(shuō)明,本篇就詳細(xì)介紹下OpenCV中的圖形的繪制,感興趣的可以了解一下
    2022-01-01
  • Python將主機(jī)名轉(zhuǎn)換為IP地址的方法

    Python將主機(jī)名轉(zhuǎn)換為IP地址的方法

    今天小編就為大家分享一篇Python將主機(jī)名轉(zhuǎn)換為IP地址的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-08-08
  • 你真的了解Python的random模塊嗎?

    你真的了解Python的random模塊嗎?

    這篇文章主要介紹了Python的random模塊的相關(guān)內(nèi)容,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12
  • Python實(shí)現(xiàn)連接postgresql數(shù)據(jù)庫(kù)的方法分析

    Python實(shí)現(xiàn)連接postgresql數(shù)據(jù)庫(kù)的方法分析

    這篇文章主要介紹了Python實(shí)現(xiàn)連接postgresql數(shù)據(jù)庫(kù)的方法,結(jié)合實(shí)例形式分析了Python基于psycopg2和python3-postgresql鏈接postgresql數(shù)據(jù)庫(kù)的相關(guān)操作技巧,需要的朋友可以參考下
    2017-12-12
  • 7個(gè)有用的Pandas顯示選項(xiàng)分享

    7個(gè)有用的Pandas顯示選項(xiàng)分享

    Pandas是一個(gè)在數(shù)據(jù)科學(xué)中常用的功能強(qiáng)大的Python庫(kù)。在某些情況下,我們可能希望更改所顯示內(nèi)容的格式,這就需要使用Pandas的一些定制功能來(lái)幫助我們自定義內(nèi)容的顯示方式。本文為大家總結(jié)了7個(gè)有用的Pandas顯示選項(xiàng),希望對(duì)大家有所幫助
    2022-12-12
  • Windows 64位下python3安裝nltk模塊

    Windows 64位下python3安裝nltk模塊

    這篇文章主要為大家詳細(xì)介紹了Windows 64位下python3安裝nltk模塊,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-09-09

最新評(píng)論