快捷導(dǎo)航

Python提取網(wǎng)頁中超鏈接的方法

更新時間：2016年09月18日 10:19:32 投稿：daisy

很多人在一開始學(xué)習(xí)Python，會打算用作爬蟲開發(fā)。既然要做爬蟲，首先就要抓取網(wǎng)頁，并且從網(wǎng)頁中提取出超鏈接地址。這篇文章給大家分享一個簡單的方法，有需要的可以參考借鑒。

下面是最簡單的實現(xiàn)方法，先將目標(biāo)網(wǎng)頁抓回來，然后通過正則匹配a標(biāo)簽中的href屬性來獲得超鏈接

代碼如下：

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

總結(jié)

以上就是這篇文章的全部內(nèi)容，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能有所幫助，如果有疑問大家可以留言交流。

您可能感興趣的文章:

相關(guān)文章

python range實例用法分享
在本篇文章里小編給大家整理了關(guān)于python range實例用法，有需要的朋友們可以學(xué)習(xí)參考下
2020-02-02
python數(shù)據(jù)類型_字符串常用操作(詳解)
下面小編就為大家?guī)硪黄猵ython數(shù)據(jù)類型_字符串常用操作(詳解)。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-05-05
python中字典取最大值的應(yīng)用方式
這篇文章主要介紹了python中字典取最大值的應(yīng)用方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02
Pytorch搭建簡單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)實現(xiàn)MNIST數(shù)據(jù)集分類任務(wù)
這篇文章主要介紹了Pytorch搭建簡單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)實現(xiàn)MNIST數(shù)據(jù)集分類任務(wù),本文給大家介紹的非常詳細，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2023-03-03
Pandas數(shù)據(jù)清洗和預(yù)處理的實現(xiàn)示例
本文主要介紹了Pandas數(shù)據(jù)清洗和預(yù)處理的實現(xiàn)示例,包括處理缺失值、異常值,進行數(shù)據(jù)轉(zhuǎn)換和規(guī)范化,以及處理重復(fù)數(shù)據(jù)等操作,感興趣的可以了解一下
2024-01-01
python爬蟲（入門教程、視頻教程）
本文是一篇關(guān)于python爬蟲的知識學(xué)習(xí)教程，并且給大家解答了學(xué)習(xí)了python爬蟲怎么掙錢這個很多程序員疑惑的問題，如果你對這方面的知識也感興趣，一起深入學(xué)習(xí)一下吧。
2018-01-01
學(xué)會迭代器設(shè)計模式，幫你大幅提升python性能
這篇文章主要介紹了python 迭代器設(shè)計模式的相關(guān)資料，幫助大家更好的理解和使用python，感興趣的朋友可以了解下
2021-01-01
Python每天必學(xué)之bytes字節(jié)
Python每天必學(xué)之bytes字節(jié)，針對Python中的bytes字節(jié)進行學(xué)習(xí)理解，感興趣的小伙伴們可以參考一下
2016-01-01
python 兩種方法修改文件的創(chuàng)建時間、修改時間、訪問時間
這篇文章主要介紹了python 如何修改文件的創(chuàng)建時間、修改時間、訪問時間的兩種方法，幫助大家更好的利用python處理文件，感興趣的朋友可以了解下
2020-09-09
簡單介紹Python中的struct模塊
這篇文章主要介紹了Python中的struct模塊,代碼基于Python2.x版本,需要的朋友可以參考下
2015-04-04