欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python提取網(wǎng)頁(yè)中超鏈接的方法

 更新時(shí)間:2016年09月18日 10:19:32   投稿:daisy  
很多人在一開始學(xué)習(xí)Python,會(huì)打算用作爬蟲開發(fā)。既然要做爬蟲,首先就要抓取網(wǎng)頁(yè),并且從網(wǎng)頁(yè)中提取出超鏈接地址。這篇文章給大家分享一個(gè)簡(jiǎn)單的方法,有需要的可以參考借鑒。

下面是最簡(jiǎn)單的實(shí)現(xiàn)方法,先將目標(biāo)網(wǎng)頁(yè)抓回來(lái),然后通過(guò)正則匹配a標(biāo)簽中的href屬性來(lái)獲得超鏈接

代碼如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能有所幫助,如果有疑問(wèn)大家可以留言交流。

相關(guān)文章

最新評(píng)論