使用Python的urllib和urllib2模塊制作爬蟲(chóng)的實(shí)例教程

更新時(shí)間：2016年01月20日 10:25:51 作者：XiaoluD

這篇文章主要介紹了使用Python的urllib和urllib2模塊制作爬蟲(chóng)的實(shí)例教程,展現(xiàn)了這兩個(gè)常用爬蟲(chóng)制作模塊的基本用法,極度推薦!需要的朋友可以參考下

urllib
學(xué)習(xí)python完基礎(chǔ),有些迷茫.眼睛一閉,一種空白的窒息源源不斷而來(lái).還是缺少練習(xí),遂拿爬蟲(chóng)來(lái)練練手.學(xué)習(xí)完斯巴達(dá)python爬蟲(chóng)課程后,將心得整理如下,供后續(xù)翻看.整篇筆記主要分以下幾個(gè)部分:

1.做一個(gè)簡(jiǎn)單的爬蟲(chóng)程序
2.小試牛刀--抓取百度貼吧圖片
3.總結(jié)

1.做一個(gè)簡(jiǎn)單的爬蟲(chóng)程序
首先環(huán)境描述

Device: Mba 2012 Yosemite 10.10.1
Python: python 2.7.9
編輯器: Sublime Text 3

這個(gè)沒(méi)有什么好說(shuō)的,直接上代碼吧!

'''
@ urllib為python自帶的一個(gè)網(wǎng)絡(luò)庫(kù)
@ urlopen為urllib的一個(gè)方法,用于打開(kāi)一個(gè)連接并抓取網(wǎng)頁(yè),
 然后通過(guò)read()方法把值賦給read()
'''
import urllib

url = "http://www.lifevc.com"#多嘴兩句,為什么要選lifevc呢,主要是最近它很惹我.
html = urllib.urlopen(url)
content = html.read()
html.close()
#可以通過(guò)print打印出網(wǎng)頁(yè)內(nèi)容
print content

很簡(jiǎn)單,基本上沒(méi)有可說(shuō)的,這個(gè)也就是python的魅力,幾行代碼就完成.
當(dāng)然我們僅僅抓取網(wǎng)頁(yè),沒(méi)有實(shí)在的價(jià)值.接下來(lái)我們就開(kāi)始做一點(diǎn)有意義的事情.

2.小試牛刀
抓取百度貼吧圖片
其實(shí)也很簡(jiǎn)單,因?yàn)橐トD片,還需要先分析一下網(wǎng)頁(yè)源代碼
(這里以知道基本html知識(shí),瀏覽器以chrome為例)
如圖,這里簡(jiǎn)要說(shuō)下步驟,請(qǐng)參考.

打開(kāi)網(wǎng)頁(yè),右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
點(diǎn)擊下面彈起來(lái)的框框最左邊那個(gè)問(wèn)號(hào),問(wèn)號(hào)會(huì)變成藍(lán)色
移動(dòng)鼠標(biāo)去點(diǎn)擊我們想要抓取的圖片(一個(gè)萌妹子)
如圖,我們就可以圖片在源碼中的位置了

2016120102212622.gif (899×570)

下面將源碼相關(guān)拷貝出來(lái)

<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8.
jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/
static-pb/img/cur_zin.cur), pointer;">

經(jīng)分析和對(duì)比(這里略掉),基本上可以看到要抓取的圖片幾個(gè)特征:

在img標(biāo)簽下
在名為BDE_Image的類下面
圖片格式為jpg

正則表達(dá)式后續(xù)我會(huì)更新,請(qǐng)關(guān)注

依照上述判斷,直接上代碼

'''
@本程序用來(lái)下載百度貼吧圖片
@re 為正則說(shuō)明庫(kù)
'''
import urllib
import re

# 獲取網(wǎng)頁(yè)html信息
url = "http://tieba.baidu.com/p/2336739808"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通過(guò)正則匹配圖片特征,并獲取圖片鏈接
img_tag = re.compile(r'class="BDE_Image" src="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)

# 下載圖片 img_counter為圖片計(jì)數(shù)器(文件名)
img_counter = 0
for img_link in img_links:
  img_name = '%s.jpg' % img_counter
  urllib.urlretrieve(img_link, "http://Users//Sean//Downloads//tieba//%s" %img_name)
  img_counter += 1

如圖,我們就抓取你懂的圖片

2016120102253240.png (908×659)

3.總結(jié)
如上兩節(jié),我們就很輕松的就可以網(wǎng)頁(yè)或者圖片.
補(bǔ)充一點(diǎn)小技巧,如果遇到不是很明白的庫(kù)或者方法,可以通過(guò)以下方法進(jìn)行初步了解.

dir(urllib) #查看當(dāng)前庫(kù)有哪些方法
help(urllib.urlretrieve) #查看跟當(dāng)前方法相關(guān)的作用或者參數(shù),官方比較權(quán)威

或者h(yuǎn)ttps://docs.python.org/2/library/index.html進(jìn)項(xiàng)相關(guān)搜索.

當(dāng)然百度也可以,但是效率太低.建議使用 http://xie.lu 進(jìn)行相關(guān)搜索(你懂了,絕對(duì)滿意).
這里我們講解如何抓取網(wǎng)頁(yè)和下載圖片,在下面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站.

urllib2
上面我們講解如何抓取網(wǎng)頁(yè)和下載圖片,在下一節(jié)里面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站
首先,我們依然用我們上一節(jié)課的方法去抓取一個(gè)大家都用來(lái)舉例的網(wǎng)站<blog.cndn.net>,本文主要分以下幾個(gè)部分:

1.抓取受限網(wǎng)頁(yè)
2.對(duì)代碼進(jìn)行一些優(yōu)化

1.抓取受限網(wǎng)頁(yè)

首先使用我們上一節(jié)學(xué)到的知識(shí)測(cè)試一下:

'''
@本程序用來(lái)抓取blog.csdn.net網(wǎng)頁(yè)
'''
import urllib

url = "http://blog.csdn.net/FansUnion"
html = urllib.urlopen(url)
#getcode()方法為返回Http狀態(tài)碼
print html.getcode()
html.close()
#輸出

此處我們的輸出為403,代表拒絕訪問(wèn);同理200表示請(qǐng)求成功完成;404表示網(wǎng)址未找到.
可見(jiàn)csdn已做了相關(guān)屏蔽,通過(guò)第一節(jié)的方法是無(wú)法獲取網(wǎng)頁(yè),在這里我們需要啟動(dòng)一個(gè)新的庫(kù):urllib2
但是我們也看到瀏覽器可以發(fā)那個(gè)文,是不是我們模擬瀏覽器操作,就可以獲取網(wǎng)頁(yè)信息.
老辦法,我們先來(lái)看看瀏覽器是如何提交請(qǐng)求給csdn服務(wù)器的.首先簡(jiǎn)述一下方法:

打開(kāi)網(wǎng)頁(yè),右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
點(diǎn)擊下面彈起來(lái)的框框的Network選項(xiàng)卡
刷新網(wǎng)頁(yè),就可以看到Network選項(xiàng)卡抓取了很多信息
找到其中一個(gè)信息展開(kāi),就能看到請(qǐng)求包的Header

2016120102427056.gif (856×706)

以下就是整理后的Header信息

Request Method:GET
Host:blog.csdn.net
Referer:http://blog.csdn.net/?ref=toolbar_logo
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36

然后根據(jù)提取的Header信息,利用urllib2的Request方法模擬瀏覽器向服務(wù)器提交請(qǐng)求,代碼如下:

# coding=utf-8
'''
@本程序用來(lái)抓取受限網(wǎng)頁(yè)(blog.csdn.net)
@User-Agent:客戶端瀏覽器版本
@Host:服務(wù)器地址
@Referer:跳轉(zhuǎn)地址
@GET:請(qǐng)求方法為GET
'''
import urllib2

url = "http://blog.csdn.net/FansUnion"

#定制自定義Header,模擬瀏覽器向服務(wù)器提交請(qǐng)求
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36')
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)

#下載網(wǎng)頁(yè)html并打印
html = urllib2.urlopen(req)
content = html.read()
print content
html.close()

呵呵,你限制我,我就跳過(guò)你的限制.據(jù)說(shuō)只要瀏覽器能夠訪問(wèn)的,就能夠通過(guò)爬蟲(chóng)抓取.

2.對(duì)代碼進(jìn)行一些優(yōu)化
簡(jiǎn)化提交Header方法
發(fā)現(xiàn)每次寫那么多req.add_header對(duì)自己來(lái)說(shuō)是一種折磨,有沒(méi)有什么方法可以只要復(fù)制過(guò)來(lái)就使用.答案是肯定的.

#input:
help(urllib2.Request)
#output(因篇幅關(guān)系,只取__init__方法)
__init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False)
通過(guò)觀察,我們發(fā)現(xiàn)headers={},就是說(shuō)可以以字典的方式提交header信息.那就動(dòng)手試試咯!!

#只取自定義Header部分代碼
csdn_headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
  "Host": "blog.csdn.net",
  'Referer': 'http://blog.csdn.net',
  "GET": url
  }
req = urllib2.Request(url,headers=csdn_headers)

發(fā)現(xiàn)是不是很簡(jiǎn)單,在這里感謝斯巴達(dá)的無(wú)私賜教.

提供動(dòng)態(tài)頭部信息
如果按照上述方法進(jìn)行抓取,很多時(shí)候會(huì)因?yàn)樘峤恍畔⑦^(guò)于單一,被服務(wù)器認(rèn)為是機(jī)器爬蟲(chóng)進(jìn)行拒絕.
那我們是不是有一些更為智能的方法提交一些動(dòng)態(tài)的數(shù)據(jù),答案肯定也是肯定的.而且很簡(jiǎn)單,直接上代碼!

'''
@本程序是用來(lái)動(dòng)態(tài)提交Header信息
@random 動(dòng)態(tài)庫(kù),詳情請(qǐng)參考<https://docs.python.org/2/library/random.html>
'''

# coding=utf-8
import urllib2
import random

url = 'http://www.lifevc.com/'

my_headers = [
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)',
  'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.1',
  'Mozilla/4.0 (compatible; GoogleToolbar 5.0.2124.2070; Windows 6.0; MSIE 8.0.6001.18241)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',
  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; Sleipnir/2.9.8)',
  #因篇幅關(guān)系,此處省略N條
]

random_header = random.choice(headers)
# 可以通過(guò)print random_header查看提交的header信息
req = urllib2.Request(url)
req.add_header("User-Agent", random_header)
req.add_header('Host', 'blog.csdn.net')
req.add_header('Referer', 'http://blog.csdn.net')
req.add_header('GET', url)
content = urllib2.urlopen(req).read()
print content

其實(shí)很簡(jiǎn)單,這樣我們就完成了對(duì)代碼的一些優(yōu)化.

您可能感興趣的文章: