使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程
urllib
學(xué)習(xí)python完基礎(chǔ),有些迷茫.眼睛一閉,一種空白的窒息源源不斷而來.還是缺少練習(xí),遂拿爬蟲來練練手.學(xué)習(xí)完斯巴達(dá)python爬蟲課程后,將心得整理如下,供后續(xù)翻看.整篇筆記主要分以下幾個(gè)部分:
- 1.做一個(gè)簡單的爬蟲程序
- 2.小試牛刀--抓取百度貼吧圖片
- 3.總結(jié)
1.做一個(gè)簡單的爬蟲程序
首先環(huán)境描述
- Device: Mba 2012 Yosemite 10.10.1
- Python: python 2.7.9
- 編輯器: Sublime Text 3
這個(gè)沒有什么好說的,直接上代碼吧!
''' @ urllib為python自帶的一個(gè)網(wǎng)絡(luò)庫 @ urlopen為urllib的一個(gè)方法,用于打開一個(gè)連接并抓取網(wǎng)頁, 然后通過read()方法把值賦給read() ''' import urllib url = "http://www.lifevc.com"#多嘴兩句,為什么要選lifevc呢,主要是最近它很惹我. html = urllib.urlopen(url) content = html.read() html.close() #可以通過print打印出網(wǎng)頁內(nèi)容 print content
很簡單,基本上沒有可說的,這個(gè)也就是python的魅力,幾行代碼就完成.
當(dāng)然我們僅僅抓取網(wǎng)頁,沒有實(shí)在的價(jià)值.接下來我們就開始做一點(diǎn)有意義的事情.
2.小試牛刀
抓取百度貼吧圖片
其實(shí)也很簡單,因?yàn)橐トD片,還需要先分析一下網(wǎng)頁源代碼
(這里以知道基本html知識(shí),瀏覽器以chrome為例)
如圖,這里簡要說下步驟,請(qǐng)參考.
打開網(wǎng)頁,右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
點(diǎn)擊下面彈起來的框框最左邊那個(gè)問號(hào),問號(hào)會(huì)變成藍(lán)色
移動(dòng)鼠標(biāo)去點(diǎn)擊我們想要抓取的圖片(一個(gè)萌妹子)
如圖,我們就可以圖片在源碼中的位置了
下面將源碼相關(guān)拷貝出來
<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/ sign=3d5aacaab21c8701d6b6b2ee177e9e6e/17a6d439b6003af329aece2e342ac65c1138b6d8. jpg" height="840" width="560" style="cursor: url(http://tb2.bdstatic.com/tb/ static-pb/img/cur_zin.cur), pointer;">
經(jīng)分析和對(duì)比(這里略掉),基本上可以看到要抓取的圖片幾個(gè)特征:
- 在img標(biāo)簽下
- 在名為BDE_Image的類下面
- 圖片格式為jpg
正則表達(dá)式后續(xù)我會(huì)更新,請(qǐng)關(guān)注
依照上述判斷,直接上代碼
''' @本程序用來下載百度貼吧圖片 @re 為正則說明庫 ''' import urllib import re # 獲取網(wǎng)頁html信息 url = "http://tieba.baidu.com/p/2336739808" html = urllib.urlopen(url) content = html.read() html.close() # 通過正則匹配圖片特征,并獲取圖片鏈接 img_tag = re.compile(r'class="BDE_Image" src="(.+?\.jpg)"') img_links = re.findall(img_tag, content) # 下載圖片 img_counter為圖片計(jì)數(shù)器(文件名) img_counter = 0 for img_link in img_links: img_name = '%s.jpg' % img_counter urllib.urlretrieve(img_link, "http://Users//Sean//Downloads//tieba//%s" %img_name) img_counter += 1
如圖,我們就抓取你懂的圖片
3.總結(jié)
如上兩節(jié),我們就很輕松的就可以網(wǎng)頁或者圖片.
補(bǔ)充一點(diǎn)小技巧,如果遇到不是很明白的庫或者方法,可以通過以下方法進(jìn)行初步了解.
- dir(urllib) #查看當(dāng)前庫有哪些方法
- help(urllib.urlretrieve) #查看跟當(dāng)前方法相關(guān)的作用或者參數(shù),官方比較權(quán)威
或者h(yuǎn)ttps://docs.python.org/2/library/index.html進(jìn)項(xiàng)相關(guān)搜索.
當(dāng)然百度也可以,但是效率太低.建議使用 http://xie.lu 進(jìn)行相關(guān)搜索(你懂了,絕對(duì)滿意).
這里我們講解如何抓取網(wǎng)頁和下載圖片,在下面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站.
urllib2
上面我們講解如何抓取網(wǎng)頁和下載圖片,在下一節(jié)里面我們會(huì)講解如何抓取有限制抓取的網(wǎng)站
首先,我們依然用我們上一節(jié)課的方法去抓取一個(gè)大家都用來舉例的網(wǎng)站<blog.cndn.net>,本文主要分以下幾個(gè)部分:
- 1.抓取受限網(wǎng)頁
- 2.對(duì)代碼進(jìn)行一些優(yōu)化
1.抓取受限網(wǎng)頁
首先使用我們上一節(jié)學(xué)到的知識(shí)測試一下:
''' @本程序用來抓取blog.csdn.net網(wǎng)頁 ''' import urllib url = "http://blog.csdn.net/FansUnion" html = urllib.urlopen(url) #getcode()方法為返回Http狀態(tài)碼 print html.getcode() html.close() #輸出
403
此處我們的輸出為403,代表拒絕訪問;同理200表示請(qǐng)求成功完成;404表示網(wǎng)址未找到.
可見csdn已做了相關(guān)屏蔽,通過第一節(jié)的方法是無法獲取網(wǎng)頁,在這里我們需要啟動(dòng)一個(gè)新的庫:urllib2
但是我們也看到瀏覽器可以發(fā)那個(gè)文,是不是我們模擬瀏覽器操作,就可以獲取網(wǎng)頁信息.
老辦法,我們先來看看瀏覽器是如何提交請(qǐng)求給csdn服務(wù)器的.首先簡述一下方法:
- 打開網(wǎng)頁,右鍵點(diǎn)擊,選擇"inspect Element"(最下面這一項(xiàng))
- 點(diǎn)擊下面彈起來的框框的Network選項(xiàng)卡
- 刷新網(wǎng)頁,就可以看到Network選項(xiàng)卡抓取了很多信息
- 找到其中一個(gè)信息展開,就能看到請(qǐng)求包的Header
以下就是整理后的Header信息
Request Method:GET Host:blog.csdn.net Referer:http://blog.csdn.net/?ref=toolbar_logo User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36
然后根據(jù)提取的Header信息,利用urllib2的Request方法模擬瀏覽器向服務(wù)器提交請(qǐng)求,代碼如下:
# coding=utf-8 ''' @本程序用來抓取受限網(wǎng)頁(blog.csdn.net) @User-Agent:客戶端瀏覽器版本 @Host:服務(wù)器地址 @Referer:跳轉(zhuǎn)地址 @GET:請(qǐng)求方法為GET ''' import urllib2 url = "http://blog.csdn.net/FansUnion" #定制自定義Header,模擬瀏覽器向服務(wù)器提交請(qǐng)求 req = urllib2.Request(url) req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36') req.add_header('Host', 'blog.csdn.net') req.add_header('Referer', 'http://blog.csdn.net') req.add_header('GET', url) #下載網(wǎng)頁html并打印 html = urllib2.urlopen(req) content = html.read() print content html.close()
呵呵,你限制我,我就跳過你的限制.據(jù)說只要瀏覽器能夠訪問的,就能夠通過爬蟲抓取.
2.對(duì)代碼進(jìn)行一些優(yōu)化
簡化提交Header方法
發(fā)現(xiàn)每次寫那么多req.add_header對(duì)自己來說是一種折磨,有沒有什么方法可以只要復(fù)制過來就使用.答案是肯定的.
#input: help(urllib2.Request) #output(因篇幅關(guān)系,只取__init__方法) __init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False) 通過觀察,我們發(fā)現(xiàn)headers={},就是說可以以字典的方式提交header信息.那就動(dòng)手試試咯!! #只取自定義Header部分代碼 csdn_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", "Host": "blog.csdn.net", 'Referer': 'http://blog.csdn.net', "GET": url } req = urllib2.Request(url,headers=csdn_headers)
發(fā)現(xiàn)是不是很簡單,在這里感謝斯巴達(dá)的無私賜教.
提供動(dòng)態(tài)頭部信息
如果按照上述方法進(jìn)行抓取,很多時(shí)候會(huì)因?yàn)樘峤恍畔⑦^于單一,被服務(wù)器認(rèn)為是機(jī)器爬蟲進(jìn)行拒絕.
那我們是不是有一些更為智能的方法提交一些動(dòng)態(tài)的數(shù)據(jù),答案肯定也是肯定的.而且很簡單,直接上代碼!
''' @本程序是用來動(dòng)態(tài)提交Header信息 @random 動(dòng)態(tài)庫,詳情請(qǐng)參考<https://docs.python.org/2/library/random.html> ''' # coding=utf-8 import urllib2 import random url = 'http://www.lifevc.com/' my_headers = [ 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.04506.648)', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.1', 'Mozilla/4.0 (compatible; GoogleToolbar 5.0.2124.2070; Windows 6.0; MSIE 8.0.6001.18241)', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; Sleipnir/2.9.8)', #因篇幅關(guān)系,此處省略N條 ] random_header = random.choice(headers) # 可以通過print random_header查看提交的header信息 req = urllib2.Request(url) req.add_header("User-Agent", random_header) req.add_header('Host', 'blog.csdn.net') req.add_header('Referer', 'http://blog.csdn.net') req.add_header('GET', url) content = urllib2.urlopen(req).read() print content
其實(shí)很簡單,這樣我們就完成了對(duì)代碼的一些優(yōu)化.
- Python爬蟲之urllib基礎(chǔ)用法教程
- Python爬蟲 urllib2的使用方法詳解
- python urllib爬蟲模塊使用解析
- python爬蟲 urllib模塊發(fā)起post請(qǐng)求過程解析
- python爬蟲 urllib模塊url編碼處理詳解
- python爬蟲 urllib模塊反爬蟲機(jī)制UA詳解
- 用python3 urllib破解有道翻譯反爬蟲機(jī)制詳解
- 詳解Python3網(wǎng)絡(luò)爬蟲(二):利用urllib.urlopen向有道翻譯發(fā)送數(shù)據(jù)獲得翻譯結(jié)果
- Python3爬蟲之urllib攜帶cookie爬取網(wǎng)頁的方法
- python爬蟲之urllib,偽裝,超時(shí)設(shè)置,異常處理的方法
- python爬蟲之urllib庫常用方法用法總結(jié)大全
- python爬蟲之urllib3的使用示例
- Python爬蟲中urllib庫的進(jìn)階學(xué)習(xí)
- python利用urllib實(shí)現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實(shí)例
- python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲
- Python中使用urllib2模塊編寫爬蟲的簡單上手示例
- Python中urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn)
- python爬蟲開發(fā)之urllib模塊詳細(xì)使用方法與實(shí)例全解
相關(guān)文章
Python+Matplotlib繪制高亮顯示餅圖的示例代碼
餅圖 (Pie Chart) 是一種圓形統(tǒng)計(jì)圖,被分割成片用于表示數(shù)值間的比例關(guān)系,本文為大家介紹了Matplotlib繪制高亮顯示的餅圖的函數(shù)源碼,需要的可以參考一下2023-06-06Python實(shí)戰(zhàn)之夢(mèng)幻鋼琴小游戲的實(shí)現(xiàn)
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言編寫一款界面化的(Tkinter)電子鋼琴小程序,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2023-02-02Python實(shí)現(xiàn)發(fā)送帶有pdf附件的電子郵件
使用Python發(fā)郵件,是個(gè)簡單的話題,可是如何可以優(yōu)雅的輕松的群發(fā)郵件,并附加PDF附件,是很多小伙伴的日常工作。本文就來和大家分享一下實(shí)現(xiàn)方法,需要的可以參考一下2023-02-02python生成隨機(jī)數(shù)、隨機(jī)字符、隨機(jī)字符串的方法示例
這篇文章主要介紹了python生成隨機(jī)數(shù)、隨機(jī)字符、隨機(jī)字符串的方法示例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04利用Numba與Cython結(jié)合提升python運(yùn)行效率詳解
近些年來, Numba和Cython在數(shù)學(xué)科學(xué)界得到了廣泛的關(guān)注。它們都提供了一種加速CPU密集型任務(wù)的方法,但以不同的方式。本文描述了它們之間體系結(jié)構(gòu)的差異2021-09-09pytorch 實(shí)現(xiàn)模型不同層設(shè)置不同的學(xué)習(xí)率方式
今天小編就為大家分享一篇pytorch 實(shí)現(xiàn)模型不同層設(shè)置不同的學(xué)習(xí)率方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01