Python中使用urllib2模塊編寫(xiě)爬蟲(chóng)的簡(jiǎn)單上手示例
提起python做網(wǎng)絡(luò)爬蟲(chóng)就不得不說(shuō)到強(qiáng)大的組件urllib2。在python中正是使用urllib2這個(gè)組件來(lái)抓取網(wǎng)頁(yè)的。urllib2是Python的一個(gè)獲取URLs(Uniform Resource Locators)的組件。它以u(píng)rlopen函數(shù)的形式提供了一個(gè)非常簡(jiǎn)單的接口。通過(guò)下面的代碼簡(jiǎn)單感受一下urllib2的功能;
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html
運(yùn)行結(jié)果如下;
查看http://www.baidu.com/源代碼發(fā)現(xiàn)跟以上運(yùn)行結(jié)果完全一樣。這里的URL除了http:還可以是ftp:或file:
urllib2用一個(gè)Request對(duì)象來(lái)映射提出的HTTP請(qǐng)求。你可以創(chuàng)建一個(gè)Request對(duì)象,通過(guò)調(diào)用urlopen并傳入Request對(duì)象,將返回一個(gè)相關(guān)請(qǐng)求response對(duì)象,這個(gè)應(yīng)答對(duì)象如同一個(gè)文件對(duì)象,所以你可以在Response中調(diào)用.read()。修改代碼如下;
import urllib2 req = urllib2.Request('http://www.baidu.com') response = urllib2.urlopen(req) page = response.read() print page
發(fā)現(xiàn)運(yùn)行結(jié)果跟修改前一樣。同時(shí)在http請(qǐng)求前你還需要做以下事1、發(fā)送表單數(shù)據(jù)。2、設(shè)置headers信息。
1、發(fā)送表單數(shù)據(jù);常見(jiàn)于模擬登錄時(shí),一般的在登錄操作時(shí)需要發(fā)送數(shù)據(jù)到服務(wù)器。這里主要用到post方法,一般的HTML表單,data需要編碼成標(biāo)準(zhǔn)形式。然后做為data參數(shù)傳到Request對(duì)象。編碼工作使用urllib的函數(shù)而非urllib2。測(cè)試代碼如下
import urllib import urllib2 url = 'http://www.server.com/register.php' postData = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } data = urllib.urlencode(postData) # 編碼工作 req = urllib2.Request(url, data) # 發(fā)送請(qǐng)求同時(shí)傳data response = urllib2.urlopen(req) #接受反饋的信息 page = response.read() #讀取反饋的內(nèi)容
同時(shí)urllib2還可以使用get方法傳送數(shù)據(jù)。代碼如下;
import urllib2 import urllib data = {} data['useid'] = 'user' data['pwd'] = '***' data['language'] = 'Python' values = urllib.urlencode(data) print values name=Somebody+Here&language=Python&location=Northampton url = 'http://www.example.com/example.php' full_url = url + '?' + url_values data = urllib2.open(full_url)
2、設(shè)置headers信息;有些站點(diǎn)對(duì)訪問(wèn)來(lái)源做了限制,所以這里模擬User-Agent頭,代碼如下;
import urllib import urllib2 url = 'http://www.server.com/register.php' user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' values = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) req = urllib2.Request(url, data, headers) response = urllib2.urlopen(req) page = response.read()
urllib2就介紹到這里啦!
異常處理
通常URLError在沒(méi)有網(wǎng)絡(luò)連接時(shí)或者服務(wù)器地址不可達(dá)時(shí)產(chǎn)生,在這種情況下異常會(huì)帶有resaon屬性包含了錯(cuò)誤號(hào)和錯(cuò)誤信息。如下代碼測(cè)試效果;
import urllib import urllib2 url = 'http://www.server.com/register.php' user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0' values = {'useid' : 'user', 'pwd' : '***', 'language' : 'Python' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) req = urllib2.Request(url, data, headers) response = urllib2.urlopen(req) page = response.read()
查閱相關(guān)資料后顯示Errno 10061表示服務(wù)器端主動(dòng)拒絕。
除此之外還有HTTPError,當(dāng)客戶端與服務(wù)器之間建立正常連接時(shí),urllib2將開(kāi)始處理相關(guān)數(shù)據(jù)。如果遇到不能處理的情況就會(huì)產(chǎn)生相應(yīng)的HTTPError,如網(wǎng)站訪問(wèn)常見(jiàn)的錯(cuò)誤碼”404″(頁(yè)面無(wú)法找到),”403″(請(qǐng)求禁止),和”401″(帶驗(yàn)證請(qǐng)求)等……HTTP狀態(tài)碼表示HTTP協(xié)議的響應(yīng)情況,常見(jiàn)的狀態(tài)碼見(jiàn)HTTP狀態(tài)碼詳解。
HTTPError會(huì)帶有一個(gè)'code'屬性,是服務(wù)器發(fā)送的錯(cuò)誤號(hào)。當(dāng)一個(gè)HTTPError產(chǎn)生后服務(wù)器會(huì)返回一個(gè)相關(guān)的錯(cuò)誤號(hào)和錯(cuò)誤頁(yè)面。如下代碼驗(yàn)證;
import urllib2 req = urllib2.Request('http://www.python.org/callmewhy') try: urllib2.urlopen(req) except urllib2.URLError, e: print e.code
輸出404代碼,說(shuō)明找不到頁(yè)面。
捕捉異常并處理……實(shí)現(xiàn)代碼如下;
#-*- coding:utf-8 -*- from urllib2 import Request, urlopen, URLError, HTTPError req = Request('http://www.python.org/callmewhy') try: response = urlopen(req) except URLError, e: if hasattr(e, 'code'): print '服務(wù)器不能正常響應(yīng)這個(gè)請(qǐng)求!' print 'Error code: ', e.code elif hasattr(e, 'reason'): print '無(wú)法與服務(wù)器建立連接' print 'Reason: ', e.reason else: print '沒(méi)有出現(xiàn)異常'
成功捕捉到異常!
相關(guān)文章
新手該如何學(xué)python怎么學(xué)好python?
怎么學(xué)好python?怎么靈活應(yīng)用python?2008-10-10python 開(kāi)發(fā)的三種運(yùn)行模式詳細(xì)介紹
這篇文章主要介紹了python 開(kāi)發(fā)的三種運(yùn)行模式詳細(xì)介紹的相關(guān)資料,需要的朋友可以參考下2017-01-01pytorch模型轉(zhuǎn)換為onnx可視化(使用netron)
netron 是一個(gè)非常好用的網(wǎng)絡(luò)結(jié)構(gòu)可視化工具,但是netron對(duì)pytorch模型的支持還不成熟,這篇文章主要介紹了pytorch模型轉(zhuǎn)換為onnx,并使用netron可視化,需要的朋友可以參考下2023-05-05Python GUI編程學(xué)習(xí)筆記之tkinter界面布局顯示詳解
這篇文章主要介紹了Python GUI編程學(xué)習(xí)筆記之tkinter界面布局顯示,結(jié)合實(shí)例形式分析了Python GUI編程中tkinter界面布局顯示的相關(guān)操作技巧與使用注意事項(xiàng),需要的朋友可以參考下2020-03-03Python字典添加,刪除,查詢等相關(guān)操作方法詳解
這篇文章主要介紹了Python字典添加,刪除,查詢等相關(guān)操作方法詳解,需要的朋友可以參考下2020-02-02Python3.5 win10環(huán)境下導(dǎo)入kera/tensorflow報(bào)錯(cuò)的解決方法
這篇文章主要介紹了Python3.5 win10環(huán)境下導(dǎo)入keras/tensorflow報(bào)錯(cuò)的解決方法,較為詳細(xì)的分析了Python3.5在win10環(huán)境下導(dǎo)入keras/tensorflow提示錯(cuò)誤的原因與相關(guān)解決方法,需要的朋友可以參考下2019-12-12Pycharm中配置遠(yuǎn)程Docker運(yùn)行環(huán)境的教程圖解
這篇文章主要介紹了Pycharm中配置遠(yuǎn)程Docker運(yùn)行環(huán)境,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-06-06使用Python腳本對(duì)GiteePages進(jìn)行一鍵部署的使用說(shuō)明
剛好之前有了解過(guò)python的自動(dòng)化,就想著自動(dòng)化腳本,百度一搜還真有類似的文章。今天就給大家分享下使用Python腳本對(duì)GiteePages進(jìn)行一鍵部署的使用說(shuō)明,感興趣的朋友一起看看吧2021-05-05