Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié)
一、最基礎(chǔ)的應(yīng)用
import urllib2 url = r'http://www.baidu.com' html = urllib2.urlopen(url).read() print html
客戶端與服務(wù)器端通過(guò)request與response來(lái)溝通,客戶端先向服務(wù)端發(fā)送request,然后接收服務(wù)端返回的response
urllib2提供了request的類,可以讓用戶在發(fā)送請(qǐng)求前先構(gòu)造一個(gè)request的對(duì)象,然后通過(guò)urllib2.urlopen方法來(lái)發(fā)送請(qǐng)求
import urllib2 url = r'http://www.baidu.com' req = urllib2.Request(url) html = urllib2.urlopen(req).read() print html
上例中先使用
req = urllib2.Request(url)
實(shí)例化一個(gè)resquest對(duì)象,接下來(lái)使用
urllib2.urlopen(req)
來(lái)打開這個(gè)網(wǎng)頁(yè)。
我們注意到在實(shí)例化Request對(duì)象的時(shí)候,隊(duì)了url是必須的,還有幾個(gè)默認(rèn)的參數(shù)
基中data與header也是使用的比較多的,一些需要登錄的才能瀏覽的網(wǎng)站經(jīng)常需要這兩個(gè)參數(shù)
import urllib import urllib2 url = 'http://www.baidu.com/' values = {'name' : 'Michael Foord', 'location' : 'Northampton','language' : 'Python' } data = urllib.urlencode(values) req = urllib2.Request(url,data) response = urllib2.urlopen(req) the_page = response.read() print the_page
這個(gè)例子是向百度發(fā)送幾個(gè)數(shù)據(jù),這個(gè)例子是會(huì)返回一個(gè)錯(cuò)誤頁(yè)面,很正常,因?yàn)槲覀冊(cè)谠L問(wèn)百度的時(shí)候并不需要post什么信息,post了倒是會(huì)出錯(cuò)
百度是找不到相應(yīng)的網(wǎng)頁(yè)就會(huì)報(bào)錯(cuò)。
當(dāng)然這個(gè)是POST數(shù)據(jù),也可以用在GET方法,稍將上面的代碼進(jìn)行改造
百度是通過(guò)http://www.baidu.com/s?wd=XXX 來(lái)進(jìn)行查詢的,這樣我們需要將{‘wd':'xxx'}這個(gè)字典進(jìn)行urlencode
#coding:utf-8 import urllib import urllib2 url = 'http://www.baidu.com/s' values = {'wd':'楊彥星'} data = urllib.urlencode(values) print data url2 = url+'?'+data response = urllib2.urlopen(url2) the_page = response.read() print the_page
以下以模擬登錄人人網(wǎng)然后再顯示首頁(yè)內(nèi)容為例來(lái)詳細(xì)說(shuō)明一下cookie的使用,以下是文檔中給的例子,我們就通過(guò)改造這個(gè)例子來(lái)實(shí)現(xiàn)我們想要的功能
import cookielib, urllib2 cj = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) r = opener.open("http://example.com/") #coding:utf-8 import urllib2,urllib import cookielib url = r'http://www.renren.com/ajaxLogin' #創(chuàng)建一個(gè)cj的cookie的容器 cj = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) #將要POST出去的數(shù)據(jù)進(jìn)行編碼 data = urllib.urlencode({"email":email,"password":pass}) r = opener.open(url,data) print cj
當(dāng)你看到有cj的時(shí)候,說(shuō)明你已經(jīng)訪問(wèn)了登錄頁(yè)面,是否正常登錄你現(xiàn)在還看不出來(lái),可以通過(guò)訪問(wèn)http://www.renren.com/home 來(lái)查看
上面的代碼有兩點(diǎn)要說(shuō)明,我也是看了很長(zhǎng)時(shí)間才明白
r = opener.open(url,data)
這句,為什么要使用opener這個(gè)對(duì)象來(lái)open,而不是用utllib2,urlopen?不光是例子里這么寫,我們才這么寫,通過(guò)改造我們也可以使用urllib2.urlopen,其實(shí)是因?yàn)閛pener是urllib2.bulid_opener創(chuàng)造出來(lái)的, 但是你可以這樣理解,他build出來(lái)后,自已卻并沒(méi)有安裝使用它,也沒(méi)有它的屬性與方法,如果想使urllib2也具有opener的屬性與方法,可以先使用urllib2.install_opener(opener)來(lái)"安裝"這個(gè)opener,安裝完以后就可以使用urllib2來(lái)操作了
#coding:utf-8 import urllib2,urllib import cookielib url = r'http://www.renren.com/ajaxLogin' #創(chuàng)建一個(gè)cj的cookie的容器 cj = cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener) #將要POST出去的數(shù)據(jù)進(jìn)行編碼 data = urllib.urlencode({"email":email,"password":pass}) #r = opener.open(url,data)如果沒(méi)有上面的urllib2.install_opener方法,就必須這樣寫了 r = urllib2.urlopen(url,data) html = urllib2.urlopen('http://www.renren.com/home').read() print html
同樣urllib2還有proxy相關(guān)的handle,基本的思路和這個(gè)差不多。
二、異常處理
當(dāng)urlopen()不能處理響應(yīng)時(shí)會(huì)引起URLError異常。HTTPError異常是URLError的一個(gè)子類,只有在訪問(wèn)HTTP類型的URL時(shí)才會(huì)引起。
1、URLError異常
通常引起URLError的原因是:無(wú)網(wǎng)絡(luò)連接(沒(méi)有到目標(biāo)服務(wù)器的路由)、訪問(wèn)的目標(biāo)服務(wù)器不存在。在這種情況下,異常對(duì)象會(huì)有reason屬性(是一個(gè)(錯(cuò)誤碼、錯(cuò)誤原因)的元組)。
#! /usr/bin/env python #coding=utf-8 import urllib2 url="http://www.baidu.com/" try: response=urllib2.urlopen(url) except urllib2.URLError,e: print e.reason
2、HTTPError
每一個(gè)從服務(wù)器返回的HTTP響應(yīng)都有一個(gè)狀態(tài)碼。其中,有的狀態(tài)碼表示服務(wù)器不能完成相應(yīng)的請(qǐng)求,默認(rèn)的處理程序可以為我們處理一些這樣的狀態(tài)碼(如返回的響應(yīng)是重定向,urllib2會(huì)自動(dòng)為我們從重定向后的頁(yè)面中獲取信息)。有些狀態(tài)碼,urllib2模塊不能幫我們處理,那么urlopen函數(shù)就會(huì)引起HTTPError異常,其中典型的有404/401。
HTTPError異常的實(shí)例有整數(shù)類型的code屬性,表示服務(wù)器返回的錯(cuò)誤狀態(tài)碼。
urllib2模塊默認(rèn)的處理程序可以處理重定向(狀態(tài)碼是300范圍),而且狀態(tài)碼在100-299范圍內(nèi)表示成功。因此,能夠引起HTTPError異常的狀態(tài)碼范圍是:400-599.
當(dāng)引起錯(cuò)誤時(shí),服務(wù)器會(huì)返回HTTP錯(cuò)誤碼和錯(cuò)誤頁(yè)面。你可以將HTPError實(shí)例作為返回頁(yè)面,這意味著,HTTPError實(shí)例不僅有code屬性,還有read、geturl、info等方法。
#! /usr/bin/env python #coding=utf-8 import urllib2 url="http://cs.scu.edu.cn/~duanlei" try: response=urllib2.urlopen(url) except urllib2.HTTPError,e: print e.code print e.read()
3、總結(jié)
如果想在代碼中處理URLError和HTTPError有兩種方法,代碼如下:
#! /usr/bin/env python #coding=utf-8 import urllib2 url="xxxxxx" #需要訪問(wèn)的URL try: response=urllib2.urlopen(url) except urllib2.HTTPError,e: #HTTPError必須排在URLError的前面 print "The server couldn't fulfill the request" print "Error code:",e.code print "Return content:",e.read() except urllib2.URLError,e: print "Failed to reach the server" print "The reason:",e.reason else: #something you should do pass #其他異常的處理 #! /usr/bin/env python #coding=utf-8 import urllib2 url="http://xxx" #需要訪問(wèn)的URL try: response=urllib2.urlopen(url) except urllib2.URLError,e: if hasattr(e,"reason"): print "Failed to reach the server" print "The reason:",e.reason elif hasattr(e,"code"): print "The server couldn't fulfill the request" print "Error code:",e.code print "Return content:",e.read() else: pass #其他異常的處理
相比較而言,第二種異常處理方法更優(yōu)。
相關(guān)文章
python網(wǎng)絡(luò)爬蟲selenium打開多窗口與切換頁(yè)面的實(shí)現(xiàn)
本文主要介紹了python網(wǎng)絡(luò)爬蟲selenium打開多窗口與切換頁(yè)面的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-01-01Python基于argparse與ConfigParser庫(kù)進(jìn)行入?yún)⒔馕雠cini parser
這篇文章主要介紹了Python基于argparse與ConfigParser庫(kù)進(jìn)行入?yún)⒔馕雠cini parser,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-02-02python使用IPython調(diào)試debug程序
這篇文章主要為大家介紹了python使用IPython調(diào)試debug程序詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05pandas之分組統(tǒng)計(jì)列聯(lián)表pd.crosstab()問(wèn)題
這篇文章主要介紹了pandas之分組統(tǒng)計(jì)列聯(lián)表pd.crosstab()問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09Python基礎(chǔ)之logging模塊知識(shí)總結(jié)
用Python寫代碼的時(shí)候,在想看的地方寫個(gè)print xx 就能在控制臺(tái)上顯示打印信息,這樣子就能知道它是什么了,但是當(dāng)我需要看大量的地方或者在一個(gè)文件中查看的時(shí)候,這時(shí)候print就不大方便了,所以Python引入了logging模塊來(lái)記錄我想要的信息,需要的朋友可以參考下2021-05-05Python 實(shí)現(xiàn)毫秒級(jí)淘寶搶購(gòu)腳本的示例代碼
本篇文章主要介紹了Python 通過(guò)selenium實(shí)現(xiàn)毫秒級(jí)自動(dòng)搶購(gòu)的示例代碼,通過(guò)掃碼登錄即可自動(dòng)完成一系列操作,搶購(gòu)時(shí)間精確至毫秒,可搶加購(gòu)物車等待時(shí)間結(jié)算的,感興趣的小伙伴們可以參考一下2019-09-09pyqt5+opencv?實(shí)現(xiàn)讀取視頻數(shù)據(jù)的方法
這篇文章主要介紹了pyqt5+opencv?實(shí)現(xiàn)讀取視頻數(shù)據(jù)的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-01-01