快捷導(dǎo)航

Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié)

更新時(shí)間：2016年07月12日 15:30:16 作者：duhaizhang

使用urllib2模塊進(jìn)行基于url的HTTP請(qǐng)求等操作大家也許都比較熟悉,這里我們?cè)偕钊雭砹私庖幌聈rllib2針對(duì)HTTP的異常處理相關(guān)功能,一起來看一下Python網(wǎng)絡(luò)編程中urllib2模塊的用法總結(jié):

一、最基礎(chǔ)的應(yīng)用

import urllib2

url = r'http://www.baidu.com'
html = urllib2.urlopen(url).read()

print html

客戶端與服務(wù)器端通過request與response來溝通，客戶端先向服務(wù)端發(fā)送request，然后接收服務(wù)端返回的response

urllib2提供了request的類，可以讓用戶在發(fā)送請(qǐng)求前先構(gòu)造一個(gè)request的對(duì)象，然后通過urllib2.urlopen方法來發(fā)送請(qǐng)求

import urllib2

url = r'http://www.baidu.com'
req = urllib2.Request(url)
html = urllib2.urlopen(req).read()
print html

上例中先使用

req = urllib2.Request(url)

實(shí)例化一個(gè)resquest對(duì)象，接下來使用

urllib2.urlopen(req)

來打開這個(gè)網(wǎng)頁。

我們注意到在實(shí)例化Request對(duì)象的時(shí)候，隊(duì)了url是必須的，還有幾個(gè)默認(rèn)的參數(shù)

2016712152259943.png (864×76)

基中data與header也是使用的比較多的，一些需要登錄的才能瀏覽的網(wǎng)站經(jīng)常需要這兩個(gè)參數(shù)

import urllib 
import urllib2 
 
url = 'http://www.baidu.com/' 
values = {'name' : 'Michael Foord', 'location' : 'Northampton','language' : 'Python' } 
data = urllib.urlencode(values) 
req = urllib2.Request(url,data) 
response = urllib2.urlopen(req) 
the_page = response.read()

print the_page

這個(gè)例子是向百度發(fā)送幾個(gè)數(shù)據(jù)，這個(gè)例子是會(huì)返回一個(gè)錯(cuò)誤頁面，很正常，因?yàn)槲覀冊(cè)谠L問百度的時(shí)候并不需要post什么信息，post了倒是會(huì)出錯(cuò)

百度是找不到相應(yīng)的網(wǎng)頁就會(huì)報(bào)錯(cuò)。

當(dāng)然這個(gè)是POST數(shù)據(jù)，也可以用在GET方法，稍將上面的代碼進(jìn)行改造

百度是通過http://www.baidu.com/s?wd=XXX 來進(jìn)行查詢的，這樣我們需要將{‘wd':'xxx'}這個(gè)字典進(jìn)行urlencode

#coding:utf-8
import urllib 
import urllib2 
 
url = 'http://www.baidu.com/s' 
values = {'wd':'楊彥星'} 
data = urllib.urlencode(values)
print data 
url2 = url+'?'+data
response = urllib2.urlopen(url2) 
the_page = response.read()

print the_page

以下以模擬登錄人人網(wǎng)然后再顯示首頁內(nèi)容為例來詳細(xì)說明一下cookie的使用，以下是文檔中給的例子，我們就通過改造這個(gè)例子來實(shí)現(xiàn)我們想要的功能

import cookielib, urllib2
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
r = opener.open("http://example.com/")
 
#coding:utf-8
import urllib2,urllib
import cookielib

url = r'http://www.renren.com/ajaxLogin'

#創(chuàng)建一個(gè)cj的cookie的容器
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#將要POST出去的數(shù)據(jù)進(jìn)行編碼
data = urllib.urlencode({"email":email,"password":pass})
r = opener.open(url,data)
print cj

當(dāng)你看到有cj的時(shí)候,說明你已經(jīng)訪問了登錄頁面,是否正常登錄你現(xiàn)在還看不出來,可以通過訪問http://www.renren.com/home 來查看

上面的代碼有兩點(diǎn)要說明,我也是看了很長時(shí)間才明白

r = opener.open(url,data)

這句,為什么要使用opener這個(gè)對(duì)象來open,而不是用utllib2,urlopen?不光是例子里這么寫,我們才這么寫,通過改造我們也可以使用urllib2.urlopen,其實(shí)是因?yàn)閛pener是urllib2.bulid_opener創(chuàng)造出來的, 但是你可以這樣理解,他build出來后,自已卻并沒有安裝使用它,也沒有它的屬性與方法,如果想使urllib2也具有opener的屬性與方法,可以先使用urllib2.install_opener(opener)來"安裝"這個(gè)opener,安裝完以后就可以使用urllib2來操作了

#coding:utf-8
import urllib2,urllib
import cookielib

url = r'http://www.renren.com/ajaxLogin'

#創(chuàng)建一個(gè)cj的cookie的容器
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
#將要POST出去的數(shù)據(jù)進(jìn)行編碼
data = urllib.urlencode({"email":email,"password":pass})
#r = opener.open(url,data)如果沒有上面的urllib2.install_opener方法，就必須這樣寫了
r = urllib2.urlopen(url,data)
html = urllib2.urlopen('http://www.renren.com/home').read()

print html

同樣urllib2還有proxy相關(guān)的handle,基本的思路和這個(gè)差不多。

二、異常處理

當(dāng)urlopen()不能處理響應(yīng)時(shí)會(huì)引起URLError異常。HTTPError異常是URLError的一個(gè)子類，只有在訪問HTTP類型的URL時(shí)才會(huì)引起。

1、URLError異常

通常引起URLError的原因是：無網(wǎng)絡(luò)連接（沒有到目標(biāo)服務(wù)器的路由）、訪問的目標(biāo)服務(wù)器不存在。在這種情況下，異常對(duì)象會(huì)有reason屬性（是一個(gè)（錯(cuò)誤碼、錯(cuò)誤原因）的元組）。

#! /usr/bin/env python
#coding=utf-8
import urllib2

url="http://www.baidu.com/"
try:
 response=urllib2.urlopen(url)
except urllib2.URLError,e:
 print e.reason

2、HTTPError
每一個(gè)從服務(wù)器返回的HTTP響應(yīng)都有一個(gè)狀態(tài)碼。其中，有的狀態(tài)碼表示服務(wù)器不能完成相應(yīng)的請(qǐng)求，默認(rèn)的處理程序可以為我們處理一些這樣的狀態(tài)碼（如返回的響應(yīng)是重定向，urllib2會(huì)自動(dòng)為我們從重定向后的頁面中獲取信息）。有些狀態(tài)碼，urllib2模塊不能幫我們處理，那么urlopen函數(shù)就會(huì)引起HTTPError異常,其中典型的有404/401。
HTTPError異常的實(shí)例有整數(shù)類型的code屬性，表示服務(wù)器返回的錯(cuò)誤狀態(tài)碼。
urllib2模塊默認(rèn)的處理程序可以處理重定向（狀態(tài)碼是300范圍），而且狀態(tài)碼在100-299范圍內(nèi)表示成功。因此，能夠引起HTTPError異常的狀態(tài)碼范圍是：400-599.
當(dāng)引起錯(cuò)誤時(shí)，服務(wù)器會(huì)返回HTTP錯(cuò)誤碼和錯(cuò)誤頁面。你可以將HTPError實(shí)例作為返回頁面，這意味著，HTTPError實(shí)例不僅有code屬性，還有read、geturl、info等方法。

#! /usr/bin/env python
#coding=utf-8
import urllib2

url="http://cs.scu.edu.cn/~duanlei"
try:
 response=urllib2.urlopen(url)
except urllib2.HTTPError,e:
 print e.code
 print e.read()

3、總結(jié)
如果想在代碼中處理URLError和HTTPError有兩種方法，代碼如下：

#! /usr/bin/env python
#coding=utf-8
import urllib2
url="xxxxxx" #需要訪問的URL
try:
 response=urllib2.urlopen(url)
except urllib2.HTTPError,e: #HTTPError必須排在URLError的前面
 print "The server couldn't fulfill the request"
 print "Error code:",e.code
 print "Return content:",e.read()
except urllib2.URLError,e:
 print "Failed to reach the server"
 print "The reason:",e.reason
else:
 #something you should do
 pass #其他異常的處理
#! /usr/bin/env python
#coding=utf-8
import urllib2
url="http://xxx" #需要訪問的URL
try:
 response=urllib2.urlopen(url)
except urllib2.URLError,e:
 if hasattr(e,"reason"):
 print "Failed to reach the server"
 print "The reason:",e.reason
 elif hasattr(e,"code"):
 print "The server couldn't fulfill the request"
 print "Error code:",e.code
 print "Return content:",e.read()
else:
 pass #其他異常的處理

相比較而言，第二種異常處理方法更優(yōu)。

您可能感興趣的文章: