腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python Requests安裝與簡單運(yùn)用

更新時(shí)間：2016年04月07日 10:07:34 作者：Alpha5

requests是python的一個(gè)HTTP客戶端庫，跟urllib，urllib2類似，那為什么要用requests而不用urllib2呢？帶著這個(gè)問題來一起學(xué)習(xí)本教程吧

requests是python的一個(gè)HTTP客戶端庫，跟urllib，urllib2類似，那為什么要用requests而不用urllib2呢？官方文檔中是這樣說明的：

python的標(biāo)準(zhǔn)庫urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一個(gè)簡單的功能就需要一大堆代碼。

我也看了下requests的文檔，確實(shí)很簡單，適合我這種懶人。下面就是一些簡單指南。

插播個(gè)好消息！剛看到requests有了中文翻譯版，建議英文不好的看看，內(nèi)容也比我的博客好多了，具體鏈接是：http://cn.python-requests.org/en/latest/(不過是v1.1.0版，另抱歉，之前貼錯鏈接了)。

1. 安裝

安裝很簡單，我是win系統(tǒng)，就在這里下載了安裝包（網(wǎng)頁中download the zipball處鏈接），然后$ python setup.py install就裝好了。

當(dāng)然，有easy_install或pip的朋友可以直接使用：easy_install requests或者pip install requests來安裝。
至于linux用戶，這個(gè)頁面還有其他安裝方法。

測試：在IDLE中輸入import requests，如果沒提示錯誤，那說明已經(jīng)安裝成功了！

2. 小試牛刀

>>>import requests
>>> r = requests.get('http://www.zhidaow.com') # 發(fā)送請求
>>> r.status_code # 返回碼 
200
>>> r.headers['content-type'] # 返回頭部信息
'text/html; charset=utf8'
>>> r.encoding # 編碼信息
'utf-8'
>>> r.text #內(nèi)容部分（PS，由于編碼問題，建議這里使用r.content）
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'
...

是不是很簡單？比urllib2和urllib簡單直觀的多？！那請接著看快速指南吧。

3. 快速指南

3.1 發(fā)送請求

發(fā)送請求很簡單的，首先要導(dǎo)入requests模塊：

>>>import requests

接下來讓我們獲取一個(gè)網(wǎng)頁，例如我個(gè)人博客的首頁：

>>>r = requests.get('http://www.zhidaow.com')

接下來，我們就可以使用這個(gè)r的各種方法和函數(shù)了。

另外，HTTP請求還有很多類型，比如POST,PUT,DELETE,HEAD,OPTIONS。也都可以用同樣的方式實(shí)現(xiàn)：

>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options(http://httpbin.org/get)

因?yàn)槟壳拔疫€沒用到這些，所以沒有深入研究。

3.2 在URLs中傳遞參數(shù)

有時(shí)候我們需要在URL中傳遞參數(shù)，比如在采集百度搜索結(jié)果時(shí)，我們wd參數(shù)（搜索詞）和rn參數(shù)（搜素結(jié)果數(shù)量），你可以手工組成URL，requests也提供了一種看起來很NB的方法：

>>> payload = {'wd': '張亞楠', 'rn': '100'}
>>> r = requests.get("http://www.baidu.com/s", params=payload)
>>> print r.url
u'http://www.baidu.com/s?rn=100&wd=%E5%BC%A0%E4%BA%9A%E6%A5%A0'

上面wd=的亂碼就是“張亞楠”的轉(zhuǎn)碼形式。（好像參數(shù)按照首字母進(jìn)行了排序。）

3.3 獲取響應(yīng)內(nèi)容

可以通過r.text來獲取網(wǎng)頁的內(nèi)容。

>>> r = requests.get('https://www.zhidaow.com')
>>> r.text
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'

文檔里說，requests會自動將內(nèi)容轉(zhuǎn)碼。大多數(shù)unicode字體都會無縫轉(zhuǎn)碼。但我在cygwin下使用時(shí)老是出現(xiàn)UnicodeEncodeError錯誤，郁悶。倒是在python的IDLE中完全正常。
另外，還可以通過r.content來獲取頁面內(nèi)容。

>>> r = requests.get('https://www.zhidaow.com')
>>> r.content
b'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'

文檔中說r.content是以字節(jié)的方式去顯示，所以在IDLE中以b開頭。但我在cygwin中用起來并沒有，下載網(wǎng)頁正好。所以就替代了urllib2的urllib2.urlopen(url).read()功能。（基本上是我用的最多的一個(gè)功能。）

3.4 獲取網(wǎng)頁編碼

可以使用r.encoding來獲取網(wǎng)頁編碼。

>>> r = requests.get('http://www.zhidaow.com')
>>> r.encoding
'utf-8'

當(dāng)你發(fā)送請求時(shí)，requests會根據(jù)HTTP頭部來猜測網(wǎng)頁編碼，當(dāng)你使用r.text時(shí)，requests就會使用這個(gè)編碼。當(dāng)然你還可以修改requests的編碼形式。

>> r = requests.get('http://www.zhidaow.com')
>>> r.encoding
'utf-8'
>>>r.encoding = 'ISO-8859-1'

像上面的例子，對encoding修改后就直接會用修改后的編碼去獲取網(wǎng)頁內(nèi)容。

3.5 json

像urllib和urllib2，如果用到j(luò)son，就要引入新模塊，如json和simplejson，但在requests中已經(jīng)有了內(nèi)置的函數(shù)，r.json()。就拿查詢IP的API來說：

>>>r = requests.get('http://ip.taobao.com/service/getIpInfo.php?ip=122.88.60.28')
>>>r.json()['data']['country']
'中國'

3.6 網(wǎng)頁狀態(tài)碼

我們可以用r.status_code來檢查網(wǎng)頁的狀態(tài)碼。

>>>r = requests.get('http://www.mengtiankong.com')
>>>r.status_code
200
>>>r = requests.get('http://www.mengtiankong.com/123123/')
>>>r.status_code
404
>>>r = requests.get('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN')
>>>r.url
u'http://www.zhidaow.com/
>>>r.status_code
200

前兩個(gè)例子很正常，能正常打開的返回200，不能正常打開的返回404。但第三個(gè)就有點(diǎn)奇怪了，那個(gè)是百度搜索結(jié)果中的302跳轉(zhuǎn)地址，但狀態(tài)碼顯示是200，接下來我用了一招讓他原形畢露：

>>>r.history
(<Response [302]>,)

這里能看出他是使用了302跳轉(zhuǎn)。也許有人認(rèn)為這樣可以通過判斷和正則來獲取跳轉(zhuǎn)的狀態(tài)碼了，其實(shí)還有個(gè)更簡單的方法：

>>>r = requests.get('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN', allow_redirects = False)
>>>r.status_code
302

只要加上一個(gè)參數(shù)allow_redirects，禁止了跳轉(zhuǎn)，就直接出現(xiàn)跳轉(zhuǎn)的狀態(tài)碼了，好用吧？我也利用這個(gè)在最后一掌做了個(gè)簡單的獲取網(wǎng)頁狀態(tài)碼的小應(yīng)用，原理就是這個(gè)。

3.7 響應(yīng)頭內(nèi)容

可以通過r.headers來獲取響應(yīng)頭內(nèi)容。

>>>r = requests.get('http://www.zhidaow.com')
>>> r.headers
{
'content-encoding': 'gzip',
'transfer-encoding': 'chunked',
'content-type': 'text/html; charset=utf-8';
...
}

可以看到是以字典的形式返回了全部內(nèi)容，我們也可以訪問部分內(nèi)容。

>>> r.headers['Content-Type']
'text/html; charset=utf-8'
>>> r.headers.get('content-type')
'text/html; charset=utf-8'

3.8 設(shè)置超時(shí)時(shí)間

我們可以通過timeout屬性設(shè)置超時(shí)時(shí)間，一旦超過這個(gè)時(shí)間還沒獲得響應(yīng)內(nèi)容，就會提示錯誤。

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

3.9 代理訪問

采集時(shí)為避免被封IP，經(jīng)常會使用代理。requests也有相應(yīng)的proxies屬性。

import requests
proxies = {
"http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",
}
requests.get("http://www.zhidaow.com", proxies=proxies)

如果代理需要賬戶和密碼，則需這樣：

proxies = {
"http": "http://user:pass@10.10.1.10:3128/",
}

3.10 請求頭內(nèi)容

請求頭內(nèi)容可以用r.request.headers來獲取。

>>> r.request.headers
{'Accept-Encoding': 'identity, deflate, compress, gzip',
'Accept': '*/*', 'User-Agent': 'python-requests/1.2.3 CPython/2.7.3 Windows/XP'}

3.11 自定義請求頭部

偽裝請求頭部是采集時(shí)經(jīng)常用的，我們可以用這個(gè)方法來隱藏：

r = requests.get('http://www.zhidaow.com')
print r.request.headers['User-Agent']
#python-requests/1.2.3 CPython/2.7.3 Windows/XP
headers = {'User-Agent': 'alexkh'}
r = requests.get('http://www.zhidaow.com', headers = headers)
print r.request.headers['User-Agent']
#alexkh

3.12 持久連接keep-alive

requests的keep-alive是基于urllib3，同一會話內(nèi)的持久連接完全是自動的。同一會話內(nèi)的所有請求都會自動使用恰當(dāng)?shù)倪B接。

也就是說，你無需任何設(shè)置，requests會自動實(shí)現(xiàn)keep-alive。

4. 簡單應(yīng)用

4.1 獲取網(wǎng)頁返回碼

def get_status(url):
r = requests.get(url, allow_redirects = False)
return r.status_code
print get_status('http://www.zhidaow.com') 
#200
print get_status('http://www.zhidaow.com/hi404/')
#404
print get_status('http://mengtiankong.com')
#301
print get_status('http://www.baidu.com/link?url=QeTRFOS7TuUQRppa0wlTJJr6FfIYI1DJprJukx4Qy0XnsDO_s9baoO8u1wvjxgqN')
#302
print get_status('http://www.huiya56.com/com8.intre.asp?46981.html')
#500

以上是針對Python Requests的安裝與簡單運(yùn)用的介紹，希望對大家有所幫助！

腳本之家推薦閱讀：

Python Requests 基礎(chǔ)入門

您可能感興趣的文章: