Python urllib2運行過程原理解析
1.urlopen函數(shù)
urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
注:
url表示目標網(wǎng)頁地址,可以是字符串,也可以是請求對象Request
req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)
data表示post方式提交給目標服務器的參數(shù)
data = urllib.urlencode(data)
import urllib,urllib2 action_url="http://www.xxxxxx.com/post"#用于測試post的網(wǎng)址,返回提交的數(shù)據(jù) values={'name':"alice",'age':20} data=urllib.urlencode(values)#對表單數(shù)據(jù)編碼 rqst=urllib2.Request(action_url,data) response=urllib2.urlopen(rqst)#模擬提交表單數(shù)據(jù)到url并獲得響應
timeout表示超時時間設置。
返回值
- response.read()返回頁面內(nèi)容
- response.info()返回網(wǎng)頁信息
- response.geturl()返回連接地址
這個函數(shù)可以像urllib.urlopen()那樣以url做參數(shù)。也能以Request實例為參數(shù),即用一個Request對象(下文構(gòu)造方法)來映射你提出的HTTP請求,在它最簡單的使用形式中你將用你要請求的地址創(chuàng)建一個Request對象,這個Request對象中可以設置傳輸數(shù)據(jù)、headers等。通過調(diào)用urlopen并傳入Request對象,將返回一個file-like對象。urllib2還提供了接口來處理一般情況,例如:基礎驗證,cookies,代理和其他,它們通過handlers和openers的對象實現(xiàn)。
2、Request函數(shù)
urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
用于構(gòu)造Request對象,可以傳遞data數(shù)據(jù),添加請求頭(headers)等,構(gòu)造好后作為urllib2.urlopen()的參數(shù)。
注:
url表示目標網(wǎng)頁地址,可以是字符串,也可以是請求對象Request
data表示post方式提交給目標服務器的參數(shù)
headers表示用戶標識,是一個字典類型的數(shù)據(jù),有些不允許腳本的抓取,所以需要用戶代理,像火狐瀏覽器的代理就是類似:
Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
瀏覽器的標準UA格式為:瀏覽器標識 (操作系統(tǒng)標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本信息 ,headers默認是
Python-urllib/2.6
origin_req_host表示請求方的主機域名或者ip地址。
headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}
import urllib import urllib2 url = 'http://www.weibo.cn/' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' h = { 'User-Agent' : user_agent } req = urllib2.Request(url,headers=h) response = urllib2.urlopen(req) print response.read()
3、build_opener()
build_opener([handler1 [ handler2, ... ]])
urllib2.urlopen()函數(shù)不支持驗證、cookie或者其它HTTP高級功能。要支持這些功能,必須使用build_opener()函數(shù)創(chuàng)建自定義Opener對象。
參數(shù)handler是Handler實例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener ()返回的對象具有open()方法,與urlopen()函數(shù)的功能相同。
如果要修改http報頭,可以用:
import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.example.com/')
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
- python urllib.request模塊的使用詳解
- python 如何用urllib與服務端交互(發(fā)送和接收數(shù)據(jù))
- python urllib和urllib3知識點總結(jié)
- python爬蟲基礎之urllib的使用
- Python urllib request模塊發(fā)送請求實現(xiàn)過程解析
- Python urllib3軟件包的使用說明
- Python urllib庫如何添加headers過程解析
- 詳解python內(nèi)置模塊urllib
- python3 中使用urllib問題以及urllib詳解
- Python urllib.request對象案例解析
- python中urllib.request和requests的使用及區(qū)別詳解
- python urllib庫的使用詳解
相關文章
自動化測試時基于Python常用的幾個加密算法總結(jié)
這幾天做自動化測試,遇到一個問題,那就是接口的請求的密碼是加密的,產(chǎn)品的要求是不能使用使用其他特殊手段,他給提供加密算法,需要在接口請求的時候,使用加密算法處理后的數(shù)據(jù)傳參,本文主要是整理了幾個加密算法,以便后續(xù)測試使用,需要的朋友可以參考下2023-12-12CentOS 7 安裝python3.7.1的方法及注意事項
這篇文章主要介紹了CentOS 7 安裝python3.7.1的方法,文中給大家提到了注意事項,需要的朋友可以參考下2018-11-11