欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python2.X/Python3.X中urllib庫區(qū)別講解

 更新時(shí)間:2017年12月19日 14:01:41   作者:返回主頁 sherlockChen  
本篇文章通過對(duì)比給大家詳細(xì)講解了在Python2和Python3中urllib庫區(qū)別以及用法講解,有需要的朋友跟著學(xué)習(xí)下吧。

本文介紹urllib庫在不同版本的Python中的變動(dòng),并以Python3.X講解urllib庫的相關(guān)用法。

urllib庫對(duì)照速查表

Python2.X Python3.X
urllib urllib.request, urllib.error, urllib.parse
urllib2 urllib.request, urllib.error
urllib2.urlopen urllib.request.urlopen
urllib.urlencode urllib.parse.urlencode
urllib.quote urllib.request.quote
urllib2.Request urllib.request.Request
urlparse urllib.parse
urllib.urlretrieve urllib.request.urlretrieve
urllib2.URLError urllib.error.URLError
cookielib.CookieJar http.CookieJar

urllib庫是用于操作URL,爬取頁面的python第三方庫,同樣的庫還有requests、httplib2。

在Python2.X中,分urllib和urllib2,但在Python3.X中,都統(tǒng)一合并到urllib中。通過上表可以看到其中常見的變動(dòng),依據(jù)該變動(dòng)可快速寫出相應(yīng)版本的python程序。

相對(duì)來說,Python3.X對(duì)中文的支持比Python2.X友好,所以該博客接下來通過Python3.X來介紹urllib庫的一些常見用法。

發(fā)送請(qǐng)求

import urllib.request
r = urllib.request.urlopen(http://www.python.org/)

首先導(dǎo)入urllib.request模塊,使用urlopen()對(duì)參數(shù)中的URL發(fā)送請(qǐng)求,返回一個(gè)http.client.HTTPResponse對(duì)象。

在urlopen()中,使用timeout字段,可設(shè)定相應(yīng)的秒數(shù)時(shí)間之后停止等待響應(yīng)。除此之外,還可使用r.info()、r.getcode()、r.geturl()獲取相應(yīng)的當(dāng)前環(huán)境信息、狀態(tài)碼、當(dāng)前網(wǎng)頁URL。

讀取響應(yīng)內(nèi)容

import urllib.request
url = "http://www.python.org/"
with urllib.request.urlopen(url) as r:
r.read()

使用r.read()讀取響應(yīng)內(nèi)容到內(nèi)存,該內(nèi)容為網(wǎng)頁的源代碼(可用相應(yīng)的瀏覽器“查看網(wǎng)頁源代碼”功能看到),并可對(duì)返回的字符串進(jìn)行相應(yīng)解碼decode()。

傳遞URL參數(shù)

import urllib.request
import urllib.parse
params = urllib.parse.urlencode({'q': 'urllib', 'check_keywords': 'yes', 'area': 'default'})
url = "https://docs.python.org/3/search.html?{}".format(params)
r = urllib.request.urlopen(url)

以字符串字典的形式,通過urlencode()編碼,為URL的查詢字符串傳遞數(shù)據(jù),

編碼后的params為字符串,字典每項(xiàng)鍵值對(duì)以'&'連接:'q=urllib&check_keywords=yes&area=default'

構(gòu)建后的URL:https://docs.python.org/3/search.html?q=urllib&check_keywords=yes&area=default

當(dāng)然,urlopen()支持直接構(gòu)建的URL,簡(jiǎn)單的get請(qǐng)求可以不通過urlencode()編碼,手動(dòng)構(gòu)建后直接請(qǐng)求。上述方法使代碼模塊化,更優(yōu)雅。

傳遞中文參數(shù)

import urllib.request
searchword = urllib.request.quote(input("請(qǐng)輸入要查詢的關(guān)鍵字:"))
url = "https://cn.bing.com/images/async?q={}&first=0&mmasync=1".format(searchword)
r = urllib.request.urlopen(url)

該URL是利用bing圖片接口,查詢關(guān)鍵字q的圖片。如果直接將中文傳入U(xiǎn)RL中請(qǐng)求,會(huì)導(dǎo)致編碼錯(cuò)誤。我們需要使用quote(),對(duì)該中文關(guān)鍵字進(jìn)行URL編碼,相應(yīng)的可以使用unquote()進(jìn)行解碼。

定制請(qǐng)求頭

import urllib.request
url = 'https://docs.python.org/3/library/urllib.request.html'
headers = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
  'Referer': 'https://docs.python.org/3/library/urllib.html'
}
req = urllib.request.Request(url, headers=headers)
r = urllib.request.urlopen(req)

有時(shí)爬取一些網(wǎng)頁時(shí),會(huì)出現(xiàn)403錯(cuò)誤(Forbidden),即禁止訪問。這是因?yàn)榫W(wǎng)站服務(wù)器對(duì)訪問者的Headers屬性進(jìn)行身份驗(yàn)證,例如:通過urllib庫發(fā)送的請(qǐng)求,默認(rèn)以”Python-urllib/X.Y”作為User-Agent,其中X為Python的主版本號(hào),Y為副版本號(hào)。所以,我們需要通過urllib.request.Request()構(gòu)建Request對(duì)象,傳入字典形式的Headers屬性,模擬瀏覽器。

相應(yīng)的Headers信息,可通過瀏覽器的開發(fā)者調(diào)試工具,”檢查“功能的”Network“標(biāo)簽查看相應(yīng)的網(wǎng)頁得到,或使用抓包分析軟件Fiddler、Wireshark。

除上述方法外,還可以使用urllib.request.build_opener()或req.add_header()定制請(qǐng)求頭,詳見官方樣例。

在Python2.X中,urllib模塊和urllib2模塊通常一起使用,因?yàn)閡rllib.urlencode()可以對(duì)URL參數(shù)進(jìn)行編碼,而urllib2.Request()可以構(gòu)建Request對(duì)象,定制請(qǐng)求頭,然后統(tǒng)一使用urllib2.urlopen()發(fā)送請(qǐng)求。

傳遞POST請(qǐng)求

import urllib.request
import urllib.parse
url = 'https://passport.cnblogs.com/user/signin?'
post = {
  'username': 'xxx',
  'password': 'xxxx'
}
postdata = urllib.parse.urlencode(post).encode('utf-8')
req = urllib.request.Request(url, postdata)
r = urllib.request.urlopen(req)

我們?cè)谶M(jìn)行注冊(cè)、登錄等操作時(shí),會(huì)通過POST表單傳遞信息。

這時(shí),我們需要分析頁面結(jié)構(gòu),構(gòu)建表單數(shù)據(jù)post,使用urlencode()進(jìn)行編碼處理,返回字符串,再指定'utf-8'的編碼格式,這是因?yàn)镻OSTdata只能是bytes或著file object。最后通過Request()對(duì)象傳遞postdata,使用urlopen()發(fā)送請(qǐng)求。

下載遠(yuǎn)程數(shù)據(jù)到本地

import urllib.request
url = "https://www.python.org/static/img/python-logo.png"
urllib.request.urlretrieve(url, "python-logo.png")

爬取圖片、視頻等遠(yuǎn)程數(shù)據(jù)時(shí),可使用urlretrieve()下載到本地。

第一個(gè)參數(shù)為要下載的url,第二個(gè)參數(shù)為下載后的存放路徑。

該樣例下載python官網(wǎng)logo到當(dāng)前目錄下,返回元組(filename, headers)。

設(shè)置代理IP

import urllib.request
url = "https://www.cnblogs.com/"
proxy_ip = "180.106.16.132:8118"
proxy = urllib.request.ProxyHandler({'http': proxy_ip})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

有時(shí)頻繁的爬取一個(gè)網(wǎng)頁,會(huì)被網(wǎng)站服務(wù)器屏蔽IP。這時(shí),可通過上述方法設(shè)置代理IP。

首先,通過網(wǎng)上代理IP的網(wǎng)站找一個(gè)可以用的IP,構(gòu)建ProxyHandler()對(duì)象,將'http'和代理IP以字典形式作為參數(shù)傳入,設(shè)置代理服務(wù)器信息。再構(gòu)建opener對(duì)象,將proxy和HTTPHandler類傳入。通過installl_opener()將opener設(shè)置成全局,當(dāng)用urlopen()發(fā)送請(qǐng)求時(shí),會(huì)使用之前設(shè)置的信息來發(fā)送相應(yīng)的請(qǐng)求。

異常處理

import urllib.request
import urllib.error
url = "http://www.balabalabala.org"
try:
  r = urllib.request.urlopen(url)
except urllib.error.URLError as e:
  if hasattr(e, 'code'):
    print(e.code)
  if hasattr(e, 'reason'):
    print(e.reason)

可以使用URLError類,處理一些URL相關(guān)異常。導(dǎo)入urllib.error,捕獲URLError異常后,因?yàn)橹挥邪l(fā)生HTTPError異常(URLError子類)時(shí),才會(huì)有異常狀態(tài)碼e.code,所以需要判斷異常是否有屬性code。

Cookie的使用

import urllib.request
import http.cookiejar
url = "http://www.balabalabala.org/"
cjar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

通過無狀態(tài)協(xié)議HTTP訪問網(wǎng)頁時(shí),Cookie維持會(huì)話間的狀態(tài)。例如:有些網(wǎng)站需要登錄操作,第一次可通過提交POST表單來登錄,當(dāng)爬取該網(wǎng)站下的其它站點(diǎn)時(shí),可以使用Cookie來保持登錄狀態(tài),而不用每次都通過提交表單來登錄。

首先,構(gòu)建CookieJar()對(duì)象cjar,再使用HTTPCookieProcessor()處理器,處理cjar,并通過build_opener()構(gòu)建opener對(duì)象,設(shè)置成全局,通過urlopen()發(fā)送請(qǐng)求。

相關(guān)文章

  • 詳解Python 循環(huán)嵌套

    詳解Python 循環(huán)嵌套

    這篇文章主要介紹了Python 循環(huán)嵌套的相關(guān)資料,文中示例代碼非常詳細(xì),幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-07-07
  • Python處理重復(fù)字符

    Python處理重復(fù)字符

    在文本處理的時(shí)候,我們時(shí)常會(huì)遇到需要處理重復(fù)字樣的情況,Python提供了很多方法來處理這種情況,下面就來詳細(xì)的介紹幾種方法,感興趣的可以了解一下
    2024-02-02
  • Python基于Flask框架配置依賴包信息的項(xiàng)目遷移部署

    Python基于Flask框架配置依賴包信息的項(xiàng)目遷移部署

    這篇文章主要介紹了Python基于Flask框架配置依賴包信息的項(xiàng)目遷移部署小技巧,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下
    2018-03-03
  • Python中的三目(元)運(yùn)算符詳解

    Python中的三目(元)運(yùn)算符詳解

    這篇文章主要介紹了python 三元運(yùn)算符使用解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2021-09-09
  • Python爬蟲DNS解析緩存方法實(shí)例分析

    Python爬蟲DNS解析緩存方法實(shí)例分析

    這篇文章主要介紹了Python爬蟲DNS解析緩存方法,結(jié)合具體實(shí)例形式分析了Python使用socket模塊解析DNS緩存的相關(guān)操作技巧與注意事項(xiàng),需要的朋友可以參考下
    2017-06-06
  • python使用requests庫提交multipart/form-data請(qǐng)求的方法詳解

    python使用requests庫提交multipart/form-data請(qǐng)求的方法詳解

    multipart/form-data的基礎(chǔ)是post請(qǐng)求,即基于post請(qǐng)求來實(shí)現(xiàn)的 ,下面這篇文章主要給大家介紹了關(guān)于python使用requests庫提交multipart/form-data請(qǐng)求的相關(guān)資料,需要的朋友可以參考下
    2023-01-01
  • 詳解python之異步編程

    詳解python之異步編程

    這篇文章主要為大家介紹了python之異步編程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助<BR>
    2021-12-12
  • Scrapy中詭異xpath的匹配內(nèi)容失效問題及解決

    Scrapy中詭異xpath的匹配內(nèi)容失效問題及解決

    這篇文章主要介紹了Scrapy中詭異xpath的匹配內(nèi)容失效問題及解決方案,具有很好的價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-12-12
  • Python類中使用cursor.execute()時(shí)語法錯(cuò)誤的解決方法

    Python類中使用cursor.execute()時(shí)語法錯(cuò)誤的解決方法

    在 Python 類中使用 cursor.execute() 時(shí),出現(xiàn)語法錯(cuò)誤(如 SyntaxError 或 SQL 語法相關(guān)錯(cuò)誤)通常是因?yàn)?nbsp;SQL 語句格式不正確、占位符使用不當(dāng),或參數(shù)傳遞方式不符合預(yù)期,以下是解決此類問題的常見方法和建議,需要的朋友可以參考下
    2024-09-09
  • python分?jǐn)?shù)表示方式和寫法

    python分?jǐn)?shù)表示方式和寫法

    在本篇文章里小編給大家整理的是關(guān)于python分?jǐn)?shù)怎么表示的相關(guān)知識(shí)點(diǎn)內(nèi)容,有需要的朋友們學(xué)習(xí)下吧。
    2019-06-06

最新評(píng)論