欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

零基礎寫python爬蟲之urllib2中的兩個重要概念:Openers和Handlers

 更新時間:2014年11月05日 16:46:06   投稿:hebedich  
文章首先介紹了urllib2的2個方法,然后詳細介紹了urllib2中的2個重要概念Openers和Handlers的相關知識,希望能對大家有所幫助

在開始后面的內容之前,先來解釋一下urllib2中的兩個個方法:info / geturl
urlopen返回的應答對象response(或者HTTPError實例)有兩個很有用的方法info()和geturl()

1.geturl():

這個返回獲取的真實的URL,這個很有用,因為urlopen(或者opener對象使用的)或許會有重定向。獲取的URL或許跟請求URL不同。
以人人中的一個超級鏈接為例,
我們建一個urllib2_test10.py來比較一下原始URL和重定向的鏈接:

復制代碼 代碼如下:

from urllib2 import Request, urlopen, URLError, HTTPError 
old_url = 'http://rrurl.cn/b1UZuP' 
req = Request(old_url) 
response = urlopen(req)   
print 'Old url :' + old_url 
print 'Real url :' + response.geturl() 

運行之后可以看到真正的鏈接指向的網址:

2.info():

這個返回對象的字典對象,該字典描述了獲取的頁面情況。通常是服務器發(fā)送的特定頭headers。目前是httplib.HTTPMessage 實例。
經典的headers包含"Content-length","Content-type",和其他內容。
我們建一個urllib2_test11.py來測試一下info的應用:

復制代碼 代碼如下:

from urllib2 import Request, urlopen, URLError, HTTPError 
old_url = 'http://www.baidu.com' 
req = Request(old_url) 
response = urlopen(req)   
print 'Info():' 
print response.info() 

運行的結果如下,可以看到頁面的相關信息:

下面來說一說urllib2中的兩個重要概念:Openers和Handlers。

1.Openers:

當你獲取一個URL你使用一個opener(一個urllib2.OpenerDirector的實例)。
正常情況下,我們使用默認opener:通過urlopen。
但你能夠創(chuàng)建個性的openers。

2.Handles:

Openers使用處理器handlers,所有的“繁重”工作由handlers處理。
每個handlers知道如何通過特定協(xié)議打開URLs,或者如何處理URL打開時的各個方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定處理器獲取URLs你會想創(chuàng)建一個openers,例如獲取一個能處理cookie的opener,或者獲取一個不重定向的opener。

要創(chuàng)建一個 opener,可以實例化一個OpenerDirector,
然后調用.add_handler(some_handler_instance)。
同樣,可以使用build_opener,這是一個更加方便的函數,用來創(chuàng)建opener對象,他只需要一次函數調用。
build_opener默認添加幾個處理器,但提供快捷的方法來添加或更新默認處理器。
其他的處理器handlers你或許會希望處理代理,驗證,和其他常用但有點特殊的情況。

install_opener 用來創(chuàng)建(全局)默認opener。這個表示調用urlopen將使用你安裝的opener。
Opener對象有一個open方法。
該方法可以像urlopen函數那樣直接用來獲取urls:通常不必調用install_opener,除了為了方便。

說完了上面兩個內容,下面我們來看一下基本認證的內容,這里會用到上面提及的Opener和Handler。

Basic Authentication 基本驗證

為了展示創(chuàng)建和安裝一個handler,我們將使用HTTPBasicAuthHandler。
當需要基礎驗證時,服務器發(fā)送一個header(401錯誤碼) 請求驗證。這個指定了scheme 和一個‘realm',看起來像這樣:Www-authenticate: SCHEME realm="REALM".
例如
Www-authenticate: Basic realm="cPanel Users"
客戶端必須使用新的請求,并在請求頭里包含正確的姓名和密碼。
這是“基礎驗證”,為了簡化這個過程,我們可以創(chuàng)建一個HTTPBasicAuthHandler的實例,并讓opener使用這個handler就可以啦。

HTTPBasicAuthHandler使用一個密碼管理的對象來處理URLs和realms來映射用戶名和密碼。
如果你知道realm(從服務器發(fā)送來的頭里)是什么,你就能使用HTTPPasswordMgr。

通常人們不關心realm是什么。那樣的話,就能用方便的HTTPPasswordMgrWithDefaultRealm。
這個將在你為URL指定一個默認的用戶名和密碼。
這將在你為特定realm提供一個其他組合時得到提供。
我們通過給realm參數指定None提供給add_password來指示這種情況。

最高層次的URL是第一個要求驗證的URL。你傳給.add_password()更深層次的URLs將同樣合適。
說了這么多廢話,下面來用一個例子演示一下上面說到的內容。
我們建一個urllib2_test12.py來測試一下info的應用:

復制代碼 代碼如下:

  
注意:以上的例子我們僅僅提供我們的HHTPBasicAuthHandler給build_opener。
默認的openers有正常狀況的handlers:ProxyHandler,UnknownHandler,HTTPHandler,HTTPDefaultErrorHandler, HTTPRedirectHandler,FTPHandler, FileHandler, HTTPErrorProcessor。
代碼中的top_level_url 實際上可以是完整URL(包含"http:",以及主機名及可選的端口號)。
例如:
http://example.com/。
也可以是一個“authority”(即主機名和可選的包含端口號)。
例如:“example.com” or “example.com:8080”。
后者包含了端口號。

相關文章

  • python tqdm 實現滾動條不上下滾動代碼(保持一行內滾動)

    python tqdm 實現滾動條不上下滾動代碼(保持一行內滾動)

    這篇文章主要介紹了python tqdm 實現滾動條不上下滾動代碼(保持一行內滾動),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • 提高?Python?開發(fā)效率的3個小工具

    提高?Python?開發(fā)效率的3個小工具

    這篇文章主要給大家分享得事提高?Python?開發(fā)效率的3個小工具,它們能夠幫助我們提高工作效率。本文將介紹筆者在近一周發(fā)現的三個小工具,寫文章以做記錄,希望能對大家有所幫助
    2022-01-01
  • python實現企業(yè)微信定時發(fā)送文本消息的示例代碼

    python實現企業(yè)微信定時發(fā)送文本消息的示例代碼

    這篇文章主要介紹了python實現企業(yè)微信定時發(fā)送文本消息的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-11-11
  • python playwright之元素定位示例詳解

    python playwright之元素定位示例詳解

    這篇文章主要為大家介紹了python playwright之元素定位示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-07-07
  • python常見模塊之OS模塊和time模塊

    python常見模塊之OS模塊和time模塊

    這篇文章主要給大家介紹了關于python常見模塊之OS模塊和time模塊的相關資料,time模塊、os模塊與sys模塊被稱為python模塊中的三劍客,需要的朋友可以參考下
    2021-06-06
  • Django框架 Pagination分頁實現代碼實例

    Django框架 Pagination分頁實現代碼實例

    這篇文章主要介紹了Django框架 Pagination分頁實現代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-09-09
  • 使用python測試prometheus的實現

    使用python測試prometheus的實現

    本文主要介紹了使用python測試prometheus的實現,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-02-02
  • 淺析Python中的元編程

    淺析Python中的元編程

    Python元編程是指在運行時對Python代碼進行操作的技術,它可以動態(tài)地生成、修改和執(zhí)行代碼,從而實現一些高級的編程技巧,本文就來和大家詳細聊聊吧
    2023-03-03
  • Python數字圖像處理代數之加減乘運算

    Python數字圖像處理代數之加減乘運算

    這篇文章主要介紹了Python數字圖像處理代數運算,對其中的加、減、乘運算分別作了詳細的講解,有需要的朋友可以借鑒參考下,希望能夠有所幫助
    2021-09-09
  • python爬蟲開發(fā)之Beautiful Soup模塊從安裝到詳細使用方法與實例

    python爬蟲開發(fā)之Beautiful Soup模塊從安裝到詳細使用方法與實例

    這篇文章主要介紹了python爬蟲開發(fā)之Beautiful Soup模塊詳細使用方法與實例,需要的朋友可以參考下
    2020-03-03

最新評論