快捷導(dǎo)航

python urllib urlopen()對(duì)象方法/代理的補(bǔ)充說(shuō)明

更新時(shí)間：2017年06月29日 08:48:38 投稿：lqh

這篇文章主要介紹了python urllib urlopen()對(duì)象方法/代理的補(bǔ)充說(shuō)明的相關(guān)資料,需要的朋友可以參考下

python urllib urlopen()對(duì)象方法/代理的補(bǔ)充說(shuō)明

urllib 是 python 自帶的一個(gè)抓取網(wǎng)頁(yè)信息一個(gè)接口，他最主要的方法是 urlopen()，是基于 python 的 open() 方法的。下面是主要說(shuō)明：

urllib.urlopen('網(wǎng)址')

這里傳入urlopen()的參數(shù)有特別說(shuō)要求，要遵循一些網(wǎng)絡(luò)協(xié)議，比如http,ftp,也就是說(shuō)，在網(wǎng)址的開(kāi)頭必須要有http://這樣的說(shuō)明，如：urllib.urlopen('http://www.baidu.com')。

要么就是本地文件，本地文件需要使用file關(guān)鍵字，比如 urllib.urlopen('file:nowamagic.py')，注意，這里的hello.py是指的是當(dāng)前的classpath所指定的內(nèi)容，如果對(duì)hello.py這里有什么疑問(wèn)那一定是python尋找classpath的順序不是很清楚了，當(dāng)然也可以直接寫(xiě)全部路徑，urllib.urlopen('file:F:\pythontest\nowamagic.py')。

打開(kāi) ftp 文件也是可以的，寫(xiě)法 urllib.urlopen(url='ftp://用戶名:密碼@ftp地址/') 等。

示例程序：

import urllib
f = urllib.urlopen('file:F:\pythontest\nowamagic.py')
a = f.read()
print a

如果傳入的參數(shù)正確，比如該網(wǎng)站可以訪問(wèn)，沒(méi)有特殊情況（比如需要代理，被墻等），那么將返回一個(gè)類(lèi)似于文件對(duì)象的對(duì)象。即上面代碼中的f，f對(duì)象有的方法一些操作方法，使用dir(f)：

['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'fileno', 'fp', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url']

使用read()方法會(huì)將所有內(nèi)容讀取出來(lái)，并且同時(shí)f對(duì)象類(lèi)似于先入先出的數(shù)據(jù)，在使用f.read()將得不到任何數(shù)據(jù)，也就是說(shuō)，得到的數(shù)據(jù)在這個(gè)時(shí)候如果想在后面進(jìn)行任何處理操作的話，需要另外定義一個(gè)對(duì)象來(lái)進(jìn)行存儲(chǔ)。如上例中的a。而info(),geturl()方法，也是基于f這個(gè)文檔對(duì)象的，所以，使用

>>>f.geturl()
 'F://pythontest//nowamagic.py'

接下來(lái)是urllib的代理設(shè)置：

import urllib
proxies = {'http':'http://***.***.***.***:1984'}
filehandle = urllib.urlopen('http://www.需要代理才能訪問(wèn)的網(wǎng)站.com/',proxies = proxies)
a = filehandle.read()
print a

以上是最基本代理，即代理訪問(wèn)到該網(wǎng)站，并且能夠獲得該網(wǎng)站的內(nèi)容。但是如果遇到需要登錄，或者需要cookie等的網(wǎng)站呢？

查看urllib的源碼：

def urlopen(url, data=None, proxies=None):
  """urlopen(url [, data]) -> open file-like object"""
  global _urlopener
  if proxies is not None:
    opener = FancyURLopener(proxies=proxies)
  elif not _urlopener:
    opener = FancyURLopener()
    _urlopener = opener
  else:
    opener = _urlopener
  if data is None:
    return opener.open(url)
  else:
    return opener.open(url, data)

由上面urllib的urlopen的源碼，可以看出，還可以傳入一個(gè)data參數(shù)，data參數(shù)也應(yīng)該是一個(gè)字典，因?yàn)樵谑褂脼g覽器向服務(wù)器發(fā)送數(shù)據(jù)的時(shí)候，我們發(fā)送的就是字典類(lèi)型的數(shù)據(jù)。

還有一點(diǎn)，就是代理支持是 python 2.3 以后加入的。

感謝閱讀，希望能幫助到大家，謝謝大家對(duì)本站的支持！

您可能感興趣的文章: