欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python 爬蟲(chóng)如何正確的使用cookie

 更新時(shí)間:2020年10月27日 08:57:50   作者:白42  
這篇文章主要介紹了python 爬蟲(chóng)如何使用cookie,幫助大家繞過(guò)網(wǎng)站設(shè)置的登錄規(guī)則以及登錄時(shí)的驗(yàn)證碼識(shí)別,完成自身的爬取需求,感興趣的朋友可以了解下

很多時(shí)候,我們要查看的內(nèi)容必須要先登錄才能找到,比如知乎的回答,QQ空間的好友列表、微博上關(guān)注的人和粉絲等。要使用爬蟲(chóng)直接登錄抓取這些信息時(shí),有一個(gè)不太好解決的難題,就是這些網(wǎng)站設(shè)置的登錄規(guī)則以及登錄時(shí)的驗(yàn)證碼識(shí)別。不過(guò),我們可以想辦法繞過(guò)去,思路是這樣的:先使用瀏覽器登錄,從瀏覽器獲取登錄后的“憑證”,然后將這個(gè)“憑證”放到爬蟲(chóng)里,模擬用戶的行為繼續(xù)抓取。這里,我們要獲取的憑證就是cookie信息。

這次我們嘗試使用python和cookie來(lái)抓取QQ空間上的好友列表。使用的工具是FireFox瀏覽器、FireBug和Python。

獲取cookie

打開(kāi)FireFox瀏覽器,登錄QQ空間,啟動(dòng)FireBug,選擇FireBug中的Cookies頁(yè)簽,點(diǎn)擊頁(yè)簽中的cookies按鈕菜單,選擇“導(dǎo)出本站點(diǎn)的cookie”即可完成cookie的導(dǎo)出。

導(dǎo)出cookie會(huì)以一個(gè)名為cookies.txt文本文件形式存在。

程序?qū)崿F(xiàn)

然后我們會(huì)使用獲取的cookie新建一個(gè)opener來(lái)替換之前請(qǐng)求時(shí)使用的默認(rèn)的opener。將獲取的cookies拷貝到程序目錄下,編寫腳本如下:

#!python
# encoding: utf-8
from http.cookiejar import MozillaCookieJar
from urllib.request import Request, build_opener, HTTPCookieProcessor
 
DEFAULT_HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
DEFAULT_TIMEOUT = 360
 
 
def grab(url):
    cookie = MozillaCookieJar()
    cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
    req = Request(url, headers=DEFAULT_HEADERS)
    opener = build_opener(HTTPCookieProcessor(cookie))
    response = opener.open(req, timeout=DEFAULT_TIMEOUT)
    print(response.read().decode('utf8'))
 
 
if __name__ == '__main__':
    grab(<a  rel="external nofollow" >http://user.qzone.qq.com/QQ號(hào)/myhome/friends</a>)

因?yàn)槲覀兪褂玫氖荈ireFox瀏覽器導(dǎo)出的cookie文件,所以這里使用的cookieJar是MozillaCookieJar。

執(zhí)行腳本…然而報(bào)錯(cuò)了:

Traceback (most recent call last):
  File "D:/pythonDevelop/spider/use_cookie.py", line 17, in <module>
    start()
  File "D:/pythonDevelop/spider/use_cookie.py", line 9, in start
    cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
  File "D:\Program Files\python\python35\lib\http\cookiejar.py", line 1781, in load
    self._really_load(f, filename, ignore_discard, ignore_expires)
  File "D:\Program Files\python\python35\lib\http\cookiejar.py", line 2004, in _really_load
    filename)
http.cookiejar.LoadError: 'cookies.txt' does not look like a Netscape format cookies file

問(wèn)題出在cookies文件上,說(shuō)是不像一個(gè)Netscape格式的cookie文件。不過(guò)也好解決,只需要在cookies文件開(kāi)始一行添加如下內(nèi)容即可:

# Netscape HTTP Cookie File

通過(guò)這行內(nèi)容提示python cookie解析器這是一個(gè)FireFox瀏覽器適用的cookie。

再次執(zhí)行,還是會(huì)報(bào)錯(cuò),因?yàn)楸容^長(zhǎng)我就只貼關(guān)鍵的部分出來(lái):

http.cookiejar.LoadError: invalid Netscape format cookies file 'cookies.txt': '.qzone.qq.com\tTRUE\t/\tFALSE\tblabla\tdynamic'

意思是cookie中某些行存在格式錯(cuò)誤。具體錯(cuò)在哪兒,需要先了解下FireFox瀏覽器的cookie格式。MozillaCookieJar認(rèn)為每行cookie需要包含以下信息,每條信息以制表符分隔:

名稱 domain domain_specified path secure expires name value
類型 字符串 布爾型 字符串 布爾型 長(zhǎng)整型 字符串 字符串
說(shuō)明 域名 適用路徑 是否使用安全協(xié)議 過(guò)期時(shí)間 名稱

其中domain_specified是什么意思我不很清楚,以后弄明白了再補(bǔ)上。再來(lái)看看我們獲取的cookie的部分行:

user.qzone.qq.com	FALSE	/	FALSE	814849905_todaycount	0
user.qzone.qq.com	FALSE	/	FALSE	814849905_totalcount	0
.qzone.qq.com	TRUE	/	FALSE	1473955201	Loading	Yes
.qzone.qq.com	TRUE	/	FALSE	1789265237	QZ_FE_WEBP_SUPPORT	0

前兩行格式是錯(cuò)誤的,后兩行格式是正確的。前兩行缺少“expires”屬性。該怎么辦呢——補(bǔ)上就好了唄。在其他的cookie中隨意選一個(gè)時(shí)間補(bǔ)上就OK了。

補(bǔ)全cookie后,再次執(zhí)行是正常的,沒(méi)有報(bào)錯(cuò)。但是沒(méi)有如預(yù)期的打印出好友信息,因?yàn)榫W(wǎng)址錯(cuò)了。使用firebug可以找出正確的網(wǎng)址:

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_ship_manager.cgi?uin=QQ號(hào)&do=1&rd=0.44948123599838985&fupdate=1&clean=0&g_tk=515169388

這樣就抓取到好友列表了。好友列表是一個(gè)json字符串。

至于如何解析json,會(huì)在下一節(jié)進(jìn)行說(shuō)明。

動(dòng)態(tài)獲取cookie

cookie是有過(guò)期時(shí)間的。如果想長(zhǎng)時(shí)間抓取網(wǎng)頁(yè),就需要每隔一段時(shí)間就更新一次cookie。如果都是從FireFox瀏覽器來(lái)手動(dòng)獲取顯得有些笨了。從瀏覽器獲取的cookie只是作為一個(gè)入口,之后再進(jìn)行請(qǐng)求還是要依靠python主動(dòng)獲取cookie。下面是一段獲取cookie的程序:

#!python
# encoding: utf-8
from http.cookiejar import CookieJar
from urllib.request import Request, HTTPCookieProcessor, build_opener
 
DEFAULT_HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
DEFAULT_TIMEOUT = 360
 
 
def get(url):
    cookie = CookieJar()
    handler = HTTPCookieProcessor(cookie)
    opener = build_opener(handler)
    req = Request(url, headers=DEFAULT_HEADERS)
    response = opener.open(req, timeout=DEFAULT_TIMEOUT)
    for item in cookie:
        print(item.name + " = " + item.value)
    response.close()

在示例程序中演示了如何獲取cookie,并打印了cookie的name和value兩項(xiàng)屬性。通過(guò)實(shí)例可以看到每次執(zhí)行http請(qǐng)求都會(huì)重新獲取cookie,因此可以將我們的程序調(diào)整一下:執(zhí)行第一次請(qǐng)求時(shí)使用我們通過(guò)瀏覽器獲取的cookie,之后的每次請(qǐng)求都可以使用上次請(qǐng)求時(shí)獲取的cookie。調(diào)整后的程序:

#!python
# encoding: utf-8
from http.cookiejar import MozillaCookieJar, CookieJar
from urllib.request import Request, build_opener, HTTPCookieProcessor, urlopen
 
DEFAULT_HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
DEFAULT_TIMEOUT = 360
 
 
def gen_login_cookie():
    cookie = MozillaCookieJar()
    cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
    return cookie
 
 
def grab(cookie, url):
    req = Request(url, headers=DEFAULT_HEADERS)
    opener = build_opener(HTTPCookieProcessor(cookie))
    response = opener.open(req, timeout=DEFAULT_TIMEOUT)
    print(response.read().decode("utf8"))
    response.close()
 
 
def start(url1, url2):
    cookie = gen_login_cookie()
    grab(cookie, url1)
    grab(cookie, url2)
 
 
if __name__ == '__main__':
    u1 = "https://user.qzone.qq.com/QQ號(hào)/myhome/friends"
    u2 = "https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_ship_manager.cgi?uin=QQ號(hào)&do=2&rd=0.44948123599838985&fupdate=1&clean=0&g_tk=515169388"
    start(u1, u2)

就這樣。

其他

其實(shí)在登錄QQ空間時(shí)使用cookie還有另一種法子——通過(guò)觀察,也可以在http 請(qǐng)求頭中添加cookie信息。

獲取請(qǐng)求頭中cookie的方式:打開(kāi)FireFox瀏覽器,打開(kāi)FireBug并激活FireBug的network頁(yè)簽,在FireFox瀏覽器上登錄QQ空間,然后在FireBug中找到登錄頁(yè)請(qǐng)求,然后就可以找到請(qǐng)求頭中的cookie信息了。

將cookie信息整理成一行,添加到請(qǐng)求頭中就可以直接訪問(wèn)了。這個(gè)方法相對(duì)簡(jiǎn)單,減少了修改cookie文件的步驟。

此外,在一篇博客文章中還找到了直接登錄QQ空間的方案。這算是已知最好的法子了,只要騰訊不改變登錄規(guī)則就能很簡(jiǎn)單的執(zhí)行請(qǐng)求獲取cookie。不過(guò)年代久遠(yuǎn),不知規(guī)則是否還適用

以上就是python 爬蟲(chóng)如何正確的使用cookie的詳細(xì)內(nèi)容,更多關(guān)于python 爬蟲(chóng)使用cookie的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python之np.argmax()及對(duì)axis=0或者1的理解

    python之np.argmax()及對(duì)axis=0或者1的理解

    這篇文章主要介紹了python之np.argmax()及對(duì)axis=0或者1的理解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • python tkiner實(shí)現(xiàn) 一個(gè)小小的圖片翻頁(yè)功能的示例代碼

    python tkiner實(shí)現(xiàn) 一個(gè)小小的圖片翻頁(yè)功能的示例代碼

    這篇文章主要介紹了python tkiner實(shí)現(xiàn) 一個(gè)小小的圖片翻頁(yè)功能,需要的朋友可以參考下
    2020-06-06
  • Python之try無(wú)法使用全局變量的問(wèn)題解決

    Python之try無(wú)法使用全局變量的問(wèn)題解決

    當(dāng)我們使用try語(yǔ)句時(shí),如果在try中使用了全局變量,但又在except或finally中修改了這個(gè)全局變量,就會(huì)出現(xiàn)這種無(wú)法修改全局變量的情況,下面就來(lái)解決一下這個(gè)問(wèn)題,感興趣的可以了解一下
    2024-08-08
  • Python 數(shù)據(jù)結(jié)構(gòu)之樹(shù)的概念詳解

    Python 數(shù)據(jù)結(jié)構(gòu)之樹(shù)的概念詳解

    這篇文章主要介紹了數(shù)據(jù)結(jié)構(gòu)之樹(shù)的概念詳解,本篇文章通過(guò)簡(jiǎn)要的案例,講解了該項(xiàng)技術(shù)的了解與使用,以下就是詳細(xì)內(nèi)容,需要的朋友可以參考下
    2021-09-09
  • 為什么str(float)在Python 3中比Python 2返回更多的數(shù)字

    為什么str(float)在Python 3中比Python 2返回更多的數(shù)字

    很多朋友質(zhì)疑為什么str(float)在Python 3中比Python 2返回更多的數(shù)字,在Python 2.7中,一個(gè)float的repr返回最接近十七位數(shù)的十進(jìn)制數(shù);這足以精確地識(shí)別每個(gè)可能的IEEE浮點(diǎn)值。對(duì)此問(wèn)題很多朋友都很疑問(wèn),下面小編給大家簡(jiǎn)單介紹下,需要的朋友可以參考下
    2018-10-10
  • Django中使用haystack+whoosh實(shí)現(xiàn)搜索功能

    Django中使用haystack+whoosh實(shí)現(xiàn)搜索功能

    這篇文章主要介紹了Django之使用haystack+whoosh實(shí)現(xiàn)搜索功能,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-10-10
  • 詳解Python開(kāi)啟線程和線程池的方法

    詳解Python開(kāi)啟線程和線程池的方法

    這篇文章主要介紹了Python開(kāi)啟線程和線程池的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2024-03-03
  • Python爬蟲(chóng)之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒

    Python爬蟲(chóng)之獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù)并彈窗提醒

    今天我們來(lái)學(xué)習(xí)如何獲取心知天氣API實(shí)時(shí)天氣數(shù)據(jù),制作彈窗提醒,并設(shè)置成自啟動(dòng)項(xiàng)目.文中有非常詳細(xì)的代碼示例及介紹,對(duì)正在學(xué)習(xí)python的小伙伴們有非常好的幫助,需要的朋友可以參考下
    2021-05-05
  • Python用SSH連接到網(wǎng)絡(luò)設(shè)備

    Python用SSH連接到網(wǎng)絡(luò)設(shè)備

    這篇文章主要介紹了Python用SSH連接到網(wǎng)絡(luò)設(shè)備,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-02-02
  • 如何使用python操作vmware

    如何使用python操作vmware

    這篇文章主要介紹了如何使用python操作vmware,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07

最新評(píng)論