Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
下載代碼Cookie池(這里主要是微博登錄,也可以自己配置置其他的站點網(wǎng)址)
下載代碼GitHub:https://github.com/Python3WebSpider/CookiesPool

下載安裝過后注意看網(wǎng)頁下面的相關(guān)基礎(chǔ)配置和操作!!?。。。。。。。。。。?/strong>
自己的設置主要有下面幾步:
1、配置其他設置

2、設置使用的瀏覽器


3、設置模擬登陸

源碼cookies.py的修改(以下兩處不修改可能會產(chǎn)生bug):


4、獲取cookie
隨機獲取Cookies: http://localhost:5000/weibo/random(注意:cookie使用時是需要后期處理的?。。?/strong>

簡單的處理方式,如下代碼(偶爾需要對獲取的cookie處理):
def get_cookie(self):
return requests.get('http://127.0.0.1:5000/weibo/random').text
def stringToDict(self,cookie):
itemDict = {}
items = cookie.replace(':', '=').split(',')
for item in items:
key = item.split('=')[0].replace(' ', '').strip(' "')
value = item.split('=')[1].strip(' "')
itemDict[key] = value
return itemDict
scrapy爬蟲的使用示例(爬取微博):
middlewares.py中自定義請求中間件
def start_requests(self):
ua = UserAgent()
headers = {
'User-Agent': ua.random,
}
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
yield scrapy.Request(url=self.start_urls[0], headers=headers,
cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
yield scrapy.Request(url=self.start_urls[0], headers=headers,
cookies=cookies, callback=self.parse)
settings.py 中的配置:

5、錄入賬號和密碼:

格式規(guī)定(賬號----密碼)

6、驗證:(注意:使用cmd)

7、使用時注意保持cmd打開運行?。?/p>
使用時一定要打開cmd,并運行如第6步。
得到Cookie是判斷是否處理處理Cookie(幾乎都需要!?。╊惐鹊?步!??!
到此這篇關(guān)于Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用的文章就介紹到這了,更多相關(guān)scrapy Cookie池內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
從0到1使用python開發(fā)一個半自動答題小程序的實現(xiàn)
這篇文章主要介紹了從0到1使用python開發(fā)一個半自動答題小程序的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-05-05
Python3用tkinter和PIL實現(xiàn)看圖工具
這篇文章給大家分享了Python3用tkinter和PIL實現(xiàn)看圖工具的詳細實例代碼,有興趣的朋友參考學習下。2018-06-06
分享python中matplotlib指定繪圖顏色的八種方式
這篇文章主要給大家分享的是python中matplotlib指定繪圖顏色的八種方式,在使用matplotlib的pyplot庫進行繪圖時,經(jīng)常會發(fā)現(xiàn)各種開源代碼指定“color”的方式并不一致,下面就向大家展示8種指定color的方式,需要的朋友可以參考一下2022-03-03
Python中識別圖片/滑塊驗證碼準確率極高的ddddocr庫詳解
驗證碼的種類有很多,它是常用的一種反爬手段,包括:圖片驗證碼,滑塊驗證碼,等一些常見的驗證碼場景。這里推薦一個簡單實用的識別驗證碼的庫?ddddocr?(帶帶弟弟ocr)庫,希望大家喜歡2023-02-02

