Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
下載代碼Cookie池(這里主要是微博登錄,也可以自己配置置其他的站點網(wǎng)址)
下載代碼GitHub:https://github.com/Python3WebSpider/CookiesPool
下載安裝過后注意看網(wǎng)頁下面的相關(guān)基礎(chǔ)配置和操作?。。。。。。。。。。。?!
自己的設(shè)置主要有下面幾步:
1、配置其他設(shè)置
2、設(shè)置使用的瀏覽器
3、設(shè)置模擬登陸
源碼cookies.py的修改(以下兩處不修改可能會產(chǎn)生bug):
4、獲取cookie
隨機獲取Cookies: http://localhost:5000/weibo/random(注意:cookie使用時是需要后期處理的?。。?/strong>
簡單的處理方式,如下代碼(偶爾需要對獲取的cookie處理):
def get_cookie(self): return requests.get('http://127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict
scrapy爬蟲的使用示例(爬取微博):
middlewares.py中自定義請求中間件
def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)
settings.py 中的配置:
5、錄入賬號和密碼:
格式規(guī)定(賬號----密碼)
6、驗證:(注意:使用cmd)
7、使用時注意保持cmd打開運行!!
使用時一定要打開cmd,并運行如第6步。
得到Cookie是判斷是否處理處理Cookie(幾乎都需要?。。╊惐鹊?步!!!
到此這篇關(guān)于Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用的文章就介紹到這了,更多相關(guān)scrapy Cookie池內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
從0到1使用python開發(fā)一個半自動答題小程序的實現(xiàn)
這篇文章主要介紹了從0到1使用python開發(fā)一個半自動答題小程序的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-05-05Python3用tkinter和PIL實現(xiàn)看圖工具
這篇文章給大家分享了Python3用tkinter和PIL實現(xiàn)看圖工具的詳細實例代碼,有興趣的朋友參考學習下。2018-06-06分享python中matplotlib指定繪圖顏色的八種方式
這篇文章主要給大家分享的是python中matplotlib指定繪圖顏色的八種方式,在使用matplotlib的pyplot庫進行繪圖時,經(jīng)常會發(fā)現(xiàn)各種開源代碼指定“color”的方式并不一致,下面就向大家展示8種指定color的方式,需要的朋友可以參考一下2022-03-03Python中識別圖片/滑塊驗證碼準確率極高的ddddocr庫詳解
驗證碼的種類有很多,它是常用的一種反爬手段,包括:圖片驗證碼,滑塊驗證碼,等一些常見的驗證碼場景。這里推薦一個簡單實用的識別驗證碼的庫?ddddocr?(帶帶弟弟ocr)庫,希望大家喜歡2023-02-02