Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
下載代碼Cookie池(這里主要是微博登錄,也可以自己配置置其他的站點(diǎn)網(wǎng)址)
下載代碼GitHub:https://github.com/Python3WebSpider/CookiesPool
下載安裝過(guò)后注意看網(wǎng)頁(yè)下面的相關(guān)基礎(chǔ)配置和操作?。。。。。。。。。。。?!
自己的設(shè)置主要有下面幾步:
1、配置其他設(shè)置
2、設(shè)置使用的瀏覽器
3、設(shè)置模擬登陸
源碼cookies.py的修改(以下兩處不修改可能會(huì)產(chǎn)生bug):
4、獲取cookie
隨機(jī)獲取Cookies: http://localhost:5000/weibo/random(注意:cookie使用時(shí)是需要后期處理的?。。?/strong>
簡(jiǎn)單的處理方式,如下代碼(偶爾需要對(duì)獲取的cookie處理):
def get_cookie(self): return requests.get('http://127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict
scrapy爬蟲的使用示例(爬取微博):
middlewares.py中自定義請(qǐng)求中間件
def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)
settings.py 中的配置:
5、錄入賬號(hào)和密碼:
格式規(guī)定(賬號(hào)----密碼)
6、驗(yàn)證:(注意:使用cmd)
7、使用時(shí)注意保持cmd打開運(yùn)行??!
使用時(shí)一定要打開cmd,并運(yùn)行如第6步。
得到Cookie是判斷是否處理處理Cookie(幾乎都需要!?。╊惐鹊?步!?。?/strong>
到此這篇關(guān)于Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用的文章就介紹到這了,更多相關(guān)scrapy Cookie池內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python機(jī)器學(xué)習(xí)之KNN分類算法
這篇文章主要為大家詳細(xì)介紹了python機(jī)器學(xué)習(xí)之KNN分類算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-08-08Python實(shí)現(xiàn)簡(jiǎn)單的猜單詞小游戲
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)簡(jiǎn)單的猜單詞小游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-10-10從0到1使用python開發(fā)一個(gè)半自動(dòng)答題小程序的實(shí)現(xiàn)
這篇文章主要介紹了從0到1使用python開發(fā)一個(gè)半自動(dòng)答題小程序的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-05-05Python3用tkinter和PIL實(shí)現(xiàn)看圖工具
這篇文章給大家分享了Python3用tkinter和PIL實(shí)現(xiàn)看圖工具的詳細(xì)實(shí)例代碼,有興趣的朋友參考學(xué)習(xí)下。2018-06-06分享python中matplotlib指定繪圖顏色的八種方式
這篇文章主要給大家分享的是python中matplotlib指定繪圖顏色的八種方式,在使用matplotlib的pyplot庫(kù)進(jìn)行繪圖時(shí),經(jīng)常會(huì)發(fā)現(xiàn)各種開源代碼指定“color”的方式并不一致,下面就向大家展示8種指定color的方式,需要的朋友可以參考一下2022-03-03使用Python的time庫(kù)格式化時(shí)間的方法
通過(guò)使用Python的time庫(kù),我們可以方便地進(jìn)行時(shí)間處理、格式化、解析和計(jì)算等操作,本文介紹了time庫(kù)的一些常見功能和使用方法,包括格式化時(shí)間、解析時(shí)間戳、獲取當(dāng)前時(shí)間、計(jì)算時(shí)間差等,感興趣的朋友一起看看吧2023-11-11Python中識(shí)別圖片/滑塊驗(yàn)證碼準(zhǔn)確率極高的ddddocr庫(kù)詳解
驗(yàn)證碼的種類有很多,它是常用的一種反爬手段,包括:圖片驗(yàn)證碼,滑塊驗(yàn)證碼,等一些常見的驗(yàn)證碼場(chǎng)景。這里推薦一個(gè)簡(jiǎn)單實(shí)用的識(shí)別驗(yàn)證碼的庫(kù)?ddddocr?(帶帶弟弟ocr)庫(kù),希望大家喜歡2023-02-02