基于scrapy的redis安裝和配置方法
在定向爬蟲的制作過程中,使用分布式爬取技術(shù)可以顯著提高爬取效率。而 Redis 配合 Scrapy 是實(shí)現(xiàn)分布式爬取的基礎(chǔ)。
Redis 是一個(gè)高性能的 Key-Value 數(shù)據(jù)庫,它把數(shù)據(jù)保存在內(nèi)存里。因此可以有非常快的數(shù)據(jù)讀寫速度。
scrapy-redis 的安裝
pip install scrapy-redis easy_install scrapy-redis
下載
版本推薦
stable 3.0.2
運(yùn)行redis
redis-server redis.conf
清空緩存
redis-cli flushdb
scrapy配置redis
settings.py配置redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler" SCHEDULER_PERSIST = True SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' REDIS_URL = None # 一般情況可以省去 REDIS_HOST = '127.0.0.1' # 也可以根據(jù)情況改成 localhost REDIS_PORT = 6379
在scrapy中使用scrapy-redis
spider 繼承RedisSpider
class tempSpider(RedisSpider) name = "temp" redis_key = ''temp:start_url"
以上這篇基于scrapy的redis安裝和配置方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python用10行代碼實(shí)現(xiàn)對黃色圖片的檢測功能
這篇文章主要介紹了python用10行代碼實(shí)現(xiàn)對黃色圖片的檢測功能,涉及Python基于圖片庫PIL對圖片的檢測技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-08-08Python實(shí)現(xiàn)給圖片添加文字或圖片水印
在現(xiàn)今的數(shù)字化時(shí)代,網(wǎng)絡(luò)上的圖片泛濫,盜圖現(xiàn)象也越來越嚴(yán)重。因此,在發(fā)布文章時(shí),為了保護(hù)自己的原創(chuàng)作品版權(quán),很多人選擇使用水印來保護(hù)他們的圖片。本文就和大家分享了Python實(shí)現(xiàn)給圖片添加文字或圖片水印的方法,需要的可以收藏一下2023-05-05基于Python實(shí)現(xiàn)自動(dòng)化文檔整理工具
一個(gè)人可能會(huì)在計(jì)算機(jī)上存儲(chǔ)大量的照片、視頻和文檔文件,這些文件可能散落在不同的文件夾中,難以管理和查找。所以本文就來用Python制作一個(gè)自動(dòng)化文檔整理工具吧2023-04-04python lambda表達(dá)式在sort函數(shù)中的使用詳解
這篇文章主要介紹了python lambda表達(dá)式在sort函數(shù)中的使用詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08Python字符串和二進(jìn)制字符串之間的轉(zhuǎn)換方法示例
python中沒有0-1形式的二進(jìn)制類型,但我們依然可以存儲(chǔ)二進(jìn)制類型的數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于Python字符串和二進(jìn)制字符串之間的轉(zhuǎn)換方法,需要的朋友可以參考下2023-06-06基于Python實(shí)現(xiàn)自動(dòng)點(diǎn)擊器
顧名思義,Python 中的自動(dòng)點(diǎn)擊器是一個(gè)簡單的 Python 應(yīng)用程序,它根據(jù)用戶要求重復(fù)單擊鼠標(biāo), 不同的參數(shù)可以根據(jù)用戶進(jìn)行更改,下面我們就來看看具體實(shí)現(xiàn)方法吧2023-10-10