1.如果需要大批量分布式爬取,建議采用Redis數(shù)據(jù)庫存儲,可安裝scrapy-redis,使用redis數(shù)據(jù)庫來替換scrapy原本使用的隊(duì)列結(jié)構(gòu)(deque),并配合其它數(shù)據(jù)庫存儲,例如MySQL或者M(jìn)ongoDB,爬取效率將會極大提高。并且其自帶的dupefilter.py負(fù)責(zé)執(zhí)行requst的去重,使用redis的set數(shù)據(jù)結(jié)構(gòu),通過settings文件正確設(shè)置后,即便停止scrapy爬蟲,...
www.dbjr.com.cn/article/2004...htm 2025-6-7