Python Scrapy圖片爬取原理及代碼實(shí)例
1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道
在管道文件對(duì)圖片進(jìn)行下載和持久化存儲(chǔ)
class ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start_urls = ['http://www.521609.com/daxuemeinv/'] url = 'http://www.521609.com/daxuemeinv/list8%d.html' pageNum = 1 def parse(self, response): li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li') for li in li_list: img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first() item = ImgproItem() item['src'] = img_src yield item
2.配置文件修改
配置文件要增加IMAGES_STORE = './imgsLib'表明圖片存放的路徑
3.管道類的修改
原本管道類繼承的object,處理item對(duì)象使用時(shí)process_item方法,該方法不能發(fā)送請(qǐng)求,要想對(duì)圖片地址發(fā)送請(qǐng)求,需要繼承ImagesPipeline類,然后重寫該類中的三個(gè)方法:get_media_requests,file_path,item_completed
from scrapy.pipelines.images import ImagesPipeline import scrapy class ImgproPipeline(ImagesPipeline): #對(duì)某一個(gè)媒體資源進(jìn)行請(qǐng)求發(fā)送 #item就是接收到的spider提交過(guò)來(lái)的item def get_media_requests(self, item, info): yield scrapy.Request(item['src']) #制定媒體數(shù)據(jù)存儲(chǔ)的名稱 def file_path(self, request, response=None, info=None): name = request.url.split('/')[-1] print('正在下載:',name) return name #將item傳遞給下一個(gè)即將給執(zhí)行的管道類 def item_completed(self, results, item, info): return item
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python爬蟲實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片
- Python爬蟲之教你利用Scrapy爬取圖片
- Python爬取網(wǎng)站圖片并保存的實(shí)現(xiàn)示例
- python制作微博圖片爬取工具
- python繞過(guò)圖片滑動(dòng)驗(yàn)證碼實(shí)現(xiàn)爬取PTA所有題目功能 附源碼
- 利用python批量爬取百度任意類別的圖片的實(shí)現(xiàn)方法
- Python使用xpath實(shí)現(xiàn)圖片爬取
- Python3直接爬取圖片URL并保存示例
- python爬取某網(wǎng)站原圖作為壁紙
- 用Python做一個(gè)嗶站小姐姐詞云跳舞視頻
相關(guān)文章
python2 與python3的print區(qū)別小結(jié)
這篇文章主要介紹了python2 與python3的print區(qū)別小結(jié),需要的朋友可以參考下2018-01-01Numpy中np.dot與np.matmul的區(qū)別詳解
本文主要介紹了Numpy中np.dot與np.matmul的區(qū)別詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法示例
這篇文章主要介紹了Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法,結(jié)合實(shí)例形式分析了Python針對(duì)命令行字符串顯示顏色屬性相關(guān)操作技巧,需要的朋友可以參考下2017-08-08python學(xué)生管理系統(tǒng)開(kāi)發(fā)
這篇文章主要為大家詳細(xì)介紹了基礎(chǔ)版和函數(shù)版的python學(xué)生管理系統(tǒng)開(kāi)發(fā),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-01-01python實(shí)現(xiàn)圖片,視頻人臉識(shí)別(dlib版)
這篇文章主要介紹了python實(shí)現(xiàn)圖像,視頻人臉識(shí)別(dlib版)的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-11-11