欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python Scrapy圖片爬取原理及代碼實(shí)例

 更新時(shí)間:2020年06月12日 10:21:22   作者:Hedger_Lee  
這篇文章主要介紹了Python Scrapy圖片爬取原理及代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道

在管道文件對(duì)圖片進(jìn)行下載和持久化存儲(chǔ)

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明圖片存放的路徑

3.管道類的修改

原本管道類繼承的object,處理item對(duì)象使用時(shí)process_item方法,該方法不能發(fā)送請(qǐng)求,要想對(duì)圖片地址發(fā)送請(qǐng)求,需要繼承ImagesPipeline類,然后重寫該類中的三個(gè)方法:get_media_requests,file_path,item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #對(duì)某一個(gè)媒體資源進(jìn)行請(qǐng)求發(fā)送
  #item就是接收到的spider提交過(guò)來(lái)的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒體數(shù)據(jù)存儲(chǔ)的名稱
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下載:',name)
    return name

  #將item傳遞給下一個(gè)即將給執(zhí)行的管道類
  def item_completed(self, results, item, info):
    return item

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python獲取文件ssdeep值的方法

    Python獲取文件ssdeep值的方法

    這篇文章主要介紹了Python獲取文件ssdeep值的方法,是一個(gè)比較實(shí)用的技巧,本文詳細(xì)講述了實(shí)現(xiàn)這一功能的具體步驟及相關(guān)注意事項(xiàng),需要的朋友可以參考下
    2014-10-10
  • 一篇文章搞定Python操作文件與目錄

    一篇文章搞定Python操作文件與目錄

    這篇文章主要給大家介紹了關(guān)于如何通過(guò)一篇文章搞定Python操作文件與目錄的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-08-08
  • python2 與python3的print區(qū)別小結(jié)

    python2 與python3的print區(qū)別小結(jié)

    這篇文章主要介紹了python2 與python3的print區(qū)別小結(jié),需要的朋友可以參考下
    2018-01-01
  • Numpy中np.dot與np.matmul的區(qū)別詳解

    Numpy中np.dot與np.matmul的區(qū)別詳解

    本文主要介紹了Numpy中np.dot與np.matmul的區(qū)別詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法示例

    Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法示例

    這篇文章主要介紹了Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法,結(jié)合實(shí)例形式分析了Python針對(duì)命令行字符串顯示顏色屬性相關(guān)操作技巧,需要的朋友可以參考下
    2017-08-08
  • python學(xué)生管理系統(tǒng)開(kāi)發(fā)

    python學(xué)生管理系統(tǒng)開(kāi)發(fā)

    這篇文章主要為大家詳細(xì)介紹了基礎(chǔ)版和函數(shù)版的python學(xué)生管理系統(tǒng)開(kāi)發(fā),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-01-01
  • Python如何拆分含有多種分隔符的字符串

    Python如何拆分含有多種分隔符的字符串

    這篇文章主要介紹了Python如何拆分含有多種分隔符的字符串問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • Python中ttkbootstrap的介紹與基本使用

    Python中ttkbootstrap的介紹與基本使用

    ttkbootstrap是一個(gè)基于?tkinter?的界面美化庫(kù),使用這個(gè)工具可以開(kāi)發(fā)出類似前端bootstrap風(fēng)格的tkinter桌面程序,下面這篇文章主要給大家介紹了關(guān)于Python中ttkbootstrap的介紹與基本使用的相關(guān)資料,需要的朋友可以參考下
    2023-01-01
  • python實(shí)現(xiàn)圖片,視頻人臉識(shí)別(dlib版)

    python實(shí)現(xiàn)圖片,視頻人臉識(shí)別(dlib版)

    這篇文章主要介紹了python實(shí)現(xiàn)圖像,視頻人臉識(shí)別(dlib版)的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下
    2020-11-11
  • python繼續(xù)找對(duì)象詳解

    python繼續(xù)找對(duì)象詳解

    這篇文章主要為大家介紹了python繼續(xù)找對(duì)象的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2022-01-01

最新評(píng)論