快捷導(dǎo)航

Scrapy框架中的Pipeline使用詳解

更新時(shí)間：2023年10月23日 08:57:31 作者：喵叔喲

這篇文章主要介紹了Scrapy框架中的Pipeline使用詳解,Scrapy 中的 Pipeline 為我們提供了處理數(shù)據(jù)的功能,在實(shí)際開(kāi)發(fā)中我們經(jīng)常使用它來(lái)清洗/驗(yàn)證數(shù)據(jù)、去重和數(shù)據(jù)保存,需要的朋友可以參考下

前言

Scrapy 中的 Pipeline 為我們提供了處理數(shù)據(jù)的功能，在實(shí)際開(kāi)發(fā)中我們經(jīng)常使用它來(lái)清洗/驗(yàn)證數(shù)據(jù)、去重和數(shù)據(jù)保存。在一個(gè)項(xiàng)目中會(huì)存在多種 Pipeline ，每個(gè) Pipeline 都是一個(gè) class ，其中包含了一些處理的 Item 的方法。 Item 會(huì)在這些 Pipeline 中按順序依次傳遞，如果其中一個(gè) Pipeline 丟棄了 Item ，那么后面未執(zhí)行到的 Pipeline 將不會(huì)收到這個(gè) Item 。

自定義 Pipeline

自定義 Pipeline 其實(shí)很簡(jiǎn)單，只需要實(shí)現(xiàn)指定的方法即可。

process_item (self,item,spider)

解釋：

該方法必須實(shí)現(xiàn)，處理數(shù)據(jù)的工作都在這個(gè)方法中進(jìn)行，方法返回 dict 、Item 、 Twisted Deferred 或者是 DropItem 異常。

參數(shù)：

item : 被爬取的 Item ；
spider : 爬取 Item 時(shí)所使用的 Spider 。

Tip : 如果在 process_item 方法中丟棄了 Item ，那么這個(gè) Item 將不會(huì)向后續(xù) Pipeline 傳遞這個(gè) Item 。

open_spider(self,spider)

解釋：

爬蟲(chóng)開(kāi)始運(yùn)行時(shí)，將會(huì)在這個(gè)方法中執(zhí)行一些初始化工作，例如打開(kāi)數(shù)據(jù)庫(kù)、打開(kāi)文件等。

參數(shù)：

spider : 當(dāng)前正在使用的

Spider close_spider(self,spider)

解釋：

爬蟲(chóng)關(guān)閉時(shí)，將會(huì)在這個(gè)方法中執(zhí)行一些后續(xù)工作，例如關(guān)閉數(shù)據(jù)庫(kù)、關(guān)閉文件等。

參數(shù)：

spider : 當(dāng)前正在使用的 Spider

from_crawl(self,crawler)

解釋：

方法為類方法，通過(guò)初始化 crawler 對(duì)象返回 Pipeline 實(shí)例。我們可以通過(guò) crawler 返回所有 Scrapy 核心組件。

特殊的 Pipeline

在一些項(xiàng)目中我們不僅要爬取網(wǎng)頁(yè)的數(shù)據(jù)，還需要爬取文件或圖片，并保存在本地。這時(shí)我們就需要用到 Scrapy 中特殊的 Pipeline ：FilesPipeline 和 ImagesPipeline ，它們具有一些相同的方法和結(jié)構(gòu)與，我們稱這種 Pipeline 為 MediaPipeline 。FilesPipeline 和 ImagesPipeline 都包含如下特性：

避免重復(fù)下載數(shù)據(jù)
指定存儲(chǔ)位置

ImagesPipeline 又包含如下特性：

圖片轉(zhuǎn)換為 JPG 格式或者 RGB 格式
生成縮略圖
限制圖片下載的最大/最小寬高

Tip：Scrapy Pipeline 避免重復(fù)下載的方法是將要下載的文件的 URL 放入一個(gè)隊(duì)列中，并且和 Response 關(guān)聯(lián)，從而避免了重復(fù)下載。

FilesPipeline

FilesPipeline 下載文件的工作流程非常簡(jiǎn)單，一共有四個(gè)步驟：

爬蟲(chóng)把獲取到的 Item 和希望下載的文件的 URL 保存到 file_urls 中；
爬蟲(chóng)返回的 Item 進(jìn)入到 Pipeline 內(nèi)部；
Item 按照順序傳遞到 FilesPipeline 時(shí)，file_urls 中的 URL 會(huì)被內(nèi)置的調(diào)度器和下載器下載。在這個(gè)時(shí)候 Item 是被鎖定的，直到需要下載的文件下載完成或者報(bào)錯(cuò)，Item 才解除鎖定；
下載完成后，結(jié)果將被保存在 files 中，files 是一個(gè)列表，每條數(shù)據(jù)是 dict 類型。

ImagesPipeline

ImagesPipeline 是繼承自 FilesPipeline ，也就是說(shuō)它的大部分步驟和 FilesPipeline 一樣。唯一不同的是 ImagesPipeline 將需要下載的圖片 URL 保存到了 image_urls 中，下載完成的結(jié)果保存到 images 中。

Tip：Pipeline 中不僅僅包含了這兩個(gè)特殊的 Pipeline ，因?yàn)?FilesPipeline 和 ImagesPipeline 是比較常用的，因此我在這里進(jìn)行了講解。更多的內(nèi)置 Pipeline 大家可以去 Scrapy 官網(wǎng)查看具體的文檔。

我們?cè)诰帉?xiě)完 Pipeline 后需要在 settings.py 文件中進(jìn)行注冊(cè)，將我們編寫(xiě)的 Pipeline 注入到 Scrapy 中。

ITEM_PIPELINS= {
  '自定義Pipeline 路徑':'優(yōu)先級(jí)'
}

總結(jié)

本篇文章主要講解了 Pipeline 的理論知識(shí)，雖然很短，但是這些知識(shí)是 Pipeline 的核心知識(shí)。下一節(jié)我將通過(guò)代碼的形式來(lái)展現(xiàn) Pipeline 的使用。

到此這篇關(guān)于Scrapy框架中的Pipeline使用詳解的文章就介紹到這了,更多相關(guān)Pipeline使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Scrapy框架中的Pipeline使用詳解

目錄

前言

自定義 Pipeline

特殊的 Pipeline

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具