快捷導(dǎo)航

通過(guò)淘寶數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)python?scrapy?requests與response對(duì)象

更新時(shí)間：2022年05月16日 10:48:17 作者：??夢(mèng)想橡皮擦????

本文主要介紹了通過(guò)淘寶數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)python?scrapy?requests與response對(duì)象，首先從Resquest和Response對(duì)象開(kāi)始展開(kāi)詳細(xì)文章，需要的小伙伴可以參考一下

Request 對(duì)象

在 scrapy 中 Request 對(duì)象代表著請(qǐng)求，即向服務(wù)器發(fā)送數(shù)據(jù)，該對(duì)象的構(gòu)造函數(shù)原型如下所示：

def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url為必填參數(shù)，具體說(shuō)明如下：

callback：頁(yè)面解析函數(shù)，當(dāng) Request 請(qǐng)求獲取到 Response 響應(yīng)之后，設(shè)定的函數(shù)會(huì)被調(diào)用，默認(rèn)是 self.parse 方法；
method：請(qǐng)求類型，默認(rèn)為 GET，所以使用 Request 是可以發(fā)送 POST 的請(qǐng)求的，F(xiàn)ormRequest 類是 Request 類的子類；
headers：請(qǐng)求頭，字典類型；
body：請(qǐng)求的正文，需要 bytes 類型或 str 類型；
cookies：Cookie 字典，dict 類型；
meta：元數(shù)據(jù)字典，dict 類型，可以給其它組件傳遞信息；
encoding：url和body參數(shù)的編碼，注意不是數(shù)據(jù)響應(yīng)編碼；
priority：請(qǐng)求的優(yōu)先級(jí)，默認(rèn)為0，數(shù)值越大，優(yōu)先級(jí)越高；
dont_filter：默認(rèn)值為 False，該參數(shù)表示是否重復(fù)請(qǐng)求相同地址；
errback：請(qǐng)求異常時(shí)的回調(diào)函數(shù)。

Response 對(duì)象

在 scrapy中，Response對(duì)象表示請(qǐng)求響應(yīng)對(duì)象，即服務(wù)器返回給爬蟲(chóng)的數(shù)據(jù)，其構(gòu)造函數(shù)原型如下：

def __init__(self,url,status=200,headers=None,body=b"",
    flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)

與 Request 一致，該方法中僅 url 為必填參數(shù)，不過(guò)一般很少用到手動(dòng)創(chuàng)建一個(gè) Response 對(duì)象實(shí)例的場(chǎng)景。

Response 類衍生出來(lái)一個(gè)子類 TextResponse，然后 TextResponse又衍生出來(lái) HtmlResponse和 XmlResponse。

Response 包括的屬性和方法如下：

屬性清單：

url：響應(yīng)地址；
status：響應(yīng)狀態(tài)碼；
headers：響應(yīng)頭；
encoding：響應(yīng)正文的編碼；
body：響應(yīng)正文，bytes 類型；
text：文本形式的響應(yīng)正文，將 body 進(jìn)行編碼之后的數(shù)據(jù)；
request：獲取請(qǐng)求對(duì)象；
meta：元數(shù)據(jù)字典，dict 類型，請(qǐng)求傳遞過(guò)來(lái)的參數(shù)；
selector：選擇器對(duì)象。

方法清單：

xpath()：XPath 選擇器；
css()：CSS 選擇器；
urljoin()：就是 urllib.parse 模塊的 urljoin()；
json()：將響應(yīng)數(shù)據(jù)序列化為 JSON 格式；

關(guān)于 Request 和 Response 類的相關(guān)源碼，可以在 scrapy\http 目錄查看。

ItemPipeline

數(shù)據(jù)管道在 scrapy 中主要對(duì)數(shù)據(jù)進(jìn)行處理，在實(shí)際開(kāi)發(fā)過(guò)程中需要注意一個(gè) ItemPipeline，只負(fù)責(zé)一種功能的數(shù)據(jù)處理，當(dāng)然在 scrapy 中你可以創(chuàng)建多個(gè) ItemPipeline。

ItemPipeline的使用場(chǎng)景：

數(shù)據(jù)清洗，例如去重，去除異常數(shù)據(jù)；
數(shù)據(jù)保存方式編寫(xiě)，例如存儲(chǔ) Mongodb，MySQL，Redis 數(shù)據(jù)庫(kù)。

在編寫(xiě)ItemPipeline類的時(shí)候，不需要其繼承特定類，只需要實(shí)現(xiàn)固定名稱的方法即可，在之前的博客中已經(jīng)反復(fù)提及，自定義ItemPipeline類需要實(shí)現(xiàn) process_item()、open_spider()，close_spider()方法，其中 process_item()必須實(shí)現(xiàn)。

process_item()返回值是 Item 或者字典，也可以返回一個(gè) DropItem類型的數(shù)據(jù)，此時(shí)該項(xiàng) item 會(huì)被忽略，不會(huì)被后面的 ItemPipeline處理。

過(guò)濾數(shù)據(jù)的邏輯實(shí)現(xiàn)

如果希望在 ItemPipeline實(shí)現(xiàn)過(guò)濾數(shù)據(jù)，使用集合即可，發(fā)現(xiàn)集合中已經(jīng)存在數(shù)據(jù)了，拋出 DropItem即可。

LinkExtractor 提取鏈接

scrapy 編寫(xiě)的爬蟲(chóng)在提取大量鏈接時(shí)，使用LinkExtractor會(huì)更加便捷。使用 from scrapy.linkextractors import LinkExtractor導(dǎo)入 LinkExtractor，該類的構(gòu)造函數(shù)如下所示：

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
    )

其中各個(gè)參數(shù)說(shuō)明如下：

allow：一個(gè)正則表達(dá)式或正則表達(dá)式列表，提取正則表達(dá)式匹配的 url，默認(rèn)全部提?。?/li>
deny：與 allow 相反；
allow_domains：字符串或者列表，domain 限制；
deny_domains：與上面相反；
restrict_xpaths：按照 xpath 提?。?/li>
restrict_css：安裝 css 選擇器提??；
tags：提取指定標(biāo)簽內(nèi)的鏈接；
attrs：提取指定屬性內(nèi)的鏈接；
process_value：函數(shù)類型，傳入該參數(shù)之后，LinkExtractor 會(huì)將其匹配到的所有鏈接，都傳入該函數(shù)進(jìn)行處理。

下面的代碼是提取 Response 對(duì)象中的鏈接，需要使用 extract_links() 方法。

def parse(self, response):
    link = LinkExtractor()
    all_links = link.extract_links(response)
    print(all_links)

創(chuàng)建一個(gè)LinkExtractor對(duì)象；
使用構(gòu)造器參數(shù)描述提取規(guī)則；
調(diào)用LinkExtractor對(duì)象的 extract_links 方法傳入一個(gè)Response對(duì)象，返回一個(gè)列表；
使用列表中的任意元素調(diào)用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲(chóng)編碼時(shí)間

本次的目標(biāo)站點(diǎn)是：淘數(shù)據(jù)-行業(yè)報(bào)告

完整代碼編寫(xiě)如下所示，使用 LinkExtractor 提取頁(yè)面超鏈接。

import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
    name = 'tao_data'
    allowed_domains = ['taosj.com']
    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
    def parse(self, response):
        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
        links = link_extractor.extract_links(response)
        for l in links:
            item = {
                "url": l.url,
                "text": l.text
            }
            yield item

到此這篇關(guān)于通過(guò)淘寶數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)python scrapy requests與response對(duì)象的文章就介紹到這了,更多相關(guān) python response 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: