通過淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python?scrapy?requests與response對象
Request 對象
在 scrapy 中 Request 對象代表著請求,即向服務(wù)器發(fā)送數(shù)據(jù),該對象的構(gòu)造函數(shù)原型如下所示:
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None, cb_kwargs=None)其中只有 url為必填參數(shù),具體說明如下:
callback:頁面解析函數(shù),當(dāng) Request 請求獲取到 Response 響應(yīng)之后,設(shè)定的函數(shù)會被調(diào)用,默認(rèn)是self.parse方法;method:請求類型,默認(rèn)為 GET,所以使用 Request 是可以發(fā)送 POST 的請求的,F(xiàn)ormRequest 類是 Request 類的子類;headers:請求頭,字典類型;body:請求的正文,需要 bytes 類型或 str 類型;cookies:Cookie 字典,dict 類型;meta:元數(shù)據(jù)字典,dict 類型,可以給其它組件傳遞信息;encoding:url和body參數(shù)的編碼,注意不是數(shù)據(jù)響應(yīng)編碼;priority:請求的優(yōu)先級,默認(rèn)為0,數(shù)值越大,優(yōu)先級越高;dont_filter:默認(rèn)值為 False,該參數(shù)表示是否重復(fù)請求相同地址;errback:請求異常時的回調(diào)函數(shù)。
Response 對象
在 scrapy中,Response對象表示請求響應(yīng)對象,即服務(wù)器返回給爬蟲的數(shù)據(jù),其構(gòu)造函數(shù)原型如下:
def __init__(self,url,status=200,headers=None,body=b"",
flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)與 Request 一致,該方法中僅 url 為必填參數(shù),不過一般很少用到手動創(chuàng)建一個 Response 對象實例的場景。
Response 類衍生出來一個子類 TextResponse,然后 TextResponse又衍生出來 HtmlResponse和 XmlResponse。
Response 包括的屬性和方法如下:
屬性清單:
url:響應(yīng)地址;status:響應(yīng)狀態(tài)碼;headers:響應(yīng)頭;encoding:響應(yīng)正文的編碼;body:響應(yīng)正文,bytes 類型;text:文本形式的響應(yīng)正文,將 body 進(jìn)行編碼之后的數(shù)據(jù);request:獲取請求對象;meta:元數(shù)據(jù)字典,dict 類型,請求傳遞過來的參數(shù);selector:選擇器對象。
方法清單:
xpath():XPath 選擇器;css():CSS 選擇器;urljoin():就是urllib.parse模塊的urljoin();json():將響應(yīng)數(shù)據(jù)序列化為 JSON 格式;
關(guān)于 Request 和 Response 類的相關(guān)源碼,可以在 scrapy\http 目錄查看。
ItemPipeline
數(shù)據(jù)管道在 scrapy 中主要對數(shù)據(jù)進(jìn)行處理,在實際開發(fā)過程中需要注意一個 ItemPipeline,只負(fù)責(zé)一種功能的數(shù)據(jù)處理,當(dāng)然在 scrapy 中你可以創(chuàng)建多個 ItemPipeline。
ItemPipeline的使用場景:
- 數(shù)據(jù)清洗,例如去重,去除異常數(shù)據(jù);
- 數(shù)據(jù)保存方式編寫,例如存儲 Mongodb,MySQL,Redis 數(shù)據(jù)庫。
在編寫ItemPipeline類的時候,不需要其繼承特定類,只需要實現(xiàn)固定名稱的方法即可,在之前的博客中已經(jīng)反復(fù)提及,自定義ItemPipeline類需要實現(xiàn) process_item()、open_spider(),close_spider()方法,其中 process_item()必須實現(xiàn)。
process_item()返回值是 Item 或者字典,也可以返回一個 DropItem類型的數(shù)據(jù),此時該項 item 會被忽略,不會被后面的 ItemPipeline處理。
過濾數(shù)據(jù)的邏輯實現(xiàn)
如果希望在 ItemPipeline實現(xiàn)過濾數(shù)據(jù),使用集合即可,發(fā)現(xiàn)集合中已經(jīng)存在數(shù)據(jù)了,拋出 DropItem即可。
LinkExtractor 提取鏈接
scrapy 編寫的爬蟲在提取大量鏈接時,使用LinkExtractor會更加便捷。 使用 from scrapy.linkextractors import LinkExtractor導(dǎo)入 LinkExtractor,該類的構(gòu)造函數(shù)如下所示:
def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
)其中各個參數(shù)說明如下:
allow:一個正則表達(dá)式或正則表達(dá)式列表,提取正則表達(dá)式匹配的 url,默認(rèn)全部提??;deny:與allow相反;allow_domains:字符串或者列表,domain 限制;deny_domains:與上面相反;restrict_xpaths:按照 xpath 提??;restrict_css:安裝 css 選擇器提取;tags:提取指定標(biāo)簽內(nèi)的鏈接;attrs:提取指定屬性內(nèi)的鏈接;process_value:函數(shù)類型,傳入該參數(shù)之后,LinkExtractor 會將其匹配到的所有鏈接,都傳入該函數(shù)進(jìn)行處理。
下面的代碼是提取 Response 對象中的鏈接,需要使用 extract_links() 方法。
def parse(self, response):
link = LinkExtractor()
all_links = link.extract_links(response)
print(all_links)- 創(chuàng)建一個LinkExtractor對象;
- 使用構(gòu)造器參數(shù)描述提取規(guī)則;
- 調(diào)用LinkExtractor對象的
extract_links方法傳入一個Response對象,返回一個列表; - 使用列表中的任意元素調(diào)用
.url或者.text獲取鏈接和鏈接文本。
爬蟲編碼時間
本次的目標(biāo)站點是:淘數(shù)據(jù)-行業(yè)報告

完整代碼編寫如下所示,使用 LinkExtractor 提取頁面超鏈接。
import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
name = 'tao_data'
allowed_domains = ['taosj.com']
start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
def parse(self, response):
link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
links = link_extractor.extract_links(response)
for l in links:
item = {
"url": l.url,
"text": l.text
}
yield item到此這篇關(guān)于通過淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python scrapy requests與response對象的文章就介紹到這了,更多相關(guān) python response 內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python django事務(wù)transaction源碼分析詳解
這篇文章主要介紹了python django事務(wù)transaction源碼分析詳解的相關(guān)資料,需要的朋友可以參考下2017-03-03
基于python的BP神經(jīng)網(wǎng)絡(luò)及異或?qū)崿F(xiàn)過程解析
這篇文章主要介紹了基于python的BP神經(jīng)網(wǎng)絡(luò)及異或?qū)崿F(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-09-09
Python使用修飾器執(zhí)行函數(shù)的參數(shù)檢查功能示例
這篇文章主要介紹了Python使用修飾器執(zhí)行函數(shù)的參數(shù)檢查功能,結(jié)合具體實例形式分析了Python實現(xiàn)修飾器針對函數(shù)參數(shù)檢查的原理、步驟與相關(guān)操作技巧,需要的朋友可以參考下2017-09-09

