Python使用scrapy采集時(shí)偽裝成HTTP/1.1的方法
更新時(shí)間:2015年04月08日 10:18:35 作者:pythoner
這篇文章主要介紹了Python使用scrapy采集時(shí)偽裝成HTTP/1.1的方法,實(shí)例分析了scrapy采集的使用技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下
本文實(shí)例講述了Python使用scrapy采集時(shí)偽裝成HTTP/1.1的方法。分享給大家供大家參考。具體如下:
添加下面的代碼到 settings.py 文件
復(fù)制代碼 代碼如下:
DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'
保存以下代碼到單獨(dú)的.py文件
復(fù)制代碼 代碼如下:
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class PageGetter(ScrapyHTTPPageGetter):
def sendCommand(self, command, path):
self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
protocol = PageGetter
class PageGetter(ScrapyHTTPPageGetter):
def sendCommand(self, command, path):
self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
protocol = PageGetter
希望本文所述對(duì)大家的Python程序設(shè)計(jì)有所幫助。
您可能感興趣的文章:
- Python實(shí)現(xiàn)爬蟲(chóng)設(shè)置代理IP和偽裝成瀏覽器的方法分享
- python爬蟲(chóng)的一個(gè)常見(jiàn)簡(jiǎn)單js反爬詳解
- python爬蟲(chóng)之快速對(duì)js內(nèi)容進(jìn)行破解
- 詳解用python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)-爬取新浪微博評(píng)論
- python爬蟲(chóng)爬取微博評(píng)論案例詳解
- python爬蟲(chóng)之urllib,偽裝,超時(shí)設(shè)置,異常處理的方法
- 檢測(cè)python爬蟲(chóng)時(shí)是否代理ip偽裝成功的方法
相關(guān)文章
Python數(shù)據(jù)可視化JupyterNotebook繪圖生成高清圖片
這篇文章主要為大家介紹了Python數(shù)據(jù)可視化中如何利用Jupyter Notebook繪圖生成高清圖片,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-09-09調(diào)試Python程序代碼的幾種方法總結(jié)
這篇文章主要介紹了調(diào)試Python程序代碼的幾種方法總結(jié),文中代碼基于Python2.x版本,需要的朋友可以參考下2015-04-04關(guān)于ZeroMQ 三種模式python3實(shí)現(xiàn)方式
今天小編就為大家分享一篇關(guān)于ZeroMQ 三種模式python3實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12Python中WatchDog的使用經(jīng)驗(yàn)總結(jié)
在?python?中文件監(jiān)視主要有兩個(gè)庫(kù),一個(gè)是?pyinotify,一個(gè)是?watchdog,本文主要為大家詳細(xì)介紹一下Python中WatchDog的使用相關(guān)經(jīng)驗(yàn),感興趣的小伙伴可以了解下2023-12-12