欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用爬蟲采集網(wǎng)站時,解決被封IP的幾種方法

  發(fā)布時間:2016-10-08 14:14:50   作者:佚名   我要評論
這篇文章主要介紹了使用爬蟲采集網(wǎng)站時,解決被封IP的幾種方法的相關(guān)資料,需要的朋友可以參考下
方法1.
之前由于公司項(xiàng)目需要,采集過google地圖數(shù)據(jù),還有一些大型網(wǎng)站數(shù)據(jù)。
經(jīng)驗(yàn)如下:
1.IP必須需要,像@alswl 說的非常正確,ADSL。如果有條件,其實(shí)可以跟機(jī)房多申請外網(wǎng)IP。
2.在有外網(wǎng)IP的機(jī)器上,部署代理服務(wù)器。
3.你的程序,使用輪訓(xùn)替換代理服務(wù)器來訪問想要采集的網(wǎng)站。
好處:
1.程序邏輯變化小,只需要代理功能。
2.根據(jù)對方網(wǎng)站屏蔽規(guī)則不同,你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了,你可以直接把代理服務(wù)器下線就OK,程序邏輯不需要變化。
方法2.
有小部分網(wǎng)站的防范措施比較弱,可以偽裝下IP,修改X-Forwarded-for(貌似這么拼。。。)即可繞過。
大部分網(wǎng)站么,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是國外VPS再配多IP,通過默認(rèn)網(wǎng)關(guān)切換來實(shí)現(xiàn)IP切換,比HTTP代理高效得多,估計(jì)也比多數(shù)情況下的ADSL切換更高效。
方法3.
ADSL + 腳本,監(jiān)測是否被封,然后不斷切換 ip
設(shè)置查詢頻率限制
正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務(wù)接口。
方法4.
8年多爬蟲經(jīng)驗(yàn)的人告訴你,國內(nèi)ADSL是王道,多申請些線路,分布在多個不同的電信區(qū)局,能跨省跨市更好,自己寫好斷線重?fù)芙M件,自己寫動態(tài)IP追蹤服務(wù),遠(yuǎn)程硬件重置(主要針對ADSL貓,防止其宕機(jī)),其余的任務(wù)分配,數(shù)據(jù)回收,都不是大問題。我的已經(jīng)穩(wěn)定運(yùn)行了好幾年了,妥妥的!
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網(wǎng)站對登陸用戶政策寬松些
友情提示:考慮爬蟲給人家網(wǎng)站帶來的負(fù)擔(dān),be a responsible crawler :)
方法6.
盡可能的模擬用戶行為:
1、UserAgent經(jīng)常換一換;
2、訪問時間間隔設(shè)長一點(diǎn),訪問時間設(shè)置為隨機(jī)數(shù);
3、訪問頁面的順序也可以隨機(jī)著來
方法8.
網(wǎng)站封的依據(jù)一般是單位時間內(nèi)特定IP的訪問次數(shù).
我是將采集的任務(wù)按 目標(biāo)站點(diǎn)的IP進(jìn)行分組 通過控制每個IP 在單位時間內(nèi)發(fā)出任務(wù)的個數(shù),來避免被封.當(dāng)然,這個前題是你采集很多網(wǎng)站.如果只是采集一個網(wǎng)站,那么只能通過多外部IP的方式來實(shí)現(xiàn)了.
方法9.
1. 對爬蟲抓取進(jìn)行壓力控制;
2. 可以考慮使用代理的方式訪問目標(biāo)站點(diǎn)。
-降低抓取頻率,時間設(shè)置長一些,訪問時間采用隨機(jī)數(shù)
-頻繁切換UserAgent(模擬瀏覽器訪問)
-多頁面數(shù)據(jù),隨機(jī)訪問然后抓取數(shù)據(jù)
-更換用戶IP

相關(guān)文章

  • Pholcus(幽靈蛛)爬蟲軟件 v1.2

    Pholcus(幽靈蛛)是一款純Go語言編寫的支持分布式的高并發(fā)、重量級爬蟲軟件,定位于互聯(lián)網(wǎng)數(shù)據(jù)采集,為具備一定Go或JS編程基礎(chǔ)的人提供一個只需關(guān)注規(guī)則定制的功能強(qiáng)大的
    2016-09-28
  • python網(wǎng)絡(luò)爬蟲(抓取網(wǎng)頁的含義和URL基本構(gòu)成) 中文PDF版 4.25MB

    爬蟲最主要的處理對象就是URL,他根據(jù)URL地址取得所需要的文件內(nèi)容,然后對它進(jìn)行一步的處理。因此,準(zhǔn)確的理解URL對理解網(wǎng)絡(luò)爬蟲至關(guān)重要。感興趣的朋友可以過來看看
    2016-09-13
  • Python 爬蟲修養(yǎng)-處理動態(tài)網(wǎng)頁

    在爬蟲開發(fā)中,大家可以很輕易地 bypass 所謂的 UA 限制,甚至用 scrapy 框架輕易實(shí)現(xiàn)按照深度進(jìn)行爬行。但是實(shí)際上,這些并不夠。關(guān)于爬蟲的基礎(chǔ)知識比如數(shù)據(jù)處理與數(shù)據(jù)存
    2016-09-12
  • 簡易網(wǎng)頁爬蟲 V1.0 綠色免費(fèi)版

    簡易網(wǎng)頁爬蟲是一款非常方便易用的網(wǎng)頁爬蟲軟件。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。用戶可以通過軟件來分析網(wǎng)頁中的所有鏈接,需要的朋
    2016-07-03
  • 淺談百度爬蟲的HTTP狀態(tài)碼返回機(jī)制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對常見的HTTP返回碼來做相關(guān)調(diào)整,下面我們就來淺談百度爬蟲的HTTP狀態(tài)碼返回機(jī)制
    2016-06-22
  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長,在關(guān)注網(wǎng)站在搜索引擎排名的時候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個自動抓取互聯(lián)網(wǎng)上網(wǎng)頁內(nèi)容的程序,每個搜索引擎都有自己的蜘蛛,那
    2016-05-27
  • Python Scrapy爬蟲框架學(xué)習(xí)(Learning Scrapy) 英文PDF版[6.64MB]

    是針對高人氣Python爬蟲開發(fā)框架Scrapy的學(xué)習(xí)教材,Scrapy只需要一個配置文件就能組合各種組件和配置選項(xiàng),并且Scrapy是基于事件(event-based)的架構(gòu),使得我們可以級聯(lián)多個
    2016-05-04
  • Python爬蟲編程(Web Scraping with Python) 英文PDF版[3.25MB]

    Python在Web編程領(lǐng)域最為人們所津津樂道的運(yùn)用就是爬蟲的編寫,從urlib等模塊到Scrapy等框架,從自帶到第三方,Python世界中用于編寫爬蟲的輪子可以說是譽(yù)滿天下
    2016-04-15
  • 阿布采集 網(wǎng)絡(luò)爬蟲軟件 v1.0 中文綠色版

    阿布采集是由布谷中國開發(fā)的一款爬蟲平臺,脫胎于10年開發(fā)的布谷郵箱蜘蛛,經(jīng)過反復(fù)的改進(jìn)、調(diào)試甚至重做后,又經(jīng)歷長時間的BUG測試、性能測試后爬蟲“阿布采集1.0”終于熬
    2014-02-12

最新評論