爬蟲技術之分布式爬蟲架構的講解
分布式爬蟲架構并不是一開始就出現(xiàn)的。而是一個逐步演化的過程。
最開始入手寫爬蟲的時候,我們一般在個人計算機上完成爬蟲的入門和開發(fā),而在真實的生產(chǎn)環(huán)境,就不能用個人計算機來運行爬蟲程序了,而是將爬蟲程序部署在服務器上。利用服務器不關機的特性,爬蟲可以不間斷的24小時運行。單機爬蟲的結構如下圖。

然而,由于爬蟲在爬取數(shù)據(jù)時,爬取頻次并不能太快,即使是爬蟲在服務器上不間斷運行,效率可能也無法滿足實際需求。這時候,就需要在多機上部署爬蟲程序,用分布式爬蟲架構,進行數(shù)據(jù)爬取。分布式爬蟲的架構一般如下所示。

采用分布式爬蟲架構后,帶來了如下幾個好處。
- 1,爬蟲效率提高。這一點顯而易見,之前是單機運行,現(xiàn)在是多機分布式運行,效率顯著提高。
- 2,爬蟲可靠性可用性提高。之前部署在一臺服務器上,當服務器出現(xiàn)故障或爬蟲程序出現(xiàn)故障時,爬蟲便不可用了。采用分布式爬蟲架構后,爬蟲任務生產(chǎn)者,任務隊列,爬蟲任務消費者都采用分布式架構部署,其中的某些機器出現(xiàn)故障,不影響整體的可用性,系統(tǒng)可靠性大大增強。
總結
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對腳本之家的支持。如果你想了解更多相關內(nèi)容請查看下面相關鏈接
相關文章
Redis報錯NOAUTH?Authentication?required簡單解決辦法
這篇文章主要給大家介紹了關于Redis報錯NOAUTH?Authentication?required的簡單解決辦法,Redis無密碼報錯NOAUTH Authentication required的原因是客戶端訪問Redis時需要提供密碼,但是沒有提供或提供的密碼不正確,需要的朋友可以參考下2024-05-05
詳談redis優(yōu)化配置和redis.conf說明(推薦)
下面小編就為大家?guī)硪黄斦剅edis優(yōu)化配置和redis.conf說明(推薦)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-03-03

