快捷導(dǎo)航

Python網(wǎng)絡(luò)爬蟲(chóng)的基本原理解析

更新時(shí)間：2023年05月18日 10:30:38 作者：FLy_鵬程萬(wàn)里

如果要獲取網(wǎng)絡(luò)上數(shù)據(jù)，我們要給爬蟲(chóng)一個(gè)網(wǎng)址（程序中通常叫URL），爬蟲(chóng)發(fā)送一個(gè)HTTP請(qǐng)求給目標(biāo)網(wǎng)頁(yè)的服務(wù)器，服務(wù)器返回?cái)?shù)據(jù)給客戶端（也就是我們的爬蟲(chóng)），爬蟲(chóng)再進(jìn)行數(shù)據(jù)解析、保存等一系列操作,需要的朋友可以參考下

網(wǎng)絡(luò)爬蟲(chóng)是捜索引擎抓取系統(tǒng)的重要組成部分。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。這篇博客主要對(duì)爬蟲(chóng)以及抓取系統(tǒng)進(jìn)行一個(gè)簡(jiǎn)單的概述。

一、網(wǎng)絡(luò)爬蟲(chóng)的基本結(jié)構(gòu)及工作流程

一個(gè)通用的網(wǎng)絡(luò)爬蟲(chóng)的框架如圖所示：

網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程如下：

1.首先選取一部分精心挑選的種子URL；

2.將這些URL放入待抓取URL隊(duì)列；

3.從待抓取URL隊(duì)列中取出待抓取在URL，解析DNS，并且得到主機(jī)的ip，并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)，存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外，將這些URL放進(jìn)已抓取URL隊(duì)列。

4.分析已抓取URL隊(duì)列中的URL，分析其中的其他URL，并且將URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。

二、從爬蟲(chóng)的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分

對(duì)應(yīng)的，可以將互聯(lián)網(wǎng)的所有頁(yè)面分為五個(gè)部分：

1.已下載未過(guò)期網(wǎng)頁(yè)

2.已下載已過(guò)期網(wǎng)頁(yè)：抓取到的網(wǎng)頁(yè)實(shí)際上是互聯(lián)網(wǎng)內(nèi)容的一個(gè)鏡像與備份，互聯(lián)網(wǎng)是動(dòng)態(tài)變化的，一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化，這時(shí)，這部分抓取到的網(wǎng)頁(yè)就已經(jīng)過(guò)期了。

3.待下載網(wǎng)頁(yè)：也就是待抓取URL隊(duì)列中的那些頁(yè)面

4.可知網(wǎng)頁(yè)：還沒(méi)有抓取下來(lái)，也沒(méi)有在待抓取URL隊(duì)列中，但是可以通過(guò)對(duì)已抓取頁(yè)面或者待抓取URL對(duì)應(yīng)頁(yè)面進(jìn)行分析獲取到的URL，認(rèn)為是可知網(wǎng)頁(yè)。

5.還有一部分網(wǎng)頁(yè)，爬蟲(chóng)是無(wú)法直接抓取下載的。稱為不可知網(wǎng)頁(yè)。

三、抓取策略

在爬蟲(chóng)系統(tǒng)中，待抓取URL隊(duì)列是很重要的一部分。待抓取URL隊(duì)列中的URL以什么樣的順序排列也是一個(gè)很重要的問(wèn)題，因?yàn)檫@涉及到先抓取那個(gè)頁(yè)面，后抓取哪個(gè)頁(yè)面。而決定這些URL排列順序的方法，叫做抓取策略。下面重點(diǎn)介紹幾種常見(jiàn)的抓取策略：

1.深度優(yōu)先遍歷策略

深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)從起始頁(yè)開(kāi)始，一個(gè)鏈接一個(gè)鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè)，繼續(xù)跟蹤鏈接。我們以下面的圖為例：

遍歷的路徑：A-F-GE-H-I B C D

2.寬度優(yōu)先遍歷策略

寬度優(yōu)先遍歷策略的基本思路是，將新下載網(wǎng)頁(yè)中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊(duì)列的末尾。也就是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè)，繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。還是以上面的圖為例：

遍歷路徑：A-B-C-D-E-F G H I

3.反向鏈接數(shù)策略

反向鏈接數(shù)是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁(yè)的內(nèi)容受到其他人的推薦的程度。因此，很多時(shí)候搜索引擎的抓取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來(lái)評(píng)價(jià)網(wǎng)頁(yè)的重要程度，從而決定不同網(wǎng)頁(yè)的抓取先后順序。

在真實(shí)的網(wǎng)絡(luò)環(huán)境中，由于廣告鏈接、作弊鏈接的存在，反向鏈接數(shù)不能完全等他我那個(gè)也的重要程度。因此，搜索引擎往往考慮一些可靠的反向鏈接數(shù)。

4.Partial PageRank策略

Partial PageRank算法借鑒了PageRank算法的思想：對(duì)于已經(jīng)下載的網(wǎng)頁(yè)，連同待抓取URL隊(duì)列中的URL，形成網(wǎng)頁(yè)集合，計(jì)算每個(gè)頁(yè)面的PageRank值，計(jì)算完之后，將待抓取URL隊(duì)列中的URL按照PageRank值的大小排列，并按照該順序抓取頁(yè)面。

如果每次抓取一個(gè)頁(yè)面，就重新計(jì)算PageRank值，一種折中方案是：每抓取K個(gè)頁(yè)面后，重新計(jì)算一次PageRank值。但是這種情況還會(huì)有一個(gè)問(wèn)題：對(duì)于已經(jīng)下載下來(lái)的頁(yè)面中分析出的鏈接，也就是我們之前提到的未知網(wǎng)頁(yè)那一部分，暫時(shí)是沒(méi)有PageRank值的。為了解決這個(gè)問(wèn)題，會(huì)給這些頁(yè)面一個(gè)臨時(shí)的PageRank值：將這個(gè)網(wǎng)頁(yè)所有入鏈傳遞進(jìn)來(lái)的PageRank值進(jìn)行匯總，這樣就形成了該未知頁(yè)面的PageRank值，從而參與排序。下面舉例說(shuō)明：

5.OPIC策略策略

該算法實(shí)際上也是對(duì)頁(yè)面進(jìn)行一個(gè)重要性打分。在算法開(kāi)始前，給所有頁(yè)面一個(gè)相同的初始現(xiàn)金（cash）。當(dāng)下載了某個(gè)頁(yè)面P之后，將P的現(xiàn)金分?jǐn)偨o所有從P中分析出的鏈接，并且將P的現(xiàn)金清空。對(duì)于待抓取URL隊(duì)列中的所有頁(yè)面按照現(xiàn)金數(shù)進(jìn)行排序。

6.大站優(yōu)先策略

對(duì)于待抓取URL隊(duì)列中的所有網(wǎng)頁(yè)，根據(jù)所屬的網(wǎng)站進(jìn)行分類。對(duì)于待下載頁(yè)面數(shù)多的網(wǎng)站，優(yōu)先下載。這個(gè)策略也因此叫做大站優(yōu)先策略。

四、更新策略

互聯(lián)網(wǎng)是實(shí)時(shí)變化的，具有很強(qiáng)的動(dòng)態(tài)性。網(wǎng)頁(yè)更新策略主要是決定何時(shí)更新之前已經(jīng)下載過(guò)的頁(yè)面。常見(jiàn)的更新策略又以下三種：

1.歷史參考策略

顧名思義，根據(jù)頁(yè)面以往的歷史更新數(shù)據(jù)，預(yù)測(cè)該頁(yè)面未來(lái)何時(shí)會(huì)發(fā)生變化。一般來(lái)說(shuō)，是通過(guò)泊松過(guò)程進(jìn)行建模進(jìn)行預(yù)測(cè)。

2.用戶體驗(yàn)策略

盡管搜索引擎針對(duì)于某個(gè)查詢條件能夠返回?cái)?shù)量巨大的結(jié)果，但是用戶往往只關(guān)注前幾頁(yè)結(jié)果。因此，抓取系統(tǒng)可以優(yōu)先更新那些現(xiàn)實(shí)在查詢結(jié)果前幾頁(yè)中的網(wǎng)頁(yè)，而后再更新那些后面的網(wǎng)頁(yè)。這種更新策略也是需要用到歷史信息的。用戶體驗(yàn)策略保留網(wǎng)頁(yè)的多個(gè)歷史版本，并且根據(jù)過(guò)去每次內(nèi)容變化對(duì)搜索質(zhì)量的影響，得出一個(gè)平均值，用這個(gè)值作為決定何時(shí)重新抓取的依據(jù)。

3.聚類抽樣策略

前面提到的兩種更新策略都有一個(gè)前提：需要網(wǎng)頁(yè)的歷史信息。這樣就存在兩個(gè)問(wèn)題：第一，系統(tǒng)要是為每個(gè)系統(tǒng)保存多個(gè)版本的歷史信息，無(wú)疑增加了很多的系統(tǒng)負(fù)擔(dān)；第二，要是新的網(wǎng)頁(yè)完全沒(méi)有歷史信息，就無(wú)法確定更新策略。

這種策略認(rèn)為，網(wǎng)頁(yè)具有很多屬性，類似屬性的網(wǎng)頁(yè)，可以認(rèn)為其更新頻率也是類似的。要計(jì)算某一個(gè)類別網(wǎng)頁(yè)的更新頻率，只需要對(duì)這一類網(wǎng)頁(yè)抽樣，以他們的更新周期作為整個(gè)類別的更新周期?；舅悸啡鐖D：

五、分布式抓取系統(tǒng)結(jié)構(gòu)

一般來(lái)說(shuō)，抓取系統(tǒng)需要面對(duì)的是整個(gè)互聯(lián)網(wǎng)上數(shù)以億計(jì)的網(wǎng)頁(yè)。單個(gè)抓取程序不可能完成這樣的任務(wù)。往往需要多個(gè)抓取程序一起來(lái)處理。一般來(lái)說(shuō)抓取系統(tǒng)往往是一個(gè)分布式的三層結(jié)構(gòu)。如圖所示：

最下一層是分布在不同地理位置的數(shù)據(jù)中心，在每個(gè)數(shù)據(jù)中心里有若干臺(tái)抓取服務(wù)器，而每臺(tái)抓取服務(wù)器上可能部署了若干套爬蟲(chóng)程序。這就構(gòu)成了一個(gè)基本的分布式抓取系統(tǒng)。

對(duì)于一個(gè)數(shù)據(jù)中心內(nèi)的不同抓去服務(wù)器，協(xié)同工作的方式有幾種：

1.主從式（Master-Slave）

主從式基本結(jié)構(gòu)如圖所示：

對(duì)于主從式而言，有一臺(tái)專門的Master服務(wù)器來(lái)維護(hù)待抓取URL隊(duì)列，它負(fù)責(zé)每次將URL分發(fā)到不同的Slave服務(wù)器，而Slave服務(wù)器則負(fù)責(zé)實(shí)際的網(wǎng)頁(yè)下載工作。Master服務(wù)器除了維護(hù)待抓取URL隊(duì)列以及分發(fā)URL之外，還要負(fù)責(zé)調(diào)解各個(gè)Slave服務(wù)器的負(fù)載情況。以免某些Slave服務(wù)器過(guò)于清閑或者勞累。

這種模式下，Master往往容易成為系統(tǒng)瓶頸。

2.對(duì)等式（Peer toPeer）

對(duì)等式的基本結(jié)構(gòu)如圖所示：

在這種模式下，所有的抓取服務(wù)器在分工上沒(méi)有不同。每一臺(tái)抓取服務(wù)器都可以從待抓取在URL隊(duì)列中獲取URL，然后對(duì)該URL的主域名的hash值H，然后計(jì)算H mod m（其中m是服務(wù)器的數(shù)量，以上圖為例，m為3），計(jì)算得到的數(shù)就是處理該URL的主機(jī)編號(hào)。

舉例：假設(shè)對(duì)于URLwww.baidu.com，計(jì)算器hash值H=8，m=3，則H mod m=2，因此由編號(hào)為2的服務(wù)器進(jìn)行該鏈接的抓取。假設(shè)這時(shí)候是0號(hào)服務(wù)器拿到這個(gè)URL，那么它將該URL轉(zhuǎn)給服務(wù)器2，由服務(wù)器2進(jìn)行抓取。

這種模式有一個(gè)問(wèn)題，當(dāng)有一臺(tái)服務(wù)器死機(jī)或者添加新的服務(wù)器，那么所有URL的哈希求余的結(jié)果就都要變化。也就是說(shuō)，這種方式的擴(kuò)展性不佳。針對(duì)這種情況，又有一種改進(jìn)方案被提出來(lái)。這種改進(jìn)的方案是一致性哈希法來(lái)確定服務(wù)器分工。其基本結(jié)構(gòu)如圖所示：

一致性哈希將URL的主域名進(jìn)行哈希運(yùn)算，映射為一個(gè)范圍在0-232之間的某個(gè)數(shù)。而將這個(gè)范圍平均的分配給m臺(tái)服務(wù)器，根據(jù)URL主域名哈希運(yùn)算的值所處的范圍判斷是哪臺(tái)服務(wù)器來(lái)進(jìn)行抓取。

如果某一臺(tái)服務(wù)器出現(xiàn)問(wèn)題，那么本該由該服務(wù)器負(fù)責(zé)的網(wǎng)頁(yè)則按照順時(shí)針順延，由下一臺(tái)服務(wù)器進(jìn)行抓取。這樣的話，及時(shí)某臺(tái)服務(wù)器出現(xiàn)問(wèn)題，也不會(huì)影響其他的工作。

到此這篇關(guān)于Python網(wǎng)絡(luò)爬蟲(chóng)的基本原理解析的文章就介紹到這了,更多相關(guān)Python爬蟲(chóng)基本原理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python網(wǎng)絡(luò)爬蟲(chóng)的基本原理解析

目錄

一、網(wǎng)絡(luò)爬蟲(chóng)的基本結(jié)構(gòu)及工作流程

二、從爬蟲(chóng)的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分