快捷導(dǎo)航

Python構(gòu)建網(wǎng)頁爬蟲原理分析

更新時(shí)間：2017年12月19日 14:17:33 投稿：laozhang

這篇文章主要給大家講解了構(gòu)建網(wǎng)頁爬蟲的技術(shù)原理以及實(shí)現(xiàn)的邏輯關(guān)系，有興趣的朋友閱讀下吧。

既然本篇文章說到的是Python構(gòu)建網(wǎng)頁爬蟲原理分析，那么小編先給大家看一下Python中關(guān)于爬蟲的精選文章：

網(wǎng)絡(luò)爬蟲是當(dāng)今最常用的系統(tǒng)之一。最流行的例子是 Google 使用爬蟲從所有網(wǎng)站收集信息。除了搜索引擎之外，新聞網(wǎng)站還需要爬蟲來聚合數(shù)據(jù)源?？磥恚灰阆刖酆洗罅康男畔?，你可以考慮使用爬蟲。

建立一個(gè)網(wǎng)絡(luò)爬蟲有很多因素，特別是當(dāng)你想擴(kuò)展系統(tǒng)時(shí)。這就是為什么這已經(jīng)成為最流行的系統(tǒng)設(shè)計(jì)面試問題之一。在這篇文章中，我們將討論從基本爬蟲到大型爬蟲的主題，并討論在面試中可能會(huì)遇到的各種問題。

1 - 基本解決方案

如何建立一個(gè)基本的網(wǎng)絡(luò)爬蟲？

在系統(tǒng)設(shè)計(jì)面試之前，我們已經(jīng)在《系統(tǒng)設(shè)計(jì)面試之前需要知道的八件事》中談到，就是從簡單的東西開始。讓我們專注于構(gòu)建在單線程上運(yùn)行的基本網(wǎng)頁爬蟲。有了這個(gè)簡單的解決方案，我們可以繼續(xù)優(yōu)化。

要抓取單個(gè)網(wǎng)頁，我們只需要向相應(yīng)的 URL 發(fā)出 HTTP GET 請(qǐng)求，并解析響應(yīng)數(shù)據(jù)，這是抓取工具的核心。考慮到這一點(diǎn)，一個(gè)基本的網(wǎng)絡(luò)爬蟲可以這樣工作：

以包含我們要抓取的所有網(wǎng)站的網(wǎng)址池開始。

對(duì)于每個(gè) URL，發(fā)出 HTTP GET 請(qǐng)求來獲取網(wǎng)頁內(nèi)容。

解析內(nèi)容（通常為 HTML）并提取我們想要抓取的潛在網(wǎng)址。

添加新的網(wǎng)址到池中，并不斷抓取。

這取決于具體問題，有時(shí)我們可能會(huì)有一個(gè)獨(dú)立的系統(tǒng)來生成抓取網(wǎng)址。例如，一個(gè)程序可以不斷監(jiān)聽 RSS 訂閱，并且對(duì)于每個(gè)新文章，都可以將該 URL 添加到爬取池中。

2 - 規(guī)模問題

眾所周知，任何系統(tǒng)在擴(kuò)展后都會(huì)面臨一系列問題。在網(wǎng)絡(luò)爬蟲中，將系統(tǒng)擴(kuò)展到多臺(tái)機(jī)器時(shí)，有很多東西可能出錯(cuò)。

在跳轉(zhuǎn)到下一節(jié)之前，請(qǐng)花幾分鐘的時(shí)間思考一下分布式網(wǎng)絡(luò)爬蟲的瓶頸，以及如何解決這個(gè)問題。在這篇文章的其余部分，我們將討論解決方案的幾個(gè)主要問題。

3 - 抓取頻率

你多久爬一次網(wǎng)站？

這聽起來可能不是什么大事，除非系統(tǒng)達(dá)到一定的規(guī)模，而且你需要非常新鮮的內(nèi)容。例如，如果你想要獲取上一小時(shí)的最新消息，則抓取工具可能需要每隔一小時(shí)不斷抓取新聞網(wǎng)站。但是這有什么問題呢？

對(duì)于一些小型網(wǎng)站，他們的服務(wù)器很可能無法處理這種頻繁的請(qǐng)求。一種方法是遵循每個(gè)站點(diǎn)的robot.txt。對(duì)于不知道robot.txt是什么的人，這基本是網(wǎng)站與網(wǎng)絡(luò)爬蟲交流的標(biāo)準(zhǔn)。它可以指定不應(yīng)該抓取什么文件，大多數(shù)網(wǎng)絡(luò)爬蟲都遵循配置。另外，你可以為不同的網(wǎng)站設(shè)置不同的抓取頻率。通常，每天只有幾個(gè)網(wǎng)站需要被多次抓取。

4 - 去重

在一臺(tái)機(jī)器上，你可以將 URL 池保留在內(nèi)存中，并刪除重復(fù)的條目。但是，分布式系統(tǒng)中的事情變得更加復(fù)雜?；旧?，多個(gè)爬蟲可以從不同的網(wǎng)頁中提取相同的 URL，他們都希望將這個(gè) URL 添加到 URL 池中。當(dāng)然，多次抓取同一頁面是沒有意義的。那么我們?nèi)绾稳ブ貜?fù)這些網(wǎng)址？

一種常用的方法是使用 Bloom Filter。簡而言之，布隆過濾器是一個(gè)節(jié)省空間的系統(tǒng)，它允許你測(cè)試一個(gè)元素是否在一個(gè)集合中。但是，它可能有誤報(bào)。換句話說，如果布隆過濾器可以告訴你一個(gè) URL 絕對(duì)不在池中，或者可能在池中。

為了簡要地解釋布隆過濾器是如何工作的，空布隆過濾器是m位（全0）的位數(shù)組。還有k個(gè)散列函數(shù)，將每個(gè)元素映射到m位中的一個(gè)。所以當(dāng)我們?cè)诓悸∵^濾器中添加一個(gè)新的元素（URL）時(shí)，我們將從哈希函數(shù)中得到k位，并將它們?nèi)吭O(shè)置為1.因此，當(dāng)我們檢查一個(gè)元素的存在時(shí)，我們首先得到k位，如果它們中的任何一個(gè)不是1，我們立即知道該元素不存在。但是，如果所有的k位都是1，這可能來自其他幾個(gè)元素的組合。

布隆過濾器是一個(gè)非常常用的技術(shù)，它是一個(gè)完美的解決方案，用于在網(wǎng)絡(luò)爬蟲中去重網(wǎng)址。

5 - 解析

從網(wǎng)站獲取響應(yīng)數(shù)據(jù)后，下一步是解析數(shù)據(jù)（通常是 HTML）來提取我們所關(guān)心的信息。這聽起來像一個(gè)簡單的事情，但是，可能很難使其健壯。

我們面臨的挑戰(zhàn)是，你總是會(huì)在 HTML 代碼中發(fā)現(xiàn)奇怪的標(biāo)記，URL 等，很難涵蓋所有的邊界情況。例如，當(dāng) HTML 包含非 Unicode 字符時(shí)，你可能需要處理編解碼問題。另外，當(dāng)網(wǎng)頁包含圖片，視頻甚至PDF 時(shí)，也會(huì)造成奇怪的行為。

另外，一些網(wǎng)頁都像使用 AngularJS 一樣通過 Javascript 呈現(xiàn)，你的抓取工具可能無法得到任何內(nèi)容。

我會(huì)說沒有銀彈，不能為所有的網(wǎng)頁做一個(gè)完美的，健壯的爬蟲。你需要大量的健壯性測(cè)試，以確保它能夠按預(yù)期工作。

總結(jié)

還有很多我還沒有涉及到的有趣的話題，但是我想提一下其中的一些，這樣你就可以思考了。有一件事是檢測(cè)循環(huán)。許多網(wǎng)站包含鏈接，如A->B->C->A，你的爬蟲可能會(huì)永遠(yuǎn)運(yùn)行。想想如何解決這個(gè)問題？

另一個(gè)問題是 DNS 查找。當(dāng)系統(tǒng)擴(kuò)展到一定的水平時(shí)，DNS 查找可能是一個(gè)瓶頸，你可能要建立自己的 DNS 服務(wù)器。

與許多其他系統(tǒng)類似，擴(kuò)展的網(wǎng)絡(luò)爬蟲可能比構(gòu)建單個(gè)機(jī)器版本困難得多，并且在系統(tǒng)設(shè)計(jì)面試中可以討論許多事情。嘗試從一些樸素的解決方案開始，并繼續(xù)優(yōu)化它，這可以使事情變得比看起來更容易。

以上就是我們總結(jié)的關(guān)于網(wǎng)頁爬蟲的相關(guān)文章內(nèi)容，大家如果還有其他想知道的可以在下方的留言區(qū)域討論，感謝大家對(duì)腳本之家的支持。

您可能感興趣的文章: