快捷導(dǎo)航

Java爬蟲技術(shù)框架之Heritrix框架詳解

更新時(shí)間：2020年07月22日 17:20:58 作者：moonsoft

這篇文章主要介紹了爬蟲技術(shù)框架之Heritrix框架詳解，文中通過示例介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

Heritrix是一個(gè)由Java開發(fā)的開源Web爬蟲系統(tǒng)，用來獲取完整的、精確的站點(diǎn)內(nèi)容的深度復(fù)制，

具有強(qiáng)大的可擴(kuò)展性，運(yùn)行開發(fā)者任意選擇或擴(kuò)展各個(gè)組件，實(shí)現(xiàn)特定的抓取邏輯。

一、Heritrix介紹

Heritrix采用了模塊化的設(shè)計(jì)，用戶可以在運(yùn)行時(shí)選擇要用的模塊。它由核心類（core classes）和插件模塊（pluggable modules）構(gòu)成。

核心類可以配置，但不能被覆蓋，插件模塊可以由第三方模塊取代。所以我們就可以用實(shí)現(xiàn)了特定抓取邏輯的第三方模塊來取代默認(rèn)的插件模塊，從而滿足自己的抓取需要。

CrawlController（下載控制器）整個(gè)下載過程的總控制者，整個(gè)抓取工作的起點(diǎn)，決定整個(gè)抓取任務(wù)的開始和結(jié)束。每個(gè)URI都有一個(gè)獨(dú)立的線程，它從邊界控制器（Frontier）獲取新的URI，然后傳遞給Processor chains（處理鏈）經(jīng)過一系列Processor（處理器）處理。

二、Heritrix架構(gòu)

中央控制器 CrawlController 是核心組件，決定了整個(gè)抓取任務(wù)的開始與結(jié)束。

用戶在 Heritrix web UI 控制臺(tái)設(shè)置抓取任務(wù)后，heritrix首先構(gòu)造XMLSettingsHandler對(duì)象，然后調(diào)用CrawlController的構(gòu)造函數(shù)，構(gòu)造一個(gè)CrawlController實(shí)例并初始化，這樣，CrawlController就具備了運(yùn)行條件。

此時(shí)，只需調(diào)用 requestCrawlStart()方法就可以啟動(dòng)線程池和Frontier，以便向線程池中工作線程提供抓取用的URL鏈接。

Heritrix 3.x 的框架主要分為 Engine 和 Component

三、一些API

org.archive.crawler.framework.CrawlJob;

org.archive.crawler.postprocessor.CandidatesProcessor;
org.archive.modules.CrawlURI;

等等

抓取任務(wù)CrawlOrder類：是整個(gè)抓取工作的起點(diǎn)。一次抓取任務(wù)包括許多屬性，建立一個(gè)任務(wù)的方式有很多種，最簡(jiǎn)單的一種就是根據(jù)默認(rèn)的order.xml來配置。

中央控制器CrawlController：該類決定著抓取任務(wù)的開始和結(jié)束。它包含以下幾個(gè)組件：

CrawlOrder：該類保存了order.xml的屬性配置；

CrawlScope：決定當(dāng)前抓取范圍；

ProcessorChainList：處理器鏈；

Frontier：一次抓取任務(wù)需要設(shè)定一個(gè)Frontier，以此來不斷為其每個(gè)線程提供URI；

ToePool：它是一個(gè)線程池，管理了所有在當(dāng)前任務(wù)中抓取過的Host名稱和Server名稱。

中央控制器CrawlControllr的類結(jié)構(gòu)如圖所示：

Frontier鏈接制造工廠：它表示一種為線程提供鏈接的工具，通過一些特定的算法來決定哪個(gè)鏈接將接下來被送入處理器鏈中，同時(shí)，它本身也負(fù)責(zé)一定的日志和狀態(tài)報(bào)告功能。

BdbFrontier類：它是用Berkeley DB 實(shí)現(xiàn)的，Berkeley DB 就是一個(gè)HashTable，它能夠按“key/value”方式保存數(shù)據(jù)，能夠?yàn)閼?yīng)用程序提供可伸縮的、高性能的、有事務(wù)保護(hù)功能的嵌入式數(shù)據(jù)庫(kù)。

Heritrix的多線程ToeThread和ToePool：要想更快更有效地抓取網(wǎng)頁(yè)，必須采用多線程，Heritrix則采用多線程機(jī)制，提供了一個(gè)標(biāo)準(zhǔn)的線程池ToePool，用于管理所有的抓取線程。

處理器鏈 Processor：包括PreProcessor、Fetcher、Extractor、Writer、PostProcessor五種。

四、應(yīng)用

作為爬蟲模塊，爬取數(shù)據(jù)