快捷導(dǎo)航

利用PHP制作簡(jiǎn)單的內(nèi)容采集器的原理分析

更新時(shí)間：2008年10月01日 00:06:28 作者：

采集器，通常又叫小偷程序，主要是用來(lái)抓取別人網(wǎng)頁(yè)內(nèi)容的。關(guān)于采集器的制作，其實(shí)并不難，就是遠(yuǎn)程打開(kāi)要采集的網(wǎng)頁(yè)，然后用正則表達(dá)式將需要的內(nèi)容匹配出來(lái)，只要稍微有點(diǎn)正則表達(dá)式的基礎(chǔ)，都能做出自己的采集器來(lái)的。

前幾天做了個(gè)小說(shuō)連載的程序，因?yàn)榕赂侣闊?，順帶就?xiě)了個(gè)采集器，采集八路中文網(wǎng)的，功能比較簡(jiǎn)單，不能自定義規(guī)則，不過(guò)大概思路都在里面了，自定義規(guī)則可以自己來(lái)擴(kuò)展。

　　用php來(lái)做采集器主要用到兩個(gè)函數(shù)：file_get_contents()和preg_match_all()，前一個(gè)是遠(yuǎn)程讀取網(wǎng)頁(yè)內(nèi)容的，不過(guò)只在php5以上的版本才能用，后一個(gè)是正則函數(shù)，用來(lái)提取需要的內(nèi)容的。

　　下面就一步一步來(lái)講功能實(shí)現(xiàn)。

　　因?yàn)槭遣杉≌f(shuō)，所以首先要將書(shū)名、作者、類(lèi)型這三個(gè)提取出來(lái)，別的信息可根據(jù)需要提取。

　　這里以《回到明朝當(dāng)王爺》為目標(biāo)，先打開(kāi)書(shū)目頁(yè)，鏈接：http://www.86zw.com/Book/3727/Index.aspx

　　多打開(kāi)幾本書(shū)會(huì)發(fā)現(xiàn)，書(shū)名的基本格式是：http://www.86zw.com/Book/書(shū)號(hào)/Index.aspx，于是我們可以做一個(gè)開(kāi)始頁(yè)，定義一個(gè)<input type=text name=number>，用來(lái)輸入需要采集的書(shū)號(hào)，以后就可以通過(guò)$_POST[‘number']這種格式來(lái)接收需要采集的書(shū)號(hào)了。接收到書(shū)號(hào)，下面要做的就是構(gòu)造書(shū)目頁(yè)：$url=http://www.86zw.com/Book/$_POST[‘number']/Index.aspx，當(dāng)然這里是舉個(gè)例子，主要是為了講解方便，實(shí)際制作的時(shí)候最好檢查一下$_POST[‘number']的合法性。

　　構(gòu)造好URL以后就可以開(kāi)始采集書(shū)籍信息了。使用file_get_contents() 函數(shù)打開(kāi)書(shū)目頁(yè)：$content=file_get_contents（$url），這樣就能將書(shū)目頁(yè)的內(nèi)容都讀取出來(lái)了。接下來(lái)就是將書(shū)名、作者和類(lèi)型等信息匹配出來(lái)了。這里就以書(shū)名為例，其他的都一樣。打開(kāi)書(shū)目頁(yè)，查看源文件，找到“<span class="booktitle">《回到明朝當(dāng)王爺》</span>”，這就是要提取出來(lái)的書(shū)名了。提取書(shū)名的正則表達(dá)式：/<span class=\"newstitle\">(.*?)\<\/span>/is，使用preg_match_all()函數(shù)將書(shū)名取出：preg_match_all("/<span class=\"newstitle\">(.*?)\<\/span>/is",$contents,$title);這樣$title[0][0]的內(nèi)容就是我們要的標(biāo)題了（preg_match_all函數(shù)的用法可以去百度查，這里就不詳細(xì)說(shuō)明了）。取出了書(shū)籍信息，接下來(lái)就是取章節(jié)內(nèi)容了，要取章節(jié)內(nèi)容，首先要做的就是找到每一章的地址，然后遠(yuǎn)程打開(kāi)章節(jié)，用正則將內(nèi)容取出來(lái)，入庫(kù)或者直接生成html靜態(tài)文件。這個(gè)是章節(jié)列表的地址：http://www.86zw.com/Html/Book/18/3727/List.shtm，可以看出這個(gè)和書(shū)目頁(yè)一樣，是有規(guī)律可尋的：http://www.86zw.com/Html/Book/分類(lèi)號(hào)/書(shū)號(hào)/List.shtm。書(shū)號(hào)前面已經(jīng)取得，這里的關(guān)鍵是找到分類(lèi)號(hào)，分類(lèi)號(hào)可以在前面的書(shū)目頁(yè)找到，提取分類(lèi)號(hào)：

　　preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);這樣還不夠，還需要一個(gè)切取函數(shù):
PHP代碼如下:

function cut($string,$start,$end){
$message = explode($start,$string);
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容，$start為開(kāi)始的地方，$end為結(jié)束的地方。取出分類(lèi)號(hào)：

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$start,$end);
$typeid = explode("/",$typeid);[/php]

　　這樣，$typeid[0]就是我們要找的分類(lèi)號(hào)了。接下來(lái)就是構(gòu)造章節(jié)列表的地址了：$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個(gè)就能找到每一章節(jié)的地址了。方法如下：

$ustart = "\"";
$uend
= "\"";
//t表示title的縮寫(xiě)
$tstart = ">";
$tend
= "<";
//取路徑,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);
//取標(biāo)題,例如:第一章九世善人
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);
$count = count($url[0]);
for($i=0;$i<=$count;$i++)
{
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0][$i],$tstart,$tend);
$array[$u] = $t;
}

　　$array數(shù)組就是所有的章節(jié)地址了，到這里，采集器就完成一半了，剩下的就是循環(huán)打開(kāi)每個(gè)章節(jié)地址，讀取，然后將內(nèi)容匹配出來(lái)。這個(gè)比較簡(jiǎn)單，這里就不詳細(xì)敘述了。好了，今天就先寫(xiě)到這吧，第一次寫(xiě)這么長(zhǎng)的文章，語(yǔ)言組織方面難免有問(wèn)題，還請(qǐng)大家多包涵！