利用PHP制作簡單的內容采集器的代碼

更新時間：2007年11月28日 22:28:46 作者：

采集器，通常又叫小偷程序，主要是用來抓取別人網頁內容的。關于采集器的制作，其實并不難，就是遠程打開要采集的網頁，然后用正則表達式將需要的內容匹配出來，只要稍微有點正則表達式的基礎，都能做出自己的采集器來的。

　　前幾天做了個小說連載的程序，因為怕更新麻煩，順帶就寫了個采集器，采集八路中文網的，功能比較簡單，不能自定義規(guī)則，不過大概思路都在里面了，自定義規(guī)則可以自己來擴展。

　　用php來做采集器主要用到兩個函數：file_get_contents()和preg_match_all()，前一個是遠程讀取網頁內容的，不過只在php5以上的版本才能用，后一個是正則函數，用來提取需要的內容的。

　　下面就一步一步來講功能實現(xiàn)。

　　因為是采集小說，所以首先要將書名、作者、類型這三個提取出來，別的信息可根據需要提取。

　　這里以《回到明朝當王爺》為目標，先打開書目頁，鏈接：http://www.86zw.com/Book/3727/Index.aspx

　　多打開幾本書會發(fā)現(xiàn)，書名的基本格式是：http://www.86zw.com/Book/書號/Index.aspx，于是我們可以做一個開始頁，定義一個<input type=text name=number>，用來輸入需要采集的書號，以后就可以通過$_POST[‘number']這種格式來接收需要采集的書號了。接收到書號，下面要做的就是構造書目頁：$url=http://www.86zw.com/Book/$_POST[‘number']/Index.aspx，當然這里是舉個例子，主要是為了講解方便，實際制作的時候最好檢查一下$_POST[‘number']的合法性。

　　構造好URL以后就可以開始采集書籍信息了。使用file_get_contents() 函數打開書目頁：$content=file_get_contents（$url），這樣就能將書目頁的內容都讀取出來了。接下來就是將書名、作者和類型等信息匹配出來了。這里就以書名為例，其他的都一樣。打開書目頁，查看源文件，找到“<span class="booktitle">《回到明朝當王爺》</span>”，這就是要提取出來的書名了。提取書名的正則表達式：/<span class=\"newstitle\">(.*?)\<\/span>/is，使用preg_match_all()函數將書名取出：preg_match_all("/<span class=\"newstitle\">(.*?)\<\/span>/is",$contents,$title);這樣$title[0][0]的內容就是我們要的標題了（preg_match_all函數的用法可以去百度查，這里就不詳細說明了）。取出了書籍信息，接下來就是取章節(jié)內容了，要取章節(jié)內容，首先要做的就是找到每一章的地址，然后遠程打開章節(jié)，用正則將內容取出來，入庫或者直接生成html靜態(tài)文件。這個是章節(jié)列表的地址：http://www.86zw.com/Html/Book/18/3727/List.shtm，可以看出這個和書目頁一樣，是有規(guī)律可尋的：http://www.86zw.com/Html/Book/分類號/書號/List.shtm。書號前面已經取得，這里的關鍵是找到分類號，分類號可以在前面的書目頁找到，提取分類號：

　　preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);這樣還不夠，還需要一個切取函數：
PHP代碼如下:

復制代碼代碼如下:

function cut($string,$start,$end){  
$message = explode($start,$string);  
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容，$start為開始的地方，$end為結束的地方。取出分類號：  

$start = "Html/Book/";  
$end  
= "List.shtm";  
$typeid = cut($typeid[0][0],$start,$end);  
$typeid = explode("/",$typeid);[/php]  

　　這樣，$typeid[0]就是我們要找的分類號了。接下來就是構造章節(jié)列表的地址了：$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個就能找到每一章節(jié)的地址了。方法如下：

復制代碼代碼如下:

$ustart = "\"";   
$uend  
= "\"";   
//t表示title的縮寫  
$tstart = ">";   
$tend  
= "<";   
//取路徑,例如:123.shtm,2342.shtm,233.shtm  
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);   
//取標題,例如:第一章 九世善人  
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);   
$count = count($url[0]);  
for($i=0;$i<=$count;$i++)  
{  
$u = cut($url[0][$i],$ustart,$uend);  
$t = cut($title[0][$i],$tstart,$tend);  
$array[$u] = $t;  
}  

　　$array數組就是所有的章節(jié)地址了，到這里，采集器就完成一半了，剩下的就是循環(huán)打開每個章節(jié)地址，讀取，然后將內容匹配出來。這個比較簡單，這里就不詳細敘述了。好了，今天就先寫到這吧，第一次寫這么長的文章，語言組織方面難免有問題，還請大家多包涵！
本篇文章來源于站長資訊網原文鏈接：http://webdevelop.chinahtml.com/2/2007/php-119440156516960.shtml