欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用PHP制作簡(jiǎn)單的內(nèi)容采集器的代碼

 更新時(shí)間:2007年11月28日 22:28:46   作者:  
采集器,通常又叫小偷程序,主要是用來(lái)抓取別人網(wǎng)頁(yè)內(nèi)容的。關(guān)于采集器的制作,其實(shí)并不難,就是遠(yuǎn)程打開(kāi)要采集的網(wǎng)頁(yè),然后用正則表達(dá)式將需要的內(nèi)容匹配出來(lái),只要稍微有點(diǎn)正則表達(dá)式的基礎(chǔ),都能做出自己的采集器來(lái)的。 

  前幾天做了個(gè)小說(shuō)連載的程序,因?yàn)榕赂侣闊槑Ь蛯懥藗€(gè)采集器,采集八路中文網(wǎng)的,功能比較簡(jiǎn)單,不能自定義規(guī)則,不過(guò)大概思路都在里面了,自定義規(guī)則可以自己來(lái)擴(kuò)展。 

  用php來(lái)做采集器主要用到兩個(gè)函數(shù):file_get_contents()和preg_match_all(),前一個(gè)是遠(yuǎn)程讀取網(wǎng)頁(yè)內(nèi)容的,不過(guò)只在php5以上的版本才能用,后一個(gè)是正則函數(shù),用來(lái)提取需要的內(nèi)容的。 

  下面就一步一步來(lái)講功能實(shí)現(xiàn)。 

  因?yàn)槭遣杉≌f(shuō),所以首先要將書(shū)名、作者、類型這三個(gè)提取出來(lái),別的信息可根據(jù)需要提取。

  這里以《回到明朝當(dāng)王爺》為目標(biāo),先打開(kāi)書(shū)目頁(yè),鏈接:http://www.86zw.com/Book/3727/Index.aspx

  多打開(kāi)幾本書(shū)會(huì)發(fā)現(xiàn),書(shū)名的基本格式是:http://www.86zw.com/Book/書(shū)號(hào)/Index.aspx,于是我們可以做一個(gè)開(kāi)始頁(yè),定義一個(gè)<input type=text name=number>,用來(lái)輸入需要采集的書(shū)號(hào),以后就可以通過(guò)$_POST[‘number']這種格式來(lái)接收需要采集的書(shū)號(hào)了。接收到書(shū)號(hào),下面要做的就是構(gòu)造書(shū)目頁(yè):$url=http://www.86zw.com/Book/$_POST[‘number']/Index.aspx,當(dāng)然這里是舉個(gè)例子,主要是為了講解方便,實(shí)際制作的時(shí)候最好檢查一下$_POST[‘number']的合法性。 

  構(gòu)造好URL以后就可以開(kāi)始采集書(shū)籍信息了。使用file_get_contents() 函數(shù)打開(kāi)書(shū)目頁(yè):$content=file_get_contents($url),這樣就能將書(shū)目頁(yè)的內(nèi)容都讀取出來(lái)了。接下來(lái)就是將書(shū)名、作者和類型等信息匹配出來(lái)了。這里就以書(shū)名為例,其他的都一樣。 打開(kāi)書(shū)目頁(yè),查看源文件,找到“<span class="booktitle">《回到明朝當(dāng)王爺》</span>”,這就是要提取出來(lái)的書(shū)名了。提取書(shū)名的正則表達(dá)式:/<span class=\"newstitle\">(.*?)\<\/span>/is,使用preg_match_all()函數(shù)將書(shū)名取出:preg_match_all("/<span class=\"newstitle\">(.*?)\<\/span>/is",$contents,$title);這樣$title[0][0]的內(nèi)容就是我們要的標(biāo)題了(preg_match_all函數(shù)的用法可以去百度查,這里就不詳細(xì)說(shuō)明了)。取出了書(shū)籍信息,接下來(lái)就是取章節(jié)內(nèi)容了,要取章節(jié)內(nèi)容,首先要做的就是找到每一章的地址,然后遠(yuǎn)程打開(kāi)章節(jié),用正則將內(nèi)容取出來(lái),入庫(kù)或者直接生成html靜態(tài)文件。這個(gè)是章節(jié)列表的地址:http://www.86zw.com/Html/Book/18/3727/List.shtm,可以看出這個(gè)和書(shū)目頁(yè)一樣,是有規(guī)律可尋的:http://www.86zw.com/Html/Book/分類號(hào)/書(shū)號(hào)/List.shtm。書(shū)號(hào)前面已經(jīng)取得,這里的關(guān)鍵是找到分類號(hào),分類號(hào)可以在前面的書(shū)目頁(yè)找到,提取分類號(hào):

  preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);這樣還不夠,還需要一個(gè)切取函數(shù):
PHP代碼如下:
復(fù)制代碼 代碼如下:

function cut($string,$start,$end){ 
$message = explode($start,$string); 
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容,$start為開(kāi)始的地方,$end為結(jié)束的地方。取出分類號(hào): 

$start = "Html/Book/"; 
$end 
= "List.shtm"; 
$typeid = cut($typeid[0][0],$start,$end); 
$typeid = explode("/",$typeid);[/php]  

  這樣,$typeid[0]就是我們要找的分類號(hào)了。接下來(lái)就是構(gòu)造章節(jié)列表的地址了:$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個(gè)就能找到每一章節(jié)的地址了。方法如下:

復(fù)制代碼 代碼如下:

$ustart = "\"";  
$uend 
= "\"";  
//t表示title的縮寫 
$tstart = ">";  
$tend 
= "<";  
//取路徑,例如:123.shtm,2342.shtm,233.shtm 
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);  
//取標(biāo)題,例如:第一章 九世善人 
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);  
$count = count($url[0]); 
for($i=0;$i<=$count;$i++) 

$u = cut($url[0][$i],$ustart,$uend); 
$t = cut($title[0][$i],$tstart,$tend); 
$array[$u] = $t; 
}  


  $array數(shù)組就是所有的章節(jié)地址了,到這里,采集器就完成一半了,剩下的就是循環(huán)打開(kāi)每個(gè)章節(jié)地址,讀取,然后將內(nèi)容匹配出來(lái)。這個(gè)比較簡(jiǎn)單,這里就不詳細(xì)敘述了。好了,今天就先寫到這吧,第一次寫這么長(zhǎng)的文章,語(yǔ)言組織方面難免有問(wèn)題,還請(qǐng)大家多包涵!
本篇文章來(lái)源于 站長(zhǎng)資訊網(wǎng) 原文鏈接:http://webdevelop.chinahtml.com/2/2007/php-119440156516960.shtml

相關(guān)文章

  • 微信公眾號(hào)點(diǎn)擊菜單即可打開(kāi)并登錄微站的實(shí)現(xiàn)方法

    微信公眾號(hào)點(diǎn)擊菜單即可打開(kāi)并登錄微站的實(shí)現(xiàn)方法

    這篇文章主要介紹了微信公眾號(hào)點(diǎn)擊菜單即可打開(kāi)并登錄微站的實(shí)現(xiàn)方法,以實(shí)例形式對(duì)回調(diào)、菜單及參數(shù)的處理等具體實(shí)現(xiàn)步驟與功能代碼都做了較為詳細(xì)的描述,對(duì)于微信公眾號(hào)的開(kāi)發(fā)來(lái)說(shuō)具有很好的參考借鑒價(jià)值,需要的朋友可以參考下
    2014-11-11
  • PHP技術(shù)開(kāi)發(fā)技巧分享

    PHP技術(shù)開(kāi)發(fā)技巧分享

    本文檔的閱讀對(duì)象是有一定經(jīng)驗(yàn)的PHP程序員,文檔中將介紹在PHP開(kāi)發(fā)中的一些開(kāi)發(fā)技巧,希望能對(duì)讀者有一定的啟發(fā)。
    2010-03-03
  • php使用PDO操作MySQL數(shù)據(jù)庫(kù)實(shí)例

    php使用PDO操作MySQL數(shù)據(jù)庫(kù)實(shí)例

    這篇文章主要介紹了php使用PDO操作MySQL數(shù)據(jù)庫(kù),實(shí)例分析了PDO的開(kāi)啟與針對(duì)MySQL數(shù)據(jù)庫(kù)的增刪改查等基本操作方法,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2014-12-12
  • PHP設(shè)計(jì)模式之模板模式定義與用法詳解

    PHP設(shè)計(jì)模式之模板模式定義與用法詳解

    這篇文章主要介紹了PHP設(shè)計(jì)模式之模板模式定義與用法,較為詳細(xì)的說(shuō)明了模板模式的原理、功能、應(yīng)用及php定義、使用模板模式的相關(guān)操作技巧,代碼簡(jiǎn)單易懂,需要的朋友可以參考下
    2018-12-12
  • PHP 字符串分割和比較

    PHP 字符串分割和比較

    比較兩個(gè)字符串是否相等,最常見(jiàn)的方法就是使用“===”來(lái)判斷,至于它和“==”的區(qū)別,簡(jiǎn)單來(lái)說(shuō)就是前者強(qiáng)調(diào)“Identical”類型也要求一樣;后者要求“Equal”,值相同就可以了。
    2009-10-10
  • 詳解PHP中mb_strpos的使用

    詳解PHP中mb_strpos的使用

    這篇文章主要介紹了詳解PHP中mb_strpos的使用,通過(guò)使用語(yǔ)法以及實(shí)例給大家詳細(xì)分析了用法,需要的朋友參考學(xué)習(xí)下。
    2018-02-02
  • php提交表單發(fā)送郵件的方法

    php提交表單發(fā)送郵件的方法

    這篇文章主要介紹了php提交表單發(fā)送郵件的方法,實(shí)例分析了php操作表單發(fā)送郵件的技巧,非常具有實(shí)用價(jià)值,需要的朋友可以參考下
    2015-03-03
  • 解析PHPExcel使用的常用說(shuō)明以及把PHPExcel整合進(jìn)CI框架的介紹

    解析PHPExcel使用的常用說(shuō)明以及把PHPExcel整合進(jìn)CI框架的介紹

    本篇文章是對(duì)PHPExcel使用的常用說(shuō)明以及把PHPExcel整合進(jìn)CI框架的方法進(jìn)行了詳細(xì)的分析介紹,需要的朋友參考下
    2013-06-06
  • PHP+JQUERY操作JSON實(shí)例

    PHP+JQUERY操作JSON實(shí)例

    這篇文章主要介紹了PHP+JQUERY操作JSON的方法,結(jié)合具體實(shí)例形式分析了php+jQuery結(jié)合ajax實(shí)現(xiàn)json格式數(shù)據(jù)操作的相關(guān)技巧,需要的朋友可以參考下
    2017-03-03
  • 基于php常用函數(shù)總結(jié)(數(shù)組,字符串,時(shí)間,文件操作)

    基于php常用函數(shù)總結(jié)(數(shù)組,字符串,時(shí)間,文件操作)

    本篇文章是對(duì)php常用函數(shù)(數(shù)組,字符串,時(shí)間,文件操作)進(jìn)行了詳細(xì)的總結(jié)介紹,需要的朋友參考下
    2013-06-06

最新評(píng)論