欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

采集教程及采集分頁設(shè)置問題

 更新時間:2007年03月06日 00:00:00   作者:  
其實采集可以這么理解,定義頭和尾,除了在截取鏈接不需要檢測,在其它地方你定義的頭和尾,在同一個html表里不能有相同的,為什么不能有相同的呢?是因為采集的每一步(除了截取鏈接外)都是根據(jù)你所定義的頭和尾來截取頁面內(nèi)容的。所以你在定義頭和尾不僅不能有相同的,還要盡可能地把不需要的內(nèi)容排除開。如果你理解了這個定義頭和尾,基本上對于簡單的頁面是能采集的。下面我以一個實例來說明一下:


以下內(nèi)容為程序代碼:

新聞列表網(wǎng)址:http://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htm
列表開始代碼: <td style="padding-left:6px;"><table  border="0" cellpadding="0" cellspacing="0" class="table_logo">
列表結(jié)束代碼:    <td height="5" colspan="2"></td>
鏈接開始代碼:·<a target="_blank" href="
鏈接結(jié)束代碼:">
標(biāo)題開始標(biāo)記:<title>
標(biāo)題結(jié)束標(biāo)記:</title>
正文開始標(biāo)記:<div id="ArticleCnt">
正文結(jié)束標(biāo)記:<div id="ArticleTopic"></div>


上面所采集的頁面是比較標(biāo)準(zhǔn)的?,F(xiàn)在來分析一下:

列表網(wǎng)址:就是你要采集的頁面,這一步很關(guān)鍵,以前這一步我是亂搞,現(xiàn)在發(fā)現(xiàn)這一步關(guān)系到你能否采集完所有內(nèi)容。一般你進(jìn)入采集頁面先判斷一下是不是有多頁,如果有多頁你進(jìn)入第二頁和第一頁是不是有規(guī)律變化,比如是:xxxx_1.htm,xxx_2.htm,特別注意數(shù)字,如果第一頁開始就有_id的規(guī)律,那就把第一頁作為列表網(wǎng)址,如果第一頁與第二頁沒相關(guān)規(guī)律,而是從第二頁開始才能這樣的規(guī)律,那將第二頁作為列表網(wǎng)址,第一頁放到一邊,等所有數(shù)據(jù)采集完了,再來采集單獨頁面,反正以后也只采集第一頁,為啥?因為一般更新的都在第一頁。

列表開始與結(jié)束:這里就是向采集程序說明你要采集的內(nèi)容大概方向,比如上例里的列表網(wǎng)址,里面有好多內(nèi)容,我只采集右邊的新聞,這時你可以搜索第一條新聞,向上看,找段在這個HTML文件里唯一的內(nèi)容,這里定義頭和尾要值得注意的是:空格也算的。比如<a href前有四個空格,這也算個特征,反正不管怎么樣,只要是全文僅有的就行。同樣方法,只是這次搜索最后一條新聞,定位一下,省得全文亂找,浪費時間,往下推找個全文僅有的代碼,

鏈接開始與結(jié)束,這里你得看一下采集頁面了,然后再看HTML文件,一般是<a href=   開始,>結(jié)束。中間的內(nèi)容就讓采集程序幫你去放
到這里已經(jīng)接近成功了,這時為了保險一點,隨機點五個頁面,找五個頁面的共同點,把標(biāo)題開始與結(jié)束,正文開始與結(jié)束填一下,
最后測試一下。應(yīng)該可以了吧。

下面談?wù)劮猪?,分頁有二種,一種是采集頁的分頁,另一種是文章內(nèi)容的分頁。

采集頁的分頁:

例:

以下內(nèi)容為程序代碼:

新聞列表網(wǎng)址:http://www.pconline.com.cn/mobile/news/hgxz/index_1.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_1.html
列表開始代碼:1px solid; ">文章列表 </TD>
列表結(jié)束代碼: <DIV ALIGN="CENTER">
列表索引分頁: 批量生成:http://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.html
生成范圍:4to1
鏈接開始代碼:<a href="
鏈接結(jié)束代碼:target="_blank"
標(biāo)題開始標(biāo)記:<title>
標(biāo)題結(jié)束標(biāo)記:-太平洋電腦網(wǎng)Pconline-[手機新品速遞]</title>
正文開始標(biāo)記:廣告:ad_top</IFRAME>
正文結(jié)束標(biāo)記:<br clear=all>


請注意列表網(wǎng)址與列表索引分頁鏈接的不同之處:就是將index_1.html改為了index_{$ID}.html,
生成范圍:這里有多少頁就?to?,有二種選擇,由后到前,前到后,隨便你喜好。

內(nèi)容頁的分頁:

例:

以下內(nèi)容為程序代碼:

新聞列表網(wǎng)址:http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146
列表開始代碼:<td class="filter4" width="350"><font color="#FFFFFF">手機資訊
列表結(jié)束代碼:  <td height="2"></td>
批量生成: http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146
生成范圍:10to1(這樣的好處最新新聞在前面,不然剛好跟采集頁面相反,最后一頁為最新新聞)
鏈接開始代碼:<td><a href="
鏈接結(jié)束代碼:target="_blank"
標(biāo)題開始標(biāo)記:<strong class="p24">
標(biāo)題結(jié)束標(biāo)記:   <td align="center">(這里要把前面的空格一起復(fù)制了,不然會出現(xiàn)錯誤)
正文開始標(biāo)記:<table width="100%" border="0" cellspacing="0" cellpadding="2" align="center">
正文結(jié)束標(biāo)記:<p id="adv_under_cont"></p>
下頁開始標(biāo)記:           <a href="./(找到下一頁,把<a href="./的空格也復(fù)制了)
下頁結(jié)束標(biāo)記:">下一頁</a>

請注意下頁開始與結(jié)束:找到分頁代碼,找到下一頁的代碼:定義好下一頁開始與結(jié)束就OK。這里多試幾次,因為這里代碼可選擇范圍小。 

相關(guān)文章

最新評論