雨哲防采集策略之列表篇
更新時(shí)間:2008年04月29日 22:25:06 作者:
不錯(cuò)的列表頁(yè)防采集方法
在一般的鏈接地址形式如:
1、<a class="鏈接樣式" href="鏈接地址" title="鏈接說(shuō)明" target="_blank">文章標(biāo)題</a>
2、<a class='鏈接樣式' href='鏈接地址' title='鏈接說(shuō)明' target='_blank'>文章標(biāo)題</a>
大家注意看上面兩行代碼,有一個(gè)區(qū)別就是第一個(gè)中間使用的是雙引號(hào),第二個(gè)使用的是單引號(hào)。一般來(lái)說(shuō),如果在文章列表頁(yè)面都使用雙引號(hào)或者使用單引號(hào),很容易讓采集者找到文章路徑(開(kāi)始代碼:href=' ,結(jié)束代碼:' )。
那如果我們混合著用,也就是有的使用單引號(hào),有的使用雙引號(hào),那么就會(huì)給采集者帶來(lái)一定的麻煩。至少他不能采集到所有文章(如果采集程序差一點(diǎn)的話可能一篇也采集不到)。
在上面的基礎(chǔ)上,更深入一步將A中間的參數(shù)進(jìn)行隨機(jī)排列:
<a href="鏈接地址" title="鏈接說(shuō)明" target="_blank" class="鏈接樣式">
<a href="鏈接地址" class="鏈接樣式" title="鏈接說(shuō)明" target="_blank">
<a title="鏈接說(shuō)明" href="鏈接地址" class="鏈接樣式" target="_blank">
然后再在其中混用單雙引號(hào),在href=后面還可以不使用引號(hào)。那么采集者將不能正確獲取列表頁(yè)面中文章地址。
再深入一步,可以在列表中加入干擾碼,如把鏈接部分重復(fù)加一次空白鏈接,(<a href="鏈接地址" title="鏈接說(shuō)明" target="_blank" class="鏈接樣式"></a>),那么如果對(duì)方能夠獲取一部分文章地址,或者能夠采集一部分文章,那么這部分文章也肯定是重復(fù)的。
在進(jìn)行以上修改后,我想大部分采集者都會(huì)知難退的哈。缺點(diǎn)就是代碼不太標(biāo)準(zhǔn)。以上僅雨哲個(gè)人觀點(diǎn)。
復(fù)制代碼 代碼如下:
1、<a class="鏈接樣式" href="鏈接地址" title="鏈接說(shuō)明" target="_blank">文章標(biāo)題</a>
2、<a class='鏈接樣式' href='鏈接地址' title='鏈接說(shuō)明' target='_blank'>文章標(biāo)題</a>
大家注意看上面兩行代碼,有一個(gè)區(qū)別就是第一個(gè)中間使用的是雙引號(hào),第二個(gè)使用的是單引號(hào)。一般來(lái)說(shuō),如果在文章列表頁(yè)面都使用雙引號(hào)或者使用單引號(hào),很容易讓采集者找到文章路徑(開(kāi)始代碼:href=' ,結(jié)束代碼:' )。
那如果我們混合著用,也就是有的使用單引號(hào),有的使用雙引號(hào),那么就會(huì)給采集者帶來(lái)一定的麻煩。至少他不能采集到所有文章(如果采集程序差一點(diǎn)的話可能一篇也采集不到)。
在上面的基礎(chǔ)上,更深入一步將A中間的參數(shù)進(jìn)行隨機(jī)排列:
復(fù)制代碼 代碼如下:
<a href="鏈接地址" title="鏈接說(shuō)明" target="_blank" class="鏈接樣式">
<a href="鏈接地址" class="鏈接樣式" title="鏈接說(shuō)明" target="_blank">
<a title="鏈接說(shuō)明" href="鏈接地址" class="鏈接樣式" target="_blank">
再深入一步,可以在列表中加入干擾碼,如把鏈接部分重復(fù)加一次空白鏈接,(<a href="鏈接地址" title="鏈接說(shuō)明" target="_blank" class="鏈接樣式"></a>),那么如果對(duì)方能夠獲取一部分文章地址,或者能夠采集一部分文章,那么這部分文章也肯定是重復(fù)的。
在進(jìn)行以上修改后,我想大部分采集者都會(huì)知難退的哈。缺點(diǎn)就是代碼不太標(biāo)準(zhǔn)。以上僅雨哲個(gè)人觀點(diǎn)。
相關(guān)文章
不能使用“;文件已在使用中 Microsoft JET Database Engine
不能使用 '';文件已在使用中。說(shuō)明: 執(zhí)行當(dāng)前 Web 請(qǐng)求期間,出現(xiàn)未處理的異常。請(qǐng)檢查堆棧跟蹤信息,以了解有關(guān)該錯(cuò)誤以及代碼中導(dǎo)致錯(cuò)誤的出處的詳細(xì)信息2012-06-06在ASP中連接MySQL數(shù)據(jù)庫(kù),最好的通過(guò)ODBC方法
在ASP中連接MySQL數(shù)據(jù)庫(kù),最好的通過(guò)ODBC方法...2006-11-11asp 驗(yàn)證用戶名是否包含有非常字符的函數(shù)
asp 驗(yàn)證用戶名是否包含有非常字符的函數(shù)...2007-08-08生成EAN13標(biāo)準(zhǔn)的條形碼的ASP代碼實(shí)例
生成EAN13標(biāo)準(zhǔn)的條形碼的ASP代碼實(shí)例...2007-10-10Asp 操作Cookies(包括設(shè)置[賦值]、讀取、刪除[設(shè)置過(guò)期時(shí)間])
Asp 操作Cookies(包括設(shè)置[賦值]、讀取、刪除[設(shè)置過(guò)期時(shí)間]) ,這個(gè)是比較全的了,更多資料可以參考腳本之家前兩篇文章。2010-03-03