深入理解robots.txt文件中應(yīng)該屏蔽哪些目錄
發(fā)布時(shí)間:2013-07-02 17:27:57 作者:佚名
我要評(píng)論
一個(gè)合格的網(wǎng)站,必須在根目錄下包含一下robots.txt文件,這個(gè)文件的作用對(duì)所有運(yùn)營(yíng)網(wǎng)站的朋友來(lái)說(shuō)并不陌生,網(wǎng)上也提供了很多制作robots.txt文件的方法和軟件,可謂相當(dāng)方便
但是,你真的知道網(wǎng)站的robots.txt文件設(shè)置是否合理,哪些文件或者目錄需要屏蔽、哪些設(shè)置方法對(duì)網(wǎng)站運(yùn)營(yíng)有好處?那下面帶著這些疑問(wèn),筆者會(huì)進(jìn)行詳細(xì)的解答,希望對(duì)新手站長(zhǎng)朋友們有所幫助,老鳥(niǎo)勿噴。
一、什么是robots.txt
筆者引用百度站長(zhǎng)工具中后段話來(lái)解釋。搜索引擎使用spider程序自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。spider在訪問(wèn)一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)robots.txt,在文件中聲明 該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
二、robots.txt文件對(duì)網(wǎng)站有什么好處
1、快速增加網(wǎng)站權(quán)重和訪問(wèn)量;
2、禁止某些文件被搜索引擎索引,可以節(jié)省服務(wù)器帶寬和網(wǎng)站訪問(wèn)速度;
3、為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境
三、哪些網(wǎng)站的目錄需要使用robots.txt文件禁止抓取
1)、圖片目錄
圖片是構(gòu)成網(wǎng)站的主要組成元素。隨著現(xiàn)在建站越來(lái)越方便,大量CMS的出現(xiàn),真正做到了會(huì)打字就會(huì)建網(wǎng)站,而正是因?yàn)槿绱朔奖?,網(wǎng)上出現(xiàn)了大量的同質(zhì)化模板網(wǎng)站,被反復(fù)使用,這樣的網(wǎng)站搜索引擎是肯定不喜歡的,就算是你的網(wǎng)站被收錄了,那你的效果也是很差的。如果你非要用這種網(wǎng)站的話,建議你應(yīng)該在robots.txt文件中進(jìn)行屏蔽,通常的網(wǎng)站圖片目錄是:imags 或者 img;
2)、網(wǎng)站模板目錄
如上面 圖片目錄 中所說(shuō),CMS的強(qiáng)大和靈活,也導(dǎo)致了很多同質(zhì)化的網(wǎng)站模板的出現(xiàn)和濫用,高度的重復(fù)性模板在搜索引擎中形成了一種冗余,且模板文件常常與生成文件高度相似,同樣易造成雷同內(nèi)容的出現(xiàn)。對(duì)搜索引擎很不友好,嚴(yán)重的直接被搜索引擎打入冷宮,不得翻身,很多CMS有擁有獨(dú)立的模板存放目錄,因此,應(yīng)該進(jìn)行模板目錄的屏蔽。通常模板目錄的文件目錄是:templets
3)、CSS、JS目錄的屏蔽
CSS目錄文件在搜索引擎的抓取中沒(méi)有用處,也無(wú)法提供有價(jià)值的信息。所以強(qiáng)烈建議站長(zhǎng)朋友們?cè)赗obots.txt文件中將其進(jìn)行屏蔽,以提高搜索引擎的索引質(zhì)量。為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境更易提升網(wǎng)站友好性。CSS樣式的目錄通常情況下是:CSS 或者 style
JS文件在搜索引擎中無(wú)法進(jìn)行識(shí)別,這里只是建議,可以對(duì)其進(jìn)行屏蔽,這樣做也有一個(gè)好處:為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境;
4)、屏蔽雙頁(yè)面的內(nèi)容
這里拿DEDECMS來(lái)舉例吧。大家都知道DEDECMS可以使用靜態(tài)和動(dòng)態(tài)URL進(jìn)行同一篇內(nèi)容的訪問(wèn),如果你生成全站靜態(tài)了,那你必須屏蔽動(dòng)態(tài)地址的URL鏈接。這里有兩個(gè)好處:1、搜索引擎對(duì)靜態(tài)的URL比動(dòng)態(tài)的URL更友好、更容易收錄;2、防止靜態(tài)、動(dòng)態(tài)URL能訪問(wèn)同一篇文章而被搜索引擎判為重復(fù)內(nèi)容。這樣做對(duì)搜索引擎友好性來(lái)說(shuō)是有益無(wú)害的。
5)、模板緩存目錄
很多CMS程序都有緩存目錄,這種緩存目錄的好處我想不用說(shuō)大家也清楚了吧,可以非常有效的提升網(wǎng)站的訪問(wèn)速度,減少網(wǎng)站帶寬,對(duì)用戶體驗(yàn)也是很好的。不過(guò),這樣的緩存目錄也有一定的缺點(diǎn),那就是會(huì)讓搜索引擎進(jìn)行重復(fù)的抓取,一個(gè)網(wǎng)站中內(nèi)容重復(fù)也是大祭,對(duì)網(wǎng)站百害而無(wú)一利。很多使用CMS建站的朋友都沒(méi)有注意到,必須要引起重視。
6)被刪除的目錄
死鏈過(guò)多,對(duì)搜索引擎優(yōu)化來(lái)說(shuō),是致命的。不能不引起站長(zhǎng)的高度重視,。在網(wǎng)站的發(fā)展過(guò)程中,目錄的刪除和調(diào)整是不可避免的,如果你的網(wǎng)站當(dāng)前目錄不存在了,那必須對(duì)此目錄進(jìn)行robots屏蔽,并返回正確的404錯(cuò)誤頁(yè)面(注意:在IIS中,有的朋友在設(shè)置404錯(cuò)誤的時(shí)候,設(shè)置存在問(wèn)題,在自定義錯(cuò)誤頁(yè)面一項(xiàng)中,404錯(cuò)誤的正確設(shè)置應(yīng)該是選擇:默認(rèn)值 或者 文件,而不應(yīng)該是:URL,以防止搜索引擎返回200的狀態(tài)碼。至于怎么設(shè)置,網(wǎng)上教程很多,大家要吧搜索一下)
這里有一個(gè)爭(zhēng)議性的問(wèn)題,關(guān)于網(wǎng)站后臺(tái)管理目錄是否需要進(jìn)行屏蔽,其實(shí)這個(gè)可有可無(wú)。在能保證網(wǎng)站安全的情況下,如果你的網(wǎng)站運(yùn)營(yíng)規(guī)模較小,就算網(wǎng)站管理目錄出現(xiàn)在robots.txt文件中,也沒(méi)有多大問(wèn)題,這個(gè)我也見(jiàn)過(guò)很多網(wǎng)站這樣設(shè)置的;但如果你的網(wǎng)站運(yùn)營(yíng)規(guī)模較大,競(jìng)爭(zhēng)奪手過(guò)多,強(qiáng)烈建議千萬(wàn)別出現(xiàn)任何你網(wǎng)站后臺(tái)管理目錄的信息,以防被別有用心的人利用,損害你的利益;其實(shí)搜索引擎越來(lái)越智能,對(duì)于網(wǎng)站的管理目錄還是能很好的識(shí)別,并放棄索引的。另外,大家在做網(wǎng)站后臺(tái)的時(shí)候,也可以在頁(yè)面元標(biāo)簽中添加:進(jìn)行搜索引擎的屏蔽抓取。
最后,需要說(shuō)明一點(diǎn),很多站長(zhǎng)朋友喜歡把站點(diǎn)地圖地址放在robots.txt文件中,當(dāng)然這里并不是去屏蔽搜索引擎,而是讓搜索引擎在第一次索引網(wǎng)站的時(shí)候便能通過(guò)站點(diǎn)地圖快速的抓取網(wǎng)站內(nèi)容。
這里需要注意一下:1、站點(diǎn)地圖的制作一定要規(guī)范;2、網(wǎng)站一定要有高質(zhì)量的內(nèi)容;
一、什么是robots.txt
筆者引用百度站長(zhǎng)工具中后段話來(lái)解釋。搜索引擎使用spider程序自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。spider在訪問(wèn)一個(gè)網(wǎng)站時(shí),會(huì)首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)robots.txt,在文件中聲明 該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
二、robots.txt文件對(duì)網(wǎng)站有什么好處
1、快速增加網(wǎng)站權(quán)重和訪問(wèn)量;
2、禁止某些文件被搜索引擎索引,可以節(jié)省服務(wù)器帶寬和網(wǎng)站訪問(wèn)速度;
3、為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境
三、哪些網(wǎng)站的目錄需要使用robots.txt文件禁止抓取
1)、圖片目錄
圖片是構(gòu)成網(wǎng)站的主要組成元素。隨著現(xiàn)在建站越來(lái)越方便,大量CMS的出現(xiàn),真正做到了會(huì)打字就會(huì)建網(wǎng)站,而正是因?yàn)槿绱朔奖?,網(wǎng)上出現(xiàn)了大量的同質(zhì)化模板網(wǎng)站,被反復(fù)使用,這樣的網(wǎng)站搜索引擎是肯定不喜歡的,就算是你的網(wǎng)站被收錄了,那你的效果也是很差的。如果你非要用這種網(wǎng)站的話,建議你應(yīng)該在robots.txt文件中進(jìn)行屏蔽,通常的網(wǎng)站圖片目錄是:imags 或者 img;
2)、網(wǎng)站模板目錄
如上面 圖片目錄 中所說(shuō),CMS的強(qiáng)大和靈活,也導(dǎo)致了很多同質(zhì)化的網(wǎng)站模板的出現(xiàn)和濫用,高度的重復(fù)性模板在搜索引擎中形成了一種冗余,且模板文件常常與生成文件高度相似,同樣易造成雷同內(nèi)容的出現(xiàn)。對(duì)搜索引擎很不友好,嚴(yán)重的直接被搜索引擎打入冷宮,不得翻身,很多CMS有擁有獨(dú)立的模板存放目錄,因此,應(yīng)該進(jìn)行模板目錄的屏蔽。通常模板目錄的文件目錄是:templets
3)、CSS、JS目錄的屏蔽
CSS目錄文件在搜索引擎的抓取中沒(méi)有用處,也無(wú)法提供有價(jià)值的信息。所以強(qiáng)烈建議站長(zhǎng)朋友們?cè)赗obots.txt文件中將其進(jìn)行屏蔽,以提高搜索引擎的索引質(zhì)量。為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境更易提升網(wǎng)站友好性。CSS樣式的目錄通常情況下是:CSS 或者 style
JS文件在搜索引擎中無(wú)法進(jìn)行識(shí)別,這里只是建議,可以對(duì)其進(jìn)行屏蔽,這樣做也有一個(gè)好處:為搜索引擎提供一個(gè)簡(jiǎn)潔明了的索引環(huán)境;
4)、屏蔽雙頁(yè)面的內(nèi)容
這里拿DEDECMS來(lái)舉例吧。大家都知道DEDECMS可以使用靜態(tài)和動(dòng)態(tài)URL進(jìn)行同一篇內(nèi)容的訪問(wèn),如果你生成全站靜態(tài)了,那你必須屏蔽動(dòng)態(tài)地址的URL鏈接。這里有兩個(gè)好處:1、搜索引擎對(duì)靜態(tài)的URL比動(dòng)態(tài)的URL更友好、更容易收錄;2、防止靜態(tài)、動(dòng)態(tài)URL能訪問(wèn)同一篇文章而被搜索引擎判為重復(fù)內(nèi)容。這樣做對(duì)搜索引擎友好性來(lái)說(shuō)是有益無(wú)害的。
5)、模板緩存目錄
很多CMS程序都有緩存目錄,這種緩存目錄的好處我想不用說(shuō)大家也清楚了吧,可以非常有效的提升網(wǎng)站的訪問(wèn)速度,減少網(wǎng)站帶寬,對(duì)用戶體驗(yàn)也是很好的。不過(guò),這樣的緩存目錄也有一定的缺點(diǎn),那就是會(huì)讓搜索引擎進(jìn)行重復(fù)的抓取,一個(gè)網(wǎng)站中內(nèi)容重復(fù)也是大祭,對(duì)網(wǎng)站百害而無(wú)一利。很多使用CMS建站的朋友都沒(méi)有注意到,必須要引起重視。
6)被刪除的目錄
死鏈過(guò)多,對(duì)搜索引擎優(yōu)化來(lái)說(shuō),是致命的。不能不引起站長(zhǎng)的高度重視,。在網(wǎng)站的發(fā)展過(guò)程中,目錄的刪除和調(diào)整是不可避免的,如果你的網(wǎng)站當(dāng)前目錄不存在了,那必須對(duì)此目錄進(jìn)行robots屏蔽,并返回正確的404錯(cuò)誤頁(yè)面(注意:在IIS中,有的朋友在設(shè)置404錯(cuò)誤的時(shí)候,設(shè)置存在問(wèn)題,在自定義錯(cuò)誤頁(yè)面一項(xiàng)中,404錯(cuò)誤的正確設(shè)置應(yīng)該是選擇:默認(rèn)值 或者 文件,而不應(yīng)該是:URL,以防止搜索引擎返回200的狀態(tài)碼。至于怎么設(shè)置,網(wǎng)上教程很多,大家要吧搜索一下)
這里有一個(gè)爭(zhēng)議性的問(wèn)題,關(guān)于網(wǎng)站后臺(tái)管理目錄是否需要進(jìn)行屏蔽,其實(shí)這個(gè)可有可無(wú)。在能保證網(wǎng)站安全的情況下,如果你的網(wǎng)站運(yùn)營(yíng)規(guī)模較小,就算網(wǎng)站管理目錄出現(xiàn)在robots.txt文件中,也沒(méi)有多大問(wèn)題,這個(gè)我也見(jiàn)過(guò)很多網(wǎng)站這樣設(shè)置的;但如果你的網(wǎng)站運(yùn)營(yíng)規(guī)模較大,競(jìng)爭(zhēng)奪手過(guò)多,強(qiáng)烈建議千萬(wàn)別出現(xiàn)任何你網(wǎng)站后臺(tái)管理目錄的信息,以防被別有用心的人利用,損害你的利益;其實(shí)搜索引擎越來(lái)越智能,對(duì)于網(wǎng)站的管理目錄還是能很好的識(shí)別,并放棄索引的。另外,大家在做網(wǎng)站后臺(tái)的時(shí)候,也可以在頁(yè)面元標(biāo)簽中添加:進(jìn)行搜索引擎的屏蔽抓取。
最后,需要說(shuō)明一點(diǎn),很多站長(zhǎng)朋友喜歡把站點(diǎn)地圖地址放在robots.txt文件中,當(dāng)然這里并不是去屏蔽搜索引擎,而是讓搜索引擎在第一次索引網(wǎng)站的時(shí)候便能通過(guò)站點(diǎn)地圖快速的抓取網(wǎng)站內(nèi)容。
這里需要注意一下:1、站點(diǎn)地圖的制作一定要規(guī)范;2、網(wǎng)站一定要有高質(zhì)量的內(nèi)容;
相關(guān)文章
如何利用網(wǎng)站目錄最大效用的推廣網(wǎng)站?利用網(wǎng)站目錄推廣網(wǎng)站的技巧
互聯(lián)網(wǎng)上網(wǎng)站推廣的方法五花八門,每種方法都有各自的門道,就看你會(huì)不會(huì)用。那么如何利用網(wǎng)站目錄最大效用的推廣網(wǎng)站?本文將提供利用網(wǎng)站目錄最大效用推廣網(wǎng)站的技巧供大2016-05-05如何屏蔽已收錄的不必要二級(jí)目錄? 屏蔽已被百度收錄的不必要二級(jí)目錄
網(wǎng)站只收錄abc.XXX.com,的二級(jí)目錄類域名,不收錄www.xxx.com的怎么辦?應(yīng)該有不少的朋友會(huì)有這樣的困惑,那么如何屏蔽已收錄的不必要二級(jí)目錄呢?本文將提供屏蔽已被百度2016-02-18外鏈推廣之網(wǎng)站分類目錄提交的注意事項(xiàng)及其技巧
如何發(fā)布外鏈,到哪兒發(fā)布外鏈成為站長(zhǎng)最頭痛的事情,畢竟現(xiàn)在優(yōu)質(zhì)的外鏈不多,免費(fèi)的優(yōu)質(zhì)外鏈更少。其實(shí)網(wǎng)站分類目錄是站長(zhǎng)們不該忽略的一個(gè)地方,下面我們一起來(lái)看看2014-11-23- 如何保證轉(zhuǎn)移后有效繼承原來(lái)的權(quán)重不被降權(quán)?最好的辦法就是做301,二級(jí)目錄301重定向到二級(jí)域名的兩種方法,需要的朋友可以參考下2013-11-13
- 自從百度于10.23發(fā)布打擊超鏈作弊一來(lái),又有大批大批的網(wǎng)站相繼倒下,相信大家都知道了百度主要是打擊那些賣鏈接的垃圾新聞源站和買鏈接的那些流量站2012-12-13
網(wǎng)站二級(jí)域名與二級(jí)目錄選擇的方法
開(kāi)設(shè)頻道或者子網(wǎng)站是用子目錄方式還是二級(jí)域名,這時(shí)候非常重要。現(xiàn)在我就詳細(xì)分析一下二級(jí)域名和子目錄兩者都有哪些優(yōu)勢(shì)和劣勢(shì),以及什么情況下選擇二級(jí)域名,什么情況下2012-11-12- 被亞馬遜收錄,獲得更高的權(quán)重。2012-08-06
- 最近百度將Site指令的網(wǎng)站目錄查詢?nèi)∠?,像“Site: /seotool/ ”的指令在百度中失效,現(xiàn)在還不知道百度是不是真的取消了網(wǎng)站目錄的Site命令。2011-06-17
網(wǎng)站架構(gòu)中如何選擇子域名和子目錄的規(guī)則
在網(wǎng)站架構(gòu)設(shè)計(jì)中應(yīng)該使用子域名還是子目錄一直是個(gè)爭(zhēng)論不休的話題。2010-12-29- 其實(shí)關(guān)于優(yōu)化URL這一塊,大家不管是自己寫的或者是看別人的,都基本了解的差不多。而且一些細(xì)節(jié)都可能或多或少的被一些站長(zhǎng)和seoer提到了。2010-05-23

