什么是robots.txt?
robots.txt 文件對抓取網(wǎng)絡(luò)的搜索引擎漫游器(稱為漫游器)進(jìn)行限制。這些漫游器是自動的,在其訪問網(wǎng)頁前會查看是否存在阻止其訪問特定網(wǎng)頁的 robots.txt 文件。
如何創(chuàng)建 robots.txt 文件?
可以在任何文本編輯器中創(chuàng)建此文件。該文件應(yīng)為 ASCII 編碼的文本文件,而非 HTML 文件。文件名應(yīng)使用小寫字母。
語法
最簡單的 robots.txt 文件使用兩條規(guī)則:
- User-Agent:適用下列規(guī)則的漫游器
- Disallow:要攔截的網(wǎng)頁
這兩行被視為文件中的一個條目。您可根據(jù)需要包含任意多個條目。您可在一個條目中包含多個 Disallow 行和多個 User-Agent。
應(yīng)在 User-Agent 行中列出什么內(nèi)容?
user-agent 是特定的搜索引擎漫游器。網(wǎng)絡(luò)漫游器數(shù)據(jù)庫列出了許多常用漫游器。您可設(shè)置應(yīng)用于特定漫游器的條目(通過列示名稱)或設(shè)置為應(yīng)用于所有漫游器(通過列示星號)。應(yīng)用于所有漫游器的條目應(yīng)與下列條目類似:
User-Agent:*
Google 使用多種不同漫游器(用戶代理)。用于網(wǎng)絡(luò)搜索的漫游器是 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器遵循您為 Googlebot 設(shè)置的規(guī)則,您還可為這些特定漫游器設(shè)置附加規(guī)則。
應(yīng)在 Disallow 行中列出什么內(nèi)容?
Disallow 行列出了您要攔截的網(wǎng)頁。您可列出具體網(wǎng)址或網(wǎng)址模式。條目應(yīng)以正斜杠開頭 (/)。
- 要攔截整個網(wǎng)站,請使用正斜扛。
Disallow:/
- 要攔截目錄及其中的所有內(nèi)容,請在目錄名后添加正斜扛。
Disallow:/private_directory/
- 要攔截網(wǎng)頁,請列出該網(wǎng)頁。
Disallow:/private_file.html
網(wǎng)址區(qū)分大小寫。例如,Disallow: /private_file.html 將攔截 http://www.example.com/private_file.html,但允許 http://www.example.com/Private_File.html。
更多內(nèi)容請訪問:http://www.google.com/support/webmasters
僅當(dāng)您的網(wǎng)站包含不希望搜索引擎編入索引的內(nèi)容時,才需要使用 robots.txt 文件。如果您希望搜索引擎將網(wǎng)站上的所有內(nèi)容編入索引,則不需要 robots.txt 文件(甚至連空文件也不需要)。
示例:
------------------------------------------------------------------------------------------------------------------------------------------
#
# robots.txt for NetMao Movie
# Version 2.0.x
#
User-agent: *
Disallow: /admin/
Disallow: /inc/
Disallow: /html/
Disallow: /templates/
相關(guān)文章
[組圖]互聯(lián)網(wǎng)成就80后億萬富翁名單
[組圖]互聯(lián)網(wǎng)成就80后億萬富翁名單...2007-04-04“百度與站長”更新:關(guān)于網(wǎng)站收錄,刪除,seo等
“百度與站長”更新:關(guān)于網(wǎng)站收錄,刪除,seo等...2007-01-01Text Link Ads : 網(wǎng)站鏈接廣告 相關(guān)介紹
Text Link Ads : 網(wǎng)站鏈接廣告 相關(guān)介紹...2007-05-05