百度蜘蛛日志抓取解讀 提高百度收錄
很多網站目前使用的都是虛擬空間,都能夠提供日志。日志是指在網站根目錄下的logfiles文件夾里面日期.txt文本文件有很多介紹通過http查看返回命令的那種辦法來查看蜘蛛?,F在更多的網站是沒有提供可以通過軟件來查看的日志格式。
更多的是類似下面的日志格式,如下:
03:28:34 GET /goods.php 202.108.7.205 200 34696 390
第一 03:28:34 訪問時間
第二 GET /goods.php 訪問的頁面 get表示獲取
第三 202.108.7.205 訪問網站的源IP
第四 200 成功訪問
第五 34696 390 表示記錄的內容大小
接下來要介紹幾個HTTP狀態(tài)碼擴展基本知識:
成功2×× 成功處理了請求的狀態(tài)碼。
200 服務器已成功處理了請求并提供了請求的網頁。
204 服務器成功處理了請求,但沒有返回任何內容。
重定向3××每次請求中使用重定向不要超過 5 次。
301 請求的網頁已永久移動到新位置。當URLs發(fā)生變化時,使用301代碼。搜索引擎索引中保存新的URL。
302 請求的網頁臨時移動到新位置。搜索引擎索引中保存原來的URL。
304 如果網頁自請求者上次請求后沒有更新,則用304代碼告訴搜索引擎機器人,可節(jié)省帶寬和開銷。
客戶端錯誤4×× 表示請求可能出錯,妨礙了服務器的處理。
400 服務器不理解請求的語法。
403 服務器拒絕請求。
404 服務器找不到請求的網頁。服務器上不存在的網頁經常會返回此代碼。
服務器錯誤5××表示服務器在處理請求時發(fā)生內部錯誤。這些錯誤可能是服務器本身的錯誤,而不是請求出錯。
500 服務器遇到錯誤,無法完成請求。
503 服務器目前無法使用(由于超載或停機維護)。通常,這只是暫時狀態(tài)。
以上日志提取于:http://www..027zhan.com 如果你不會提取日志的話
查看服務器日志辦法:日志默認存放在System32\LogFiles目錄下,使用W3C擴展格式
虛擬主機查看日志辦法:根目錄下logfiles文件(一般需虛擬主機面板中開啟日志記錄)
2010-05-06 17:48:16 W3SVC945321 222.73.167.138 GET /FUKE/CARNATION.html - 80 - 123.125.66.42 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 7341
1、2010-05-06 17:48:16 蜘蛛光臨的時間
2、W3SVC945321 日志文件名
3、222.73.167.138 網站服務器IP地址
4、GET 是從服務器上獲取數據
5、/FUKE/CARNATION.html 抓取的文件
6、- 80 - 80端口
7、123.125.66.42 蜘蛛的來路地址
8、Baiduspider+ 百度蜘蛛的名字
9、+http://www.baidu.com/search/spider.htm 百度蜘蛛機器人的介紹
10、200 0 0 7341 200服務器成功返回網頁
相關文章
- 在我的既有觀念中,搜索引擎的網頁爬蟲/蜘蛛/機器人(Crawler/Spider/Robot)只抓取頁面的 HTML 代碼,對于內部或外部的 JS 與 CSS 代碼是一律無視的。2010-01-01
- 如何讓搜索引擎蜘蛛喜歡上你的網站,以下幾點大家都注意下2012-03-23
- 做網站的都希望被搜索引擎所收錄.就是希望網絡蜘蛛能爬到自己的網站里收錄信息2012-07-05
- 網站被百度的蜘蛛抓取時返回304狀態(tài)碼是什么意思呢2012-08-29
- 搜索引擎蜘蛛每天是怎么樣去爬取我們的網的呢?針對這些你有多少的了解?那搜索引擎蜘蛛的爬取過程又是怎么樣的呢?2013-04-01
- 網站有哪些地方是不利于蜘蛛爬取的呢?下面腳本之家分享了一些蜘蛛爬取陷阱,讓蜘蛛爬去不到頁面的一些因素,需要的朋友可以參考下2014-10-13
SEO優(yōu)化 蜘蛛的爬行規(guī)則以及讓蜘蛛爬行的快速辦法
想要提高網站的排名首先要了解蜘蛛的爬行規(guī)則,下面我們來看看解蜘蛛最喜歡的是什么?當蜘蛛爬行一個網站的時候,它需要爬行的信息首先就是站內的結構,查看站內結構是否是2014-10-14- 作為一名編輯乃至站長,在關注網站在搜索引擎排名的時候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個自動抓取互聯網上網頁內容的程序,每個搜索引擎都有自己的蜘蛛,那2016-05-27

