百度蜘蛛日志抓取解讀 提高百度收錄

很多網(wǎng)站目前使用的都是虛擬空間,都能夠提供日志。日志是指在網(wǎng)站根目錄下的logfiles文件夾里面日期.txt文本文件有很多介紹通過(guò)http查看返回命令的那種辦法來(lái)查看蜘蛛?,F(xiàn)在更多的網(wǎng)站是沒(méi)有提供可以通過(guò)軟件來(lái)查看的日志格式。
更多的是類似下面的日志格式,如下:
03:28:34 GET /goods.php 202.108.7.205 200 34696 390
第一 03:28:34 訪問(wèn)時(shí)間
第二 GET /goods.php 訪問(wèn)的頁(yè)面 get表示獲取
第三 202.108.7.205 訪問(wèn)網(wǎng)站的源IP
第四 200 成功訪問(wèn)
第五 34696 390 表示記錄的內(nèi)容大小
接下來(lái)要介紹幾個(gè)HTTP狀態(tài)碼擴(kuò)展基本知識(shí):
成功2×× 成功處理了請(qǐng)求的狀態(tài)碼。
200 服務(wù)器已成功處理了請(qǐng)求并提供了請(qǐng)求的網(wǎng)頁(yè)。
204 服務(wù)器成功處理了請(qǐng)求,但沒(méi)有返回任何內(nèi)容。
重定向3××每次請(qǐng)求中使用重定向不要超過(guò) 5 次。
301 請(qǐng)求的網(wǎng)頁(yè)已永久移動(dòng)到新位置。當(dāng)URLs發(fā)生變化時(shí),使用301代碼。搜索引擎索引中保存新的URL。
302 請(qǐng)求的網(wǎng)頁(yè)臨時(shí)移動(dòng)到新位置。搜索引擎索引中保存原來(lái)的URL。
304 如果網(wǎng)頁(yè)自請(qǐng)求者上次請(qǐng)求后沒(méi)有更新,則用304代碼告訴搜索引擎機(jī)器人,可節(jié)省帶寬和開(kāi)銷。
客戶端錯(cuò)誤4×× 表示請(qǐng)求可能出錯(cuò),妨礙了服務(wù)器的處理。
400 服務(wù)器不理解請(qǐng)求的語(yǔ)法。
403 服務(wù)器拒絕請(qǐng)求。
404 服務(wù)器找不到請(qǐng)求的網(wǎng)頁(yè)。服務(wù)器上不存在的網(wǎng)頁(yè)經(jīng)常會(huì)返回此代碼。
服務(wù)器錯(cuò)誤5××表示服務(wù)器在處理請(qǐng)求時(shí)發(fā)生內(nèi)部錯(cuò)誤。這些錯(cuò)誤可能是服務(wù)器本身的錯(cuò)誤,而不是請(qǐng)求出錯(cuò)。
500 服務(wù)器遇到錯(cuò)誤,無(wú)法完成請(qǐng)求。
503 服務(wù)器目前無(wú)法使用(由于超載或停機(jī)維護(hù))。通常,這只是暫時(shí)狀態(tài)。
以上日志提取于:http://www..027zhan.com 如果你不會(huì)提取日志的話
查看服務(wù)器日志辦法:日志默認(rèn)存放在System32\LogFiles目錄下,使用W3C擴(kuò)展格式
虛擬主機(jī)查看日志辦法:根目錄下logfiles文件(一般需虛擬主機(jī)面板中開(kāi)啟日志記錄)
2010-05-06 17:48:16 W3SVC945321 222.73.167.138 GET /FUKE/CARNATION.html - 80 - 123.125.66.42 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 7341
1、2010-05-06 17:48:16 蜘蛛光臨的時(shí)間
2、W3SVC945321 日志文件名
3、222.73.167.138 網(wǎng)站服務(wù)器IP地址
4、GET 是從服務(wù)器上獲取數(shù)據(jù)
5、/FUKE/CARNATION.html 抓取的文件
6、- 80 - 80端口
7、123.125.66.42 蜘蛛的來(lái)路地址
8、Baiduspider+ 百度蜘蛛的名字
9、+http://www.baidu.com/search/spider.htm 百度蜘蛛機(jī)器人的介紹
10、200 0 0 7341 200服務(wù)器成功返回網(wǎng)頁(yè)
相關(guān)文章
Google蜘蛛爬蟲(chóng)可以運(yùn)行網(wǎng)頁(yè)中的JS腳本和CSS樣式
在我的既有觀念中,搜索引擎的網(wǎng)頁(yè)爬蟲(chóng)/蜘蛛/機(jī)器人(Crawler/Spider/Robot)只抓取頁(yè)面的 HTML 代碼,對(duì)于內(nèi)部或外部的 JS 與 CSS 代碼是一律無(wú)視的。2010-01-01- 如何讓搜索引擎蜘蛛喜歡上你的網(wǎng)站,以下幾點(diǎn)大家都注意下2012-03-23
引導(dǎo)網(wǎng)絡(luò)蜘蛛爬行自己的網(wǎng)站的方法介紹
做網(wǎng)站的都希望被搜索引擎所收錄.就是希望網(wǎng)絡(luò)蜘蛛能爬到自己的網(wǎng)站里收錄信息2012-07-05百度蜘蛛抓取時(shí)返回304狀態(tài)碼的問(wèn)題分析
網(wǎng)站被百度的蜘蛛抓取時(shí)返回304狀態(tài)碼是什么意思呢2012-08-29- 搜索引擎蜘蛛每天是怎么樣去爬取我們的網(wǎng)的呢?針對(duì)這些你有多少的了解?那搜索引擎蜘蛛的爬取過(guò)程又是怎么樣的呢?2013-04-01
網(wǎng)站優(yōu)化必看 蜘蛛陷阱 不利于蜘蛛爬取的網(wǎng)頁(yè)
網(wǎng)站有哪些地方是不利于蜘蛛爬取的呢?下面腳本之家分享了一些蜘蛛爬取陷阱,讓蜘蛛爬去不到頁(yè)面的一些因素,需要的朋友可以參考下2014-10-13SEO優(yōu)化 蜘蛛的爬行規(guī)則以及讓蜘蛛爬行的快速辦法
想要提高網(wǎng)站的排名首先要了解蜘蛛的爬行規(guī)則,下面我們來(lái)看看解蜘蛛最喜歡的是什么?當(dāng)蜘蛛爬行一個(gè)網(wǎng)站的時(shí)候,它需要爬行的信息首先就是站內(nèi)的結(jié)構(gòu),查看站內(nèi)結(jié)構(gòu)是否是2014-10-14- 作為一名編輯乃至站長(zhǎng),在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁(yè)內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那2016-05-27