百度蜘蛛抓取時返回304狀態(tài)碼的問題分析
發(fā)布時間:2012-08-29 17:13:48 作者:佚名
我要評論

網(wǎng)站被百度的蜘蛛抓取時返回304狀態(tài)碼是什么意思呢
最近遇到一個網(wǎng)站被百度蜘蛛抓取首頁后大量返回304狀態(tài)碼的問題,以前遇到過301和302,就是沒了解過304,剛好可以對這個情況進(jìn)行一下分析和觀察,以便比較深入的了解該問題的出現(xiàn)以及應(yīng)對之策。

百度百科對304狀態(tài)碼是這么解釋的:如果客戶端發(fā)送了一個帶條件的 GET 請求且該請求已被允許,而文檔的內(nèi)容(自上次訪問以來或者根據(jù)請求的條件)并沒有改變,則服務(wù)器應(yīng)當(dāng)返回這個304狀態(tài)碼。簡單的表達(dá)就是:客戶端已經(jīng)執(zhí) 行了GET,但文件未變化,也就是我們所理解的頁面沒更新。
GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0
GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
但網(wǎng)站每天都有較多內(nèi)容的更新,怎么會返回未更新的狀態(tài)碼呢,查看了網(wǎng)站進(jìn)幾天的網(wǎng)站IIS日志,發(fā)現(xiàn)這幾天對首頁的抓取都是返回的304狀態(tài)碼,一般情況下大概會是一下幾種可能:
1、服務(wù)器緩存緣故
設(shè)置緩存的作用一般都是為了加速網(wǎng)站的提前加載,就像我們在瀏覽器上訪問網(wǎng)站的時候也比較容易出現(xiàn)緩存問題,當(dāng)你打開一個網(wǎng)站之后,如果該網(wǎng)站有更新或者有 變化,直接點擊首頁會發(fā)現(xiàn)還是之前訪問的頁面,而ctrl+F5重新加載后才會顯示新的頁面,這其實就是緩存的緣故。另外,有的時候和一些較大的網(wǎng)站換友情鏈接也會遇到,對方加了友鏈之后首頁不會馬上顯示,會因為緩存而需要過一段時間才能顯示。
2、網(wǎng)站結(jié)構(gòu)問題
如果網(wǎng)站結(jié)構(gòu)不能有效的讓蜘蛛順利爬行,也就是說雖然蜘蛛有抓取,但由于網(wǎng)站結(jié)構(gòu)問題導(dǎo)致蜘蛛前后兩次抓取內(nèi)容相同,或者說蜘蛛每次抓取首頁都只抓了那塊固定的內(nèi)容,那么就勢必導(dǎo)致蜘蛛對首頁的抓取返回304狀態(tài)碼。
3、網(wǎng)站速度問題
谷歌就針對網(wǎng)站的加載時間更 新過算法,把網(wǎng)站加載時間納入了排名因素,就算搜索引擎排名不重視這點,對于用戶體驗也是有很大影響,誰也不會愿意多花時間在一個需要加載幾十秒甚至幾分 鐘的網(wǎng)站上面。而對于搜索蜘蛛也是如此,網(wǎng)站的加載速度也會影響蜘蛛的正常抓取,一般情況下網(wǎng)站都是從上往下的加載,而有的時候由于速度因素導(dǎo)致網(wǎng)站只加載了頭部,后面部分而沒有及時顯示出來,也可能導(dǎo)致蜘蛛只抓取了頭部部分內(nèi)容,而由于一般網(wǎng)站的頭部都是相同的,也就容易出現(xiàn)了抓取返回沒更新的狀態(tài)碼。
另外,網(wǎng)絡(luò)線路的互通也是一個因素。
4、網(wǎng)站內(nèi)容問題
網(wǎng)上查找了下關(guān)于304狀態(tài)碼的一些內(nèi)容,不少人都認(rèn)為是網(wǎng)站內(nèi)容長期采集或是偽原創(chuàng)也能導(dǎo)致蜘蛛返回該狀態(tài)碼,因為網(wǎng)站內(nèi)容采集或偽原創(chuàng)的確會降低網(wǎng)站質(zhì)量,導(dǎo)致百度不收錄等情況,搜索蜘蛛也會認(rèn)為網(wǎng)站內(nèi)容不具備收錄的意義,那么也就不會抓取新的內(nèi)容而返回沒有更新的狀態(tài)。
5、重視該狀態(tài)碼
既然304狀態(tài)碼是表示未更新的情況,那么經(jīng)常出現(xiàn)就需要引起重視,同時也需要觀察出現(xiàn)該狀態(tài)碼的同時網(wǎng)站各方面數(shù)據(jù)的變化和趨勢,以便對該狀態(tài)碼的影響有較好的了解。
暫時網(wǎng)站出現(xiàn)304狀態(tài)碼之后經(jīng)過百度更新收錄有所減少,前幾天有過斷斷續(xù)續(xù)的網(wǎng)站無法訪問的情況,第二天網(wǎng)站首頁就被K掉,在更換服務(wù)器之后恢復(fù)網(wǎng)站正常訪問,次日首頁再次恢復(fù),目前仍需要觀察和分析,才能更好掌握該狀態(tài)碼。

GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0
GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
但網(wǎng)站每天都有較多內(nèi)容的更新,怎么會返回未更新的狀態(tài)碼呢,查看了網(wǎng)站進(jìn)幾天的網(wǎng)站IIS日志,發(fā)現(xiàn)這幾天對首頁的抓取都是返回的304狀態(tài)碼,一般情況下大概會是一下幾種可能:
1、服務(wù)器緩存緣故
設(shè)置緩存的作用一般都是為了加速網(wǎng)站的提前加載,就像我們在瀏覽器上訪問網(wǎng)站的時候也比較容易出現(xiàn)緩存問題,當(dāng)你打開一個網(wǎng)站之后,如果該網(wǎng)站有更新或者有 變化,直接點擊首頁會發(fā)現(xiàn)還是之前訪問的頁面,而ctrl+F5重新加載后才會顯示新的頁面,這其實就是緩存的緣故。另外,有的時候和一些較大的網(wǎng)站換友情鏈接也會遇到,對方加了友鏈之后首頁不會馬上顯示,會因為緩存而需要過一段時間才能顯示。
2、網(wǎng)站結(jié)構(gòu)問題
如果網(wǎng)站結(jié)構(gòu)不能有效的讓蜘蛛順利爬行,也就是說雖然蜘蛛有抓取,但由于網(wǎng)站結(jié)構(gòu)問題導(dǎo)致蜘蛛前后兩次抓取內(nèi)容相同,或者說蜘蛛每次抓取首頁都只抓了那塊固定的內(nèi)容,那么就勢必導(dǎo)致蜘蛛對首頁的抓取返回304狀態(tài)碼。
3、網(wǎng)站速度問題
谷歌就針對網(wǎng)站的加載時間更 新過算法,把網(wǎng)站加載時間納入了排名因素,就算搜索引擎排名不重視這點,對于用戶體驗也是有很大影響,誰也不會愿意多花時間在一個需要加載幾十秒甚至幾分 鐘的網(wǎng)站上面。而對于搜索蜘蛛也是如此,網(wǎng)站的加載速度也會影響蜘蛛的正常抓取,一般情況下網(wǎng)站都是從上往下的加載,而有的時候由于速度因素導(dǎo)致網(wǎng)站只加載了頭部,后面部分而沒有及時顯示出來,也可能導(dǎo)致蜘蛛只抓取了頭部部分內(nèi)容,而由于一般網(wǎng)站的頭部都是相同的,也就容易出現(xiàn)了抓取返回沒更新的狀態(tài)碼。
另外,網(wǎng)絡(luò)線路的互通也是一個因素。
4、網(wǎng)站內(nèi)容問題
網(wǎng)上查找了下關(guān)于304狀態(tài)碼的一些內(nèi)容,不少人都認(rèn)為是網(wǎng)站內(nèi)容長期采集或是偽原創(chuàng)也能導(dǎo)致蜘蛛返回該狀態(tài)碼,因為網(wǎng)站內(nèi)容采集或偽原創(chuàng)的確會降低網(wǎng)站質(zhì)量,導(dǎo)致百度不收錄等情況,搜索蜘蛛也會認(rèn)為網(wǎng)站內(nèi)容不具備收錄的意義,那么也就不會抓取新的內(nèi)容而返回沒有更新的狀態(tài)。
5、重視該狀態(tài)碼
既然304狀態(tài)碼是表示未更新的情況,那么經(jīng)常出現(xiàn)就需要引起重視,同時也需要觀察出現(xiàn)該狀態(tài)碼的同時網(wǎng)站各方面數(shù)據(jù)的變化和趨勢,以便對該狀態(tài)碼的影響有較好的了解。
暫時網(wǎng)站出現(xiàn)304狀態(tài)碼之后經(jīng)過百度更新收錄有所減少,前幾天有過斷斷續(xù)續(xù)的網(wǎng)站無法訪問的情況,第二天網(wǎng)站首頁就被K掉,在更換服務(wù)器之后恢復(fù)網(wǎng)站正常訪問,次日首頁再次恢復(fù),目前仍需要觀察和分析,才能更好掌握該狀態(tài)碼。
相關(guān)文章
Google蜘蛛爬蟲可以運行網(wǎng)頁中的JS腳本和CSS樣式
在我的既有觀念中,搜索引擎的網(wǎng)頁爬蟲/蜘蛛/機器人(Crawler/Spider/Robot)只抓取頁面的 HTML 代碼,對于內(nèi)部或外部的 JS 與 CSS 代碼是一律無視的。2010-01-01- 百度蜘蛛日志抓取解讀 教你如何提高百度收錄:百度的收錄是關(guān)心的重中之重,了解百度蜘蛛的爬行規(guī)律從而更好的改善收錄情況也是必須要掌握的。2010-06-29
- 如何讓搜索引擎蜘蛛喜歡上你的網(wǎng)站,以下幾點大家都注意下2012-03-23
引導(dǎo)網(wǎng)絡(luò)蜘蛛爬行自己的網(wǎng)站的方法介紹
做網(wǎng)站的都希望被搜索引擎所收錄.就是希望網(wǎng)絡(luò)蜘蛛能爬到自己的網(wǎng)站里收錄信息2012-07-05- 搜索引擎蜘蛛每天是怎么樣去爬取我們的網(wǎng)的呢?針對這些你有多少的了解?那搜索引擎蜘蛛的爬取過程又是怎么樣的呢?2013-04-01
網(wǎng)站優(yōu)化必看 蜘蛛陷阱 不利于蜘蛛爬取的網(wǎng)頁
網(wǎng)站有哪些地方是不利于蜘蛛爬取的呢?下面腳本之家分享了一些蜘蛛爬取陷阱,讓蜘蛛爬去不到頁面的一些因素,需要的朋友可以參考下2014-10-13SEO優(yōu)化 蜘蛛的爬行規(guī)則以及讓蜘蛛爬行的快速辦法
想要提高網(wǎng)站的排名首先要了解蜘蛛的爬行規(guī)則,下面我們來看看解蜘蛛最喜歡的是什么?當(dāng)蜘蛛爬行一個網(wǎng)站的時候,它需要爬行的信息首先就是站內(nèi)的結(jié)構(gòu),查看站內(nèi)結(jié)構(gòu)是否是2014-10-14- 作為一名編輯乃至站長,在關(guān)注網(wǎng)站在搜索引擎排名的時候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個自動抓取互聯(lián)網(wǎng)上網(wǎng)頁內(nèi)容的程序,每個搜索引擎都有自己的蜘蛛,那2016-05-27