搜索引擎蜘蛛抓取份額是什么?抓取份額是由什么決定的?

一月份時,Google新的SEO代言人Gary Illyes在Google官方博客上發(fā)了一篇帖子:What Crawl Budget Means for Googlebot,討論了搜索引擎蜘蛛抓取份額相關(guān)問題。對大中型網(wǎng)站來說,這是個頗為重要的SEO問題,有時候會成為網(wǎng)站自然流量的瓶頸。
今天的帖子總結(jié)一下Gary Illyes帖子里的以及后續(xù)跟進(jìn)的很多博客、論壇帖子的主要內(nèi)容,以及我自己的一些案例和理解。
強(qiáng)調(diào)一下,以下這些概念對百度同樣適用。
什么是搜索引擎蜘蛛抓取份額?
顧名思義,抓取份額是搜索引擎蜘蛛花在一個網(wǎng)站上的抓取頁面的總的時間上限。對于特定網(wǎng)站,搜索引擎蜘蛛花在這個網(wǎng)站上的總時間是相對固定的,不會無限制地抓取網(wǎng)站所有頁面。
抓取份額的英文Google用的是crawl budget,直譯是爬行預(yù)算,我覺得不太能說明是什么意思,所以用抓取份額表達(dá)這個概念。
抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制。
抓取需求
抓取需求,crawl demand,指的是搜索引擎“想”抓取特定網(wǎng)站多少頁面。
決定抓取需求的主要有兩個因素。一是頁面權(quán)重,網(wǎng)站上有多少頁面達(dá)到了基本頁面權(quán)重,搜索引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權(quán)重,權(quán)重高的頁面就不會太久不更新。
頁面權(quán)重和網(wǎng)站權(quán)重又是息息相關(guān)的,提高網(wǎng)站權(quán)重,就能使搜索引擎愿意多抓取頁面。
抓取速度限制
搜索引擎蜘蛛不會為了抓取更多頁面,把人家網(wǎng)站服務(wù)器拖垮,所以對某個網(wǎng)站都會設(shè)定一個抓取速度的上限,crawl rate limit,也就是服務(wù)器能承受的上限,在這個速度限制內(nèi),蜘蛛抓取不會拖慢服務(wù)器、影響用戶訪問。
服務(wù)器反應(yīng)速度夠快,這個速度限制就上調(diào)一點,抓取加快,服務(wù)器反應(yīng)速度下降,速度限制跟著下降,抓取減慢,甚至停止抓取。
所以,抓取速度限制是搜索引擎“能”抓取的頁面數(shù)。
抓取份額是由什么決定的?
抓取份額是考慮抓取需求和抓取速度限制兩者之后的結(jié)果,也就是搜索引擎“想”抓,同時又“能”抓的頁面數(shù)。
網(wǎng)站權(quán)重高,頁面內(nèi)容質(zhì)量高,頁面夠多,服務(wù)器速度夠快,抓取份額就大。
小網(wǎng)站沒必要擔(dān)心抓取份額
小網(wǎng)站頁面數(shù)少,即使網(wǎng)站權(quán)重再低,服務(wù)器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓個幾百頁,十幾天怎么也全站抓取一遍了,所以幾千個頁面的網(wǎng)站根本不用擔(dān)心抓取份額的事。數(shù)萬個頁面的網(wǎng)站一般也不是什么大事。每天幾百個訪問要是能拖慢服務(wù)器,SEO就不是主要需要考慮的事了。
大中型網(wǎng)站可能需要考慮抓取份額
幾十萬頁以上的大中型網(wǎng)站,可能要考慮抓取份額夠不夠的問題。
抓取份額不夠,比如網(wǎng)站有 1 千萬頁面,搜索引擎每天只能抓幾萬個頁面,那么把網(wǎng)站抓一遍可能需要幾個月,甚至一年,也可能意味著一些重要頁面沒辦法被抓取,所以也就沒排名,或者重要頁面不能及時被更新。
要想網(wǎng)站頁面被及時、充分抓取,首先要保證服務(wù)器夠快,頁面夠小。如果網(wǎng)站有海量高質(zhì)量數(shù)據(jù),抓取份額將受限于抓取速度,提高頁面速度直接提高抓取速度限制,因而提高抓取份額。
百度站長平臺和Google Search Console都有抓取數(shù)據(jù)。如下圖某網(wǎng)站百度抓取頻次:
上圖是SEO每天一貼這種級別的小網(wǎng)站,頁面抓取頻次和抓取時間(取決于服務(wù)器速度和頁面大小)沒有什么大關(guān)系,說明沒有用完抓取份額,不用擔(dān)心。
有的時候,抓取頻次和抓取時間是有某種對應(yīng)關(guān)系的,如下圖另一個大些的網(wǎng)站:
可以看到,抓取時間改善(減小頁面尺寸、提高服務(wù)器速度、優(yōu)化數(shù)據(jù)庫),明顯導(dǎo)致抓取頻次上升,使更多頁面被抓取收錄,遍歷一遍網(wǎng)站更快速。
Google Search Console里更大點站的例子:
最上面的是抓取頁面數(shù),中間的是抓取數(shù)據(jù)量,除非服務(wù)器出錯,這兩個應(yīng)該是對應(yīng)的。最下面的是頁面抓取時間??梢钥吹剑撁嫦螺d速度夠快,每天抓取上百萬頁是沒有問題的。
當(dāng)然,像前面說的,能抓上百萬頁是一方面,搜索引擎想不想抓是另一方面。
大型網(wǎng)站另一個經(jīng)常需要考慮抓取份額的原因是,不要把有限的抓取份額浪費在無意義的頁面抓取上,導(dǎo)致應(yīng)該被抓取的重要頁面卻沒有機(jī)會被抓取。
浪費抓取份額的典型頁面有:
大量過濾篩選頁面。這一點,幾年前關(guān)于無效URL爬行索引的帖子里有詳細(xì)討論。站內(nèi)復(fù)制內(nèi)容低質(zhì)、垃圾內(nèi)容日歷之類的無限個頁面
上面這些頁面被大量抓取,可能用完抓取份額,該抓的頁面卻沒抓。
怎樣節(jié)省抓取份額?
當(dāng)然首先是降低頁面文件大小,提高服務(wù)器速度,優(yōu)化數(shù)據(jù)庫,降低抓取時間。
然后,盡量避免上面列出的浪費抓取份額的東西。有的是內(nèi)容質(zhì)量問題,有的是網(wǎng)站結(jié)構(gòu)問題,如果是結(jié)構(gòu)問題,最簡單的辦法是robots文件禁止抓取,但多少會浪費些頁面權(quán)重,因為權(quán)重只進(jìn)不出。
某些情況下使用鏈接nofollow屬性可以節(jié)省抓取份額。小網(wǎng)站,由于抓取份額用不完,加nofollow是沒有意義的。大網(wǎng)站,nofollow是可以在一定程度上控制權(quán)重流動和分配的,精心設(shè)計的nofollow會使無意義頁面權(quán)重降低,提升重要頁面權(quán)重。搜索引擎抓取時會使用一個URL抓取列表,里面待抓URL是按頁面權(quán)重排序的,重要頁面權(quán)重提升,會先被抓取,無意義頁面權(quán)重可能低到搜索引擎不想抓取。
最后幾個說明:
鏈接加nofollow不會浪費抓取份額。但在Google是會浪費權(quán)重的。noindex標(biāo)簽不能節(jié)省抓取份額。搜索引擎要知道頁面上有noindex標(biāo)簽,就得先抓取這個頁面,所以并不節(jié)省抓取份額。canonical標(biāo)簽有時候能節(jié)省一點抓取份額。和noindex標(biāo)簽一樣,搜索引擎要知道頁面上有canonical標(biāo)簽,就得先抓取這個頁面,所以并不直接節(jié)省抓取份額。但有canonical標(biāo)簽的頁面被抓取頻率經(jīng)常會降低,所以會節(jié)省一點抓取份額。抓取速度和抓取份額不是排名因素。但沒被抓取的頁面也談不上排名。
相關(guān)文章
- Cloudfront 是 Amazon 提供的 CDN 服務(wù),有每月免費 1T 的流量,該流量不可累計,個人小站的話,這個 CDN 是足夠用的了,而且主要是國內(nèi)訪問的速度還不錯,但是需要注意不要2023-10-19
免費為你的網(wǎng)站加速,全球訪問加速還可以防御ddos攻擊的cloudflare
CDN加速通俗來講就是把網(wǎng)站在全國各地的服務(wù)器上復(fù)制一份(即鏡像服務(wù)器),用戶在訪問的時候,路由自動分配到最近的服務(wù)器,提升訪問速度,大家在訪問軟件下載站的時候,經(jīng)2023-10-09什么是AMP(加速移動頁面)Web開發(fā)?AMP的好處以及它與響應(yīng)式網(wǎng)頁設(shè)計的
AMP技術(shù)是一項用于加速移動Web頁面加載速度的技術(shù),它通過限制頁面的HTML、CSS和JavaScript的使用,從而提高頁面加載速度和性能,下面我們將從以下幾個方面對AMP技術(shù)進(jìn)行拓展2023-10-09谷歌站長(Search Console)工具的注冊安裝及功能介紹
Google Search Console 是一項由 Google 提供的免費服務(wù),可幫助您監(jiān)控和維護(hù)您的網(wǎng)站在 Google 搜索結(jié)果中的展示情況以及排查問題,Search Console 可幫助您了解并改善 Go2023-05-13打開網(wǎng)站出現(xiàn)Internal Server Error的原因和解決方法
這篇文章主要介紹了打開網(wǎng)站出現(xiàn)Internal Server Error的原因和解決方法的相關(guān)資料,需要的朋友可以參考下,解決方法:登陸FTP或文件管理器,檢查站點目錄文件權(quán)限設(shè)置,將2022-01-08inxy:超低價“綜合型”國外CDN提供商,專業(yè)POP節(jié)點覆蓋亞洲\歐洲\美洲
inxy,這個2005年成立運作至今的商家不但提供11個機(jī)房的VPS、24個機(jī)房獨立服務(wù)器,更重要的核心業(yè)務(wù)還有CDN,之所以要來推薦inxy的CDN是因為在性價比上面有著獨到的優(yōu)勢2020-11-16分享盤點10個可免費使用的網(wǎng)站CDN加速服務(wù)
大部分服務(wù)商(如阿里云,網(wǎng)易蜂巢,京東云等)的CDN服務(wù)是按使用量收費的,也有一些服務(wù)商提供免費的CDN服務(wù),這篇文章主要介紹了分享盤點10個可免費使用的網(wǎng)站CDN加速服2020-08-17INXY:運作全球26個國家和地區(qū)的 獨立服務(wù)器、VPS、CDN業(yè)務(wù),價格超便
INXY主要運作獨立服務(wù)器、VPS、CDN、DNS四大類業(yè)務(wù)。inxy有自己的機(jī)房,也賣全球其他國家和地區(qū)的相關(guān)業(yè)務(wù),可以說是一個超大型的reseller2019-09-29- 這篇文章主要介紹了新手干貨之網(wǎng)站建設(shè)中常見的一些問題,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-09-18
給我三分鐘還你一個不買視頻會員的理由,手把手教搭建電影網(wǎng)站
本篇文章主要介紹了手把手教搭建電影網(wǎng)站,今天我們就來搭建一個VIP電影網(wǎng)站,本文主旨在于,從基礎(chǔ)的搭建一個簡單的解析網(wǎng)站來引入一些思路,手把手什么的最貼心了。2019-08-22