百度是如何收錄網(wǎng)頁的?百度蜘蛛收錄一個網(wǎng)站的的全過程揭秘

搜索引擎工作過程非常復(fù)雜,今天和大家分享一下我所了解的百度蜘蛛是怎么實(shí)現(xiàn)網(wǎng)頁收錄的。
搜索引擎工作大致可以分為四個過程。
1、蜘蛛爬行抓取。
2、信息過濾。
3、建立網(wǎng)頁關(guān)鍵詞索引。
4、用戶搜索輸出結(jié)果。
蜘蛛爬行抓取
當(dāng)百度蜘蛛來到一個頁面時,它會跟蹤頁面上的鏈接,從這個頁面爬行到下一個頁面,就好像一個遞歸過程,這樣常年累月,不止疲倦的工作。比如蜘蛛來到了我的博客首頁http://blog.sina.com.cn/netSEOer,它會先讀取根目錄下的robots.txt文件,如果沒有禁止搜索引擎抓取,那么蜘蛛就開始針對網(wǎng)頁上的鏈接,進(jìn)行逐一跟蹤爬行。比如我的置頂文章“SEO概述|什么是SEO SEO到底是干嘛的”,引擎就會多進(jìn)程式的來到這篇文章所在的網(wǎng)頁抓取信息,如此循壞,沒有終結(jié)。
信息過濾
為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會有一個記錄已爬行和未被爬行的地址庫,如果你有一個新網(wǎng)站時,你可以去百度官網(wǎng)提交網(wǎng)站的網(wǎng)址,引擎就會記錄它,并把它歸類到未爬行的網(wǎng)址,然后蜘蛛就會根據(jù)這個表格,從數(shù)據(jù)庫中提取URL,訪問并抓取頁面。
蜘蛛并不會收錄所有的頁面,它要經(jīng)過嚴(yán)格檢測。當(dāng)蜘蛛在爬行和抓取一個網(wǎng)頁的內(nèi)容時,會進(jìn)行一定程度的復(fù)制內(nèi)容檢測,如果網(wǎng)頁所在的網(wǎng)站權(quán)重低,而且大部分文章都是抄襲來的話,蜘蛛就很可能不喜歡你的網(wǎng)站了,不在繼續(xù)爬行,也就不收錄你的網(wǎng)站。
建立網(wǎng)頁關(guān)鍵詞索引
當(dāng)蜘蛛抓取了一個頁面之后,首先會對頁面文字內(nèi)容進(jìn)行分析。通過分詞技術(shù),將網(wǎng)頁的內(nèi)容簡化到關(guān)鍵詞,并把關(guān)鍵詞和對應(yīng)的網(wǎng)址制成表格建立索引。
索引又有正向索引和反向索引,正向索引是把網(wǎng)頁內(nèi)容對應(yīng)的關(guān)鍵詞,反向是關(guān)鍵詞對應(yīng)的網(wǎng)頁信息。
輸出結(jié)果
當(dāng)用戶搜索了某個關(guān)鍵詞之后,就會通過前面建立的索引表進(jìn)行關(guān)鍵詞匹配,通過反向索引表找到關(guān)鍵詞對應(yīng)的頁面,通過引擎對網(wǎng)頁綜合評分計算以后,根據(jù)網(wǎng)頁的評分來決定網(wǎng)頁的先后順序排名。
相關(guān)推薦:
怎么查詢ip是否為百度蜘蛛ip? tracert指令的使用方法
相關(guān)文章
如何用百度排查已收錄頁面網(wǎng)址的異常?四個方面找出收錄頁面在百度中的
頁面被百度收錄了成千上萬,但是你知道收錄的這些頁面有多少是錯誤頁面嘛?有多少頁面打不開嘛?你花時間去整理錯誤頁面了嘛?本文將提供四個方面找出收錄頁面在百度中的錯2016-01-08網(wǎng)站內(nèi)容頁為什么不被百度收錄? 網(wǎng)站內(nèi)容頁不收錄的原因解析
想要自己網(wǎng)站有排名從搜索引擎里獲得流量,除了僅僅首頁有排名是完全不行,眾多的內(nèi)頁才是我們優(yōu)化的途徑和獲取更多流量的來源。而其中可以獲取更多流量的內(nèi)容頁卻不被收錄2016-01-07網(wǎng)站未收錄的頁面該怎優(yōu)化讓其快速收錄?
網(wǎng)站未收錄的頁面該怎優(yōu)化讓其快速收錄?網(wǎng)站總是出現(xiàn)很多未收錄的頁面,該怎么解決這個問題呢?關(guān)于未錄入的頁面將推送給spider進(jìn)行抓取,雖然可以提交收錄,但是有時候沒2016-01-03- 眾所周知,目前微信公眾平臺發(fā)布的內(nèi)容僅有兩個搜索入口,一個是微信和搜狗聯(lián)合搞的微信搜索,另外一個就是微信APP搜索。如今用百度同樣能搜索到公眾平臺的文章,是一件非2014-10-10
- 關(guān)于新站不收錄內(nèi)頁這個問題一直都是新手SEO最頭疼的問題,下面的文章就詳細(xì)為大家介紹下加快新站內(nèi)頁收錄的方法。希望可以幫助到大家2014-10-09
- 新站只收錄首頁不收錄內(nèi)頁問題估計已經(jīng)困擾了很多站長無數(shù)腦汁了吧,下面一起來看看吧2014-08-07
- 今天小編和大家分享一下新站帶www的網(wǎng)頁不被收錄的原因及解決方法,有興趣的朋友可以一起來看看2025-01-01
百度谷歌等搜索引擎的工作原理及網(wǎng)站收錄網(wǎng)頁提交入口地址
這篇文章主要介紹了百度谷歌等搜索引擎的工作原理及網(wǎng)站收錄網(wǎng)頁提交入口地址,需要的朋友可以參考下2014-04-08- 你想知道影響百度收錄的網(wǎng)頁相似度問題怎么解決嗎?該文就是解決這一問題的文章,分享給大家2014-01-15
網(wǎng)站優(yōu)化 搜索引擎收錄網(wǎng)頁的四個階段
站長朋友需要知道。搜索引擎收錄頁面的特性,才能更好把網(wǎng)站做好,做真正有價值的網(wǎng)站內(nèi)容2013-12-28