淺談文章排名 百度是如何給網(wǎng)頁排序的

我們向搜索引擎提交一個查詢,搜索引擎會從先到后列出大量的結(jié)果,排序的不同帶來的經(jīng)濟(jì)效應(yīng)也不同,我們想要的就是讓自己的搜索結(jié)果靠前,最好是能得到NO.1。那么這些搜索結(jié)果排序的標(biāo)準(zhǔn)是什么呢?
還是看看百度搜索研發(fā)部以求醫(yī)為例談搜索引擎排序算法的基礎(chǔ)原理。
比如,如果我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)只有三種選擇:
A醫(yī)生,既治眼病,又治胃?。?/strong>
B醫(yī)生,既治牙病,又治胃病,還治眼病;
C醫(yī)生,專治牙病。
A醫(yī)生肯定不在考慮之列,B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)該選擇C醫(yī)生,因?yàn)樗鼘W?,更適合我的病情。假如再加一個條件:B醫(yī)生經(jīng)驗(yàn)豐富,有二十年從醫(yī)經(jīng)歷,醫(yī)術(shù)高明,而C醫(yī)生只有五年從醫(yī)經(jīng)驗(yàn),這個問題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術(shù)更加高明的B醫(yī)生,的確成了一個需要仔細(xì)權(quán)衡的問題。
至少,我們得到了一個結(jié)論,擇醫(yī)需要考慮兩個條件:醫(yī)生的專長與病情的適配程度、醫(yī)生的醫(yī)術(shù)。大家肯定覺得這個結(jié)論理所當(dāng)然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網(wǎng)頁內(nèi)容與用戶搜索查詢的匹配程度,又要考慮網(wǎng)頁本身的質(zhì)量。
但是,怎么把這兩種因素結(jié)合起來,得到一個,而不是兩個或多個排序標(biāo)準(zhǔn)呢?簡單的加減乘除是不夠嚴(yán)謹(jǐn)?shù)?,最好能跟?shù)學(xué)這樣堅(jiān)實(shí)的學(xué)科聯(lián)系起來。人類在古代就能建造出高樓,但要建造出高達(dá)數(shù)百米的摩天大廈,如果沒有建筑力學(xué)、材料力學(xué)這樣堅(jiān)實(shí)的學(xué)科作為后盾,則是非常非常困難的。同理,搜索引擎算法要處理上億的網(wǎng)頁,也需要更為牢固的理論基礎(chǔ)。
求醫(yī),病人會優(yōu)先選擇診斷準(zhǔn)確、治療效果好的醫(yī)生。而對于搜索引擎來說,一般按網(wǎng)頁滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個特定的搜索查詢,用d表示一個特定的網(wǎng)頁滿足了用戶的需求,那么排序的依據(jù)可以用一個條件概率來表示:
這個簡單的條件概率,將搜索引擎排序算法與概率論這門堅(jiān)實(shí)的學(xué)科聯(lián)系了起來。可以看到,搜索引擎的排序標(biāo)準(zhǔn),是由三個部分組成的:搜索查詢本身的屬性P(q)、網(wǎng)頁本身的屬性P(d)、兩者的匹配關(guān)系P(q|d)。對于同一次查詢來說,所有網(wǎng)頁對應(yīng)的P(q)都是一樣的,因此排序時可以不考慮,即
搜索引擎為了提高響應(yīng)用戶搜索查詢的性能,需要事先對所有待查詢的網(wǎng)頁做預(yù)處理。預(yù)處理時,搜索引擎預(yù)處理只知道網(wǎng)頁,還不知道用戶查詢,因此需要倒過來計(jì)算,即分析每個網(wǎng)頁能滿足哪些需求,該網(wǎng)頁分了多大比例來滿足該需求,即得到公式右邊的第一項(xiàng)P(q|d),這相當(dāng)于醫(yī)生的專注程度。
比如,一個網(wǎng)頁專門介紹牙病,另一個網(wǎng)頁既介紹牙病又介紹胃病,那么對于“牙疼”這個查詢來說,前一個網(wǎng)頁的P(q|d)值就會更高一些。
公式右邊的第二項(xiàng)P(d),是一個網(wǎng)頁滿足用戶需求的概率,它反映了網(wǎng)頁本身的好壞,與查詢無關(guān)。假如要向一個陌生人推薦網(wǎng)頁(我們并不知道他需要什么),那么P(d)就相當(dāng)于某個特定的網(wǎng)頁被推薦的概率。在傳統(tǒng)的信息檢索模型中,這個不太被重視,之前都試圖只根據(jù)查詢與文檔的匹配關(guān)系來得到排序的權(quán)重。而實(shí)際上,這個與查詢無關(guān)的量是非常重要的。
假如我們用網(wǎng)頁被訪問的頻次來估計(jì)它滿足用戶需求的概率,可以看出對于兩個不同的網(wǎng)頁,這個量有著極其巨大的差異:有的網(wǎng)頁每天只被訪問一兩次,而有的網(wǎng)頁每天被訪問成千上萬次,這對于排序非常重要。
總而言之,這個公式模型告訴了我們網(wǎng)頁與查詢的匹配程度,和網(wǎng)頁本身的好壞都是參與排序排名的重要因素。
怎么樣?文章中的內(nèi)容在現(xiàn)在是不是有很多都似曾相似,是不是在互聯(lián)網(wǎng)上看到很多文章都和這類似?其實(shí)很多內(nèi)容都是從這里衍生出去的。比如搜索引擎的綜合得分排序、比如關(guān)鍵詞與網(wǎng)頁內(nèi)容的相關(guān)度、比如網(wǎng)頁本身好壞對排序影響等等。
一個最簡單的例子,著名的搜索引擎排序算法pagerank算法,其實(shí)就是為了彌補(bǔ)傳統(tǒng)算法對P(d)值(頁面本身好壞判斷)的不足而產(chǎn)生的,Pagerank是對網(wǎng)頁好壞判斷的一個不錯的標(biāo)準(zhǔn)。而現(xiàn)在的網(wǎng)頁點(diǎn)擊量、停留時間、跳出率、頁面訪問速度等都是對網(wǎng)頁滿足用戶需求概率的預(yù)估,這一個因素越來越重要。
其實(shí)也是大篇幅的在談?wù)劸W(wǎng)頁本身好壞這一點(diǎn)。隨著用戶時代來臨,用戶投票越來越影響搜索排名,而用戶主要衡量的除了需求滿足外就是網(wǎng)頁本身質(zhì)量。所以,網(wǎng)頁本身質(zhì)量不管對于用戶還是搜索引擎,在排序上都變得越來越重要。
一句話,很多時候需要透過現(xiàn)象去看本質(zhì),而你看透這個本質(zhì)后,再看其他現(xiàn)象,一切都那么明了。謝謝閱讀,希望能幫到大家,請繼續(xù)關(guān)注腳本之家,我們會努力分享更多優(yōu)秀的文章。
相關(guān)文章
這幾天爆火的chatgpt是啥? 與SEO有沒有關(guān)系? 速看
近日,OpenAI 帶來了一種全新的 AI 聊天機(jī)器人——ChatGPT,它不僅能對話、寫作還能編程、Debug,厲害得嚇人,那么chatgpt與SEO有沒有關(guān)系?詳細(xì)請看下文介紹2022-12-10- 這篇文章主要介紹了收錄與索引是什么意思?收錄和索引的區(qū)別是什么?的相關(guān)資料,需要的朋友可以參考下本文詳細(xì)內(nèi)容介紹2022-11-07
大網(wǎng)站與小網(wǎng)站做排名流量的區(qū)別是什么
這篇文章主要介紹了大網(wǎng)站與小網(wǎng)站做排名流量的區(qū)別是什么的相關(guān)資料,需要的朋友可以參考下本文詳細(xì)內(nèi)容介紹2022-11-07- 不同的搜索引擎提供了服務(wù)后臺常見功能來優(yōu)化網(wǎng)站搜索,下面文章就為大家詳細(xì)介紹,一起看看吧2021-10-14
新站如何優(yōu)化 網(wǎng)站收錄/關(guān)鍵詞排名等問題解答
筆者最近收到很多關(guān)于新站優(yōu)化的咨詢,問題無外乎是網(wǎng)站首頁怎么還沒收錄、網(wǎng)站內(nèi)容什么時候收錄、關(guān)鍵詞排名什么時候才能上來等等。這些問題看似很重要,但筆者認(rèn)為對上線2021-03-19如何快速收錄網(wǎng)站內(nèi)容 想要快速收錄網(wǎng)站內(nèi)容的注意事項(xiàng)
對于網(wǎng)站SEO優(yōu)化而言,頁面收錄是很重要的環(huán)節(jié),因?yàn)槿绻W(wǎng)站沒有收錄,或者網(wǎng)站收錄少的話,那么就談不上關(guān)鍵詞排名了。那么如何快速收錄網(wǎng)站,如何快速收錄一篇文章呢?本2021-03-19- 2020年如何利用SEO增加流量?下文小編就為大家?guī)碓敿?xì)教程,感興趣的朋友可以一起看看2020-03-06
- 當(dāng)我們優(yōu)化我們的網(wǎng)站時,有時發(fā)現(xiàn)我們優(yōu)化好的關(guān)鍵詞的排名突然變得不穩(wěn)定。這要怎么辦呢?下文小編就為大家整理了幾天避免下降方法,一起看看吧2020-03-02
企業(yè)網(wǎng)站被降權(quán)的具體原因有那些 企業(yè)網(wǎng)站被降權(quán)的原因分析
企業(yè)網(wǎng)站被降權(quán)的具體原因有那些?下文中為大家?guī)砹似髽I(yè)網(wǎng)站被降權(quán)的四大因素分析。感興趣的朋友不妨閱讀下文內(nèi)容,參考一下吧2019-11-13老網(wǎng)站突然不收錄了為什么 多年的老網(wǎng)站突然不收錄的原因及解決方法
老網(wǎng)站突然不收錄了為什么?下文中為大家?guī)砹硕嗄甑睦暇W(wǎng)站突然不收錄的14個原因及解決方法。感興趣的朋友不妨閱讀下文內(nèi)容,參考一下吧2019-11-13