腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

科普：搜索引擎的基本工作原理

發(fā)布時(shí)間：2016-12-22 16:44:06 作者：佚名

我要評(píng)論

今天江西SEO曾慶平寫篇科普文，講講搜索引擎的技術(shù)機(jī)理和市場競爭的一些特點(diǎn)。當(dāng)然，作為從事或有興趣從事流量運(yùn)營的朋友，是可以用另一個(gè)角度去理解本文

那么問題來了，什么是關(guān)鍵詞。

英文來說，比如 this is a book，中文，這是一本書。

英文很自然是四個(gè)單詞，空格是天然的分詞符，中文呢？你不能把一句話當(dāng)作關(guān)鍵詞吧（如果把一句話當(dāng)作關(guān)鍵詞，那么你搜索其中部分信息的時(shí)候，是無法索引命中的，比如搜索一本書，就搜索不出來了，而這顯然是不符合搜索引擎訴求的）。所以要分詞。

最開始，最簡單的思路是，每個(gè)字都切開，這個(gè)以前叫字索引，每個(gè)字建立索引，并標(biāo)注位置，如果用戶搜索一個(gè)關(guān)鍵詞，也是把關(guān)鍵詞拆成字來搜索再組合結(jié)果，但這樣問題就來了。

比如搜索關(guān)鍵詞 “海鮮”的時(shí)候，會(huì)出現(xiàn)結(jié)果，上海鮮花，這顯然不是應(yīng)該的搜索結(jié)果。

比如搜索關(guān)鍵詞 “和服”的時(shí)候，會(huì)出現(xiàn)結(jié)果，交換機(jī)和服務(wù)器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個(gè)梗，別笑，這些都是血淚梗，半夜電話過來，說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除，否則就關(guān)閉你的網(wǎng)站，夜半驚醒認(rèn)真排查，百思不得其解，苦苦哀求提供信息線索，最后發(fā)現(xiàn)，有人發(fā)了一條小廣告，“求購二十四口交換機(jī)” 。還有，涉嫌政治敏感，查到最后 “提供三臺(tái)獨(dú)立服務(wù)器”，看出其中敏感詞了沒？你說冤不冤。這兩個(gè)故事可能并不是真的，因?yàn)槎际蔷W(wǎng)上看到的，但是我想說，類似這樣的事情真的有，并非都是空穴來風(fēng)。

所以，分詞，是亞洲很多語言需要額外處理的事情，而西方語言不存在的問題。

但分詞不是說說那么簡單，比如幾點(diǎn)，1：如何識(shí)別人名？2、互聯(lián)網(wǎng)新詞如何識(shí)別？比如 “不明覺厲”。3、中英混排的坑，比如QQ表情。

做一個(gè)分詞系統(tǒng)，說到底也不難，但是要做一個(gè)自動(dòng)學(xué)習(xí)，與時(shí)俱進(jìn)，又能高效率靈活的分詞引擎，還是很有技術(shù)難度的。當(dāng)然，這方面我不是專家，不敢妄言了。

現(xiàn)在機(jī)器學(xué)習(xí)技術(shù)發(fā)達(dá)了，特別是google在深度學(xué)習(xí)領(lǐng)域擁有領(lǐng)先優(yōu)勢，以前很多通過人工做標(biāo)定，做分類的工作可以交給算法完成，從某種意義來說，本地化的工作可以讓機(jī)器學(xué)習(xí)去完成；未來，也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)掌握本地化的技巧。但我想說兩點(diǎn)，第一，從搜索引擎發(fā)展歷史看，在深度學(xué)習(xí)技術(shù)還沒成熟的情況下，本地化的工作是非常重要的，也是很重要的決定競爭成敗的要素；第二，即便現(xiàn)在深度學(xué)習(xí)已經(jīng)很強(qiáng)大，基于當(dāng)?shù)卣Z言的人工參與，標(biāo)定，測試，反饋，一些本地化的工作依然對(duì)深度學(xué)習(xí)的效率和效果擁有不可替代的作用。

索引系統(tǒng)除了分詞之外，還有一些要點(diǎn)，比如實(shí)時(shí)索引，因?yàn)橐淮嗡饕龓斓母率莻€(gè)大動(dòng)靜，一般網(wǎng)站運(yùn)營者知道，自己網(wǎng)站內(nèi)容更新后，需要等索引庫下一次更新才能看到效果，而且索引庫針對(duì)不同權(quán)重的網(wǎng)站內(nèi)容，更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網(wǎng)站，以及新聞搜索，索引庫是可以做到近似實(shí)時(shí)索引的，所以我們?cè)谛侣勊阉骼?，幾分鐘前的信息就已?jīng)可以搜索到了。

我以前經(jīng)常吐槽一個(gè)事情，我在百度空間發(fā)表的文章，每次都是google率先索引收錄，當(dāng)時(shí)他們的解釋是，猜測是因?yàn)楹芏嗳送ㄟ^google閱讀器訂閱我的博客，而google閱讀器很可能是google快速索引的入口。（然并卵，百度空間已經(jīng)沒有了，google閱讀器也沒有了。）

索引系統(tǒng)的權(quán)值體系，是所有SEOER們最關(guān)心的問題，他們經(jīng)常通過不同方式組合策略，觀察搜索引擎的收錄，排名，來路情況，然后通過對(duì)比分析整理出相關(guān)的策略，這玩意說出來可以開很長一篇了，但今天就不提了。

但我說一個(gè)事實(shí)，很多外面的公司，做SEO的，會(huì)誤認(rèn)為百度里面的人熟悉這里的門道和規(guī)律，很多人高價(jià)去挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師去做SEO，結(jié)果，呵呵，呵呵。而外面那些草根創(chuàng)業(yè)者，有些善于此道的，真的比百度的人還清楚，搜索權(quán)值的影響關(guān)系，和更新頻次等等，比如前面說到的，身價(jià)幾十億的那個(gè)80后創(chuàng)業(yè)者。

基于結(jié)果反推策略，比身在其中卻不識(shí)全局的參與者，更能找到系統(tǒng)的關(guān)鍵點(diǎn)，有意思不。

3、查詢展現(xiàn)

用戶在瀏覽器或者在手機(jī)客戶端輸入一個(gè)關(guān)鍵詞，或者幾個(gè)關(guān)鍵詞，甚至一句話，這個(gè)在服務(wù)端，應(yīng)答程序獲取后處理步驟如下

第一步，會(huì)檢查最近時(shí)間有沒有人搜索過同樣的關(guān)鍵詞，如果存在這樣的緩存，最快的處理是將這塊緩存提供給你，這樣查詢效率最高，對(duì)后端負(fù)載壓力最低。

第二步，發(fā)現(xiàn)這個(gè)輸入查詢最近沒有搜索，或者有其他條件的原因必須更新結(jié)果，那么會(huì)將這個(gè)用戶輸入的詞，進(jìn)行分詞，沒錯(cuò)，如果不止一個(gè)關(guān)鍵詞，或者是一句話的情況下，應(yīng)答程序會(huì)又一次分詞，將搜索的查詢拆成幾個(gè)不同的關(guān)鍵詞。

第三步，將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中，查詢系統(tǒng)會(huì)去索引庫查詢，索引庫是個(gè)龐大的分布式系統(tǒng)，先分析這個(gè)關(guān)鍵詞屬于哪一塊哪一臺(tái)服務(wù)器，索引是一種有序的數(shù)據(jù)組合，我們用可以用近似二分法的方式思考，不管數(shù)據(jù)規(guī)模多大，你用二分法去查找一個(gè)結(jié)果，查詢頻次是log2(N)，這個(gè)就保證了海量數(shù)據(jù)下，查詢一個(gè)關(guān)鍵詞是非常快非?？斓?。當(dāng)然，實(shí)際情況會(huì)比二分法復(fù)雜很多，這樣說比較容易理解而已，再復(fù)雜些不是我不告訴大家，是我自己都不是很清楚呢。

第四步，不同關(guān)鍵詞的查詢結(jié)果（只是按權(quán)值排序的部分頂部結(jié)果，絕對(duì)不是全部結(jié)果），基于權(quán)值倒序，會(huì)再匯總在一起，然后把共同命中的部分反饋回來，并做最后的權(quán)值排序。

記住，搜索引擎絕對(duì)不會(huì)返回所有結(jié)果，這個(gè)開銷誰都受不了，百度也不行，google也不行，翻頁都是有限制的。

再記住，如果你多個(gè)關(guān)鍵詞里有多個(gè)不同品類冷門詞，搜索引擎有可能會(huì)舍棄其中一個(gè)冷門詞，因?yàn)閰R總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話，這樣的范例偶爾會(huì)出現(xiàn)。

這是三大部分，多說一點(diǎn)，其實(shí)還有第四部分。

4、用戶點(diǎn)擊行為采集和反饋部分

基于用戶的翻頁，點(diǎn)擊分布，對(duì)搜索結(jié)果的優(yōu)劣做判定，并對(duì)權(quán)值做調(diào)整，但這個(gè)早期搜索引擎是沒有的，后面才有，所以暫時(shí)不列為必備的三大塊。

此外，一些對(duì)搜索優(yōu)化的機(jī)器學(xué)習(xí)策略，對(duì)易混詞識(shí)別，同音詞識(shí)別等等，相當(dāng)部分也都基于用戶行為反饋進(jìn)行，這是后話，這里不展開。

關(guān)于第四部分，我以前說過一個(gè)詞，點(diǎn)擊提權(quán)，我說這個(gè)詞價(jià)值千金，我猜很多人并沒理解。沒理解就好，要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理，和一些技術(shù)邏輯，當(dāng)然，只是入門級(jí)的解讀，畢竟再深入就不是我能講解的了。

但搜索引擎的本地化，并不局限于搜索技術(shù)的本地化。

百度的強(qiáng)大，不只是搜索技術(shù)，當(dāng)然有些人會(huì)說百度沒有搜索技術(shù)，這種言論我就不爭論了，我不試圖改變?nèi)魏稳说挠^點(diǎn)，我只列一些事實(shí)而已。

百度的強(qiáng)大還來自于兩大塊，第一是內(nèi)容護(hù)城河，第二是入口把控。

前者是百度貼吧，百度mp3，百度知道，百度百科，百度文庫

后者是hao123和百度聯(lián)盟。

這兩塊都是本地化，google進(jìn)中國的時(shí)候，在這兩塊都有動(dòng)作。

投資天涯，收購265，以及大力發(fā)展google聯(lián)盟，這些都是本地化。

此外，重申一下，百度全家桶的出現(xiàn)以及，百度全家桶和hao123的捆綁，是360崛起之后的事情，hao123從百度收購到360崛起之前，一直風(fēng)平浪靜的沒做任何推廣和捆綁，從歷史事實(shí)而言，請(qǐng)勿將本地化等同于流氓化。

作者：江西SEO曾慶平（www.qingpingseo.com）

版權(quán)所有。轉(zhuǎn)載時(shí)必須以鏈接形式注明作者和原始出處。請(qǐng)大家尊重原創(chuàng)，珍惜別人的汗水!

Tag：搜索引擎

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

科普：搜索引擎的基本工作原理

相關(guān)文章

最新評(píng)論

文章分類

大家感興趣的內(nèi)容

最近更新的內(nèi)容