欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

科普:搜索引擎的基本工作原理

  發(fā)布時(shí)間:2016-12-22 16:44:06   作者:佚名   我要評(píng)論
今天江西SEO曾慶平寫篇科普文,講講搜索引擎的技術(shù)機(jī)理和市場競爭的一些特點(diǎn)。當(dāng)然,作為從事或有興趣從事流量運(yùn)營的朋友,是可以用另一個(gè)角度去理解本文

那么問題來了,什么是關(guān)鍵詞。

英文來說,比如 this is a book,中文,這是一本書。

英文很自然是四個(gè)單詞,空格是天然的分詞符,中文呢?你不能把一句話當(dāng)作關(guān)鍵詞吧(如果把一句話當(dāng)作關(guān)鍵詞,那么你搜索其中部分信息的時(shí)候,是無法索引命中的,比如搜索一本書,就搜索不出來了,而這顯然是不符合搜索引擎訴求的)。所以要分詞。

最開始,最簡單的思路是,每個(gè)字都切開,這個(gè)以前叫字索引,每個(gè)字建立索引,并標(biāo)注位置,如果用戶搜索一個(gè)關(guān)鍵詞,也是把關(guān)鍵詞拆成字來搜索再組合結(jié)果,但這樣問題就來了。

比如搜索關(guān)鍵詞 “海鮮”的時(shí)候,會(huì)出現(xiàn)結(jié)果,上海鮮花,這顯然不是應(yīng)該的搜索結(jié)果。

比如搜索關(guān)鍵詞 “和服”的時(shí)候,會(huì)出現(xiàn)結(jié)果,交換機(jī)和服務(wù)器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個(gè)梗,別笑,這些都是血淚梗,半夜電話過來,說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除,否則就關(guān)閉你的網(wǎng)站,夜半驚醒認(rèn)真排查,百思不得其解,苦苦哀求提供信息線索,最后發(fā)現(xiàn),有人發(fā)了一條小廣告,“求購二十四口交換機(jī)” 。 還有,涉嫌政治敏感,查到最后 “提供三臺(tái)獨(dú)立服務(wù)器”,  看出其中敏感詞了沒?你說冤不冤。 這兩個(gè)故事可能并不是真的,因?yàn)槎际蔷W(wǎng)上看到的,但是我想說,類似這樣的事情真的有,并非都是空穴來風(fēng)。

所以,分詞,是亞洲很多語言需要額外處理的事情,而西方語言不存在的問題。

但分詞不是說說那么簡單,比如幾點(diǎn),1:如何識(shí)別人名?2、互聯(lián)網(wǎng)新詞如何識(shí)別?比如 “不明覺厲”。3、中英混排的坑,比如QQ表情。

做一個(gè)分詞系統(tǒng),說到底也不難,但是要做一個(gè)自動(dòng)學(xué)習(xí),與時(shí)俱進(jìn),又能高效率靈活的分詞引擎,還是很有技術(shù)難度的。  當(dāng)然,這方面我不是專家,不敢妄言了。

現(xiàn)在機(jī)器學(xué)習(xí)技術(shù)發(fā)達(dá)了,特別是google在深度學(xué)習(xí)領(lǐng)域擁有領(lǐng)先優(yōu)勢,以前很多通過人工做標(biāo)定,做分類的工作可以交給算法完成,從某種意義來說,本地化的工作可以讓機(jī)器學(xué)習(xí)去完成;未來,也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)掌握本地化的技巧。 但我想說兩點(diǎn),第一,從搜索引擎發(fā)展歷史看,在深度學(xué)習(xí)技術(shù)還沒成熟的情況下,本地化的工作是非常重要的,也是很重要的決定競爭成敗的要素;第二,即便現(xiàn)在深度學(xué)習(xí)已經(jīng)很強(qiáng)大,基于當(dāng)?shù)卣Z言的人工參與,標(biāo)定,測試,反饋,一些本地化的工作依然對(duì)深度學(xué)習(xí)的效率和效果擁有不可替代的作用。

索引系統(tǒng)除了分詞之外,還有一些要點(diǎn),比如實(shí)時(shí)索引,因?yàn)橐淮嗡饕龓斓母率莻€(gè)大動(dòng)靜,一般網(wǎng)站運(yùn)營者知道,自己網(wǎng)站內(nèi)容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對(duì)不同權(quán)重的網(wǎng)站內(nèi)容,更新的頻次也不太一樣。 但諸如一些高優(yōu)先的資訊網(wǎng)站,以及新聞搜索,索引庫是可以做到近似實(shí)時(shí)索引的,所以我們?cè)谛侣勊阉骼?,幾分鐘前的信息就已?jīng)可以搜索到了。

我以前經(jīng)常吐槽一個(gè)事情,我在百度空間發(fā)表的文章,每次都是google率先索引收錄,當(dāng)時(shí)他們的解釋是,猜測是因?yàn)楹芏嗳送ㄟ^google閱讀器訂閱我的博客,而google閱讀器很可能是google快速索引的入口。(然并卵,百度空間已經(jīng)沒有了,google閱讀器也沒有了。)

索引系統(tǒng)的權(quán)值體系,是所有SEOER們最關(guān)心的問題,他們經(jīng)常通過不同方式組合策略,觀察搜索引擎的收錄,排名,來路情況,然后通過對(duì)比分析整理出相關(guān)的策略,這玩意說出來可以開很長一篇了,但今天就不提了。

但我說一個(gè)事實(shí),很多外面的公司,做SEO的,會(huì)誤認(rèn)為百度里面的人熟悉這里的門道和規(guī)律,很多人高價(jià)去挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師去做SEO,結(jié)果,呵呵,呵呵。 而外面那些草根創(chuàng)業(yè)者,有些善于此道的,真的比百度的人還清楚,搜索權(quán)值的影響關(guān)系,和更新頻次等等,比如前面說到的,身價(jià)幾十億的那個(gè)80后創(chuàng)業(yè)者。

基于結(jié)果反推策略,比身在其中卻不識(shí)全局的參與者,更能找到系統(tǒng)的關(guān)鍵點(diǎn),有意思不。

3、查詢展現(xiàn)

用戶在瀏覽器或者在手機(jī)客戶端輸入一個(gè)關(guān)鍵詞,或者幾個(gè)關(guān)鍵詞,甚至一句話,這個(gè)在服務(wù)端,應(yīng)答程序獲取后處理步驟如下

第一步,會(huì)檢查最近時(shí)間有沒有人搜索過同樣的關(guān)鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率最高,對(duì)后端負(fù)載壓力最低。

第二步,發(fā)現(xiàn)這個(gè)輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結(jié)果,那么會(huì)將這個(gè)用戶輸入的詞,進(jìn)行分詞,沒錯(cuò),如果不止一個(gè)關(guān)鍵詞,或者是一句話的情況下,應(yīng)答程序會(huì)又一次分詞,將搜索的查詢拆成幾個(gè)不同的關(guān)鍵詞。

第三步,將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中,查詢系統(tǒng)會(huì)去索引庫查詢,索引庫是個(gè)龐大的分布式系統(tǒng),先分析這個(gè)關(guān)鍵詞屬于哪一塊哪一臺(tái)服務(wù)器,索引是一種有序的數(shù)據(jù)組合,我們用可以用近似二分法的方式思考,不管數(shù)據(jù)規(guī)模多大,你用二分法去查找一個(gè)結(jié)果,查詢頻次是log2(N),這個(gè)就保證了海量數(shù)據(jù)下,查詢一個(gè)關(guān)鍵詞是非常快非??斓?。 當(dāng)然,實(shí)際情況會(huì)比二分法復(fù)雜很多,這樣說比較容易理解而已,再復(fù)雜些不是我不告訴大家,是我自己都不是很清楚呢。

第四步,不同關(guān)鍵詞的查詢結(jié)果(只是按權(quán)值排序的部分頂部結(jié)果,絕對(duì)不是全部結(jié)果),基于權(quán)值倒序,會(huì)再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權(quán)值排序。

記住,搜索引擎絕對(duì)不會(huì)返回所有結(jié)果,這個(gè)開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。

再記住,如果你多個(gè)關(guān)鍵詞里有多個(gè)不同品類冷門詞,搜索引擎有可能會(huì)舍棄其中一個(gè)冷門詞,因?yàn)閰R總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話,這樣的范例偶爾會(huì)出現(xiàn)。

這是三大部分,多說一點(diǎn),其實(shí)還有第四部分。

4、用戶點(diǎn)擊行為采集和反饋部分

基于用戶的翻頁,點(diǎn)擊分布,對(duì)搜索結(jié)果的優(yōu)劣做判定,并對(duì)權(quán)值做調(diào)整,但這個(gè)早期搜索引擎是沒有的,后面才有,所以暫時(shí)不列為必備的三大塊。

此外,一些對(duì)搜索優(yōu)化的機(jī)器學(xué)習(xí)策略,對(duì)易混詞識(shí)別,同音詞識(shí)別等等,相當(dāng)部分也都基于用戶行為反饋進(jìn)行,這是后話,這里不展開。

關(guān)于第四部分,我以前說過一個(gè)詞,點(diǎn)擊提權(quán),我說這個(gè)詞價(jià)值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理,和一些技術(shù)邏輯,當(dāng)然,只是入門級(jí)的解讀,畢竟再深入就不是我能講解的了。

但搜索引擎的本地化,并不局限于搜索技術(shù)的本地化。

百度的強(qiáng)大,不只是搜索技術(shù),當(dāng)然有些人會(huì)說百度沒有搜索技術(shù),這種言論我就不爭論了,我不試圖改變?nèi)魏稳说挠^點(diǎn),我只列一些事實(shí)而已。

百度的強(qiáng)大還來自于兩大塊,第一是內(nèi)容護(hù)城河,第二是入口把控。

前者是百度貼吧,百度mp3,百度知道,百度百科,百度文庫

后者是hao123和百度聯(lián)盟。

這兩塊都是本地化,google進(jìn)中國的時(shí)候,在這兩塊都有動(dòng)作。

投資天涯,收購265,以及大力發(fā)展google聯(lián)盟,這些都是本地化。

此外,重申一下,百度全家桶的出現(xiàn)以及,百度全家桶和hao123的捆綁,是360崛起之后的事情,hao123從百度收購到360崛起之前,一直風(fēng)平浪靜的沒做任何推廣和捆綁,從歷史事實(shí)而言,請(qǐng)勿將本地化等同于流氓化。

作者:江西SEO曾慶平(www.qingpingseo.com)

版權(quán)所有。轉(zhuǎn)載時(shí)必須以鏈接形式注明作者和原始出處。請(qǐng)大家尊重原創(chuàng),珍惜別人的汗水!

相關(guān)文章

最新評(píng)論