科普:搜索引擎的基本工作原理

今天江西SEO曾慶平寫篇科普文,講講搜索引擎的技術(shù)機(jī)理和市場競爭的一些特點(diǎn)。當(dāng)然,作為從事或有興趣從事流量運(yùn)營的朋友,是可以用另一個(gè)角度去理解本文。
搜索引擎的核心技術(shù)架構(gòu),大體包括以下三塊,第一,是蜘蛛/爬蟲技術(shù);第二,是索引技術(shù);第三是查詢展現(xiàn)的技術(shù); 當(dāng)然,我不是搜索引擎的架構(gòu)師,我只能用比較粗淺的方式來做一個(gè)結(jié)構(gòu)的切分。
1、蜘蛛/爬蟲技術(shù)
蜘蛛,也叫爬蟲,是將互聯(lián)網(wǎng)的信息,抓取并存儲(chǔ)的一種技術(shù)實(shí)現(xiàn)。
搜索引擎的信息收錄,很多不明所以的人會(huì)有很多誤解,以為是付費(fèi)收錄,或者有什么其他特殊的提交技巧,其實(shí)并不是,搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站,抓取內(nèi)容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內(nèi)容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強(qiáng)大的信息抓取能力。
有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關(guān)信息,百度,google都有站長平臺(tái)和管理后臺(tái),這里很多內(nèi)容是需要非常非常認(rèn)真的對(duì)待的。
反過來說,在這樣的原理下,一個(gè)網(wǎng)站,只有被其他網(wǎng)站所鏈接,才有機(jī)會(huì)被搜索引擎抓取。如果這個(gè)網(wǎng)站沒有外部鏈接,或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。
分析和判斷搜索引擎是否抓取了你的頁面,或者什么時(shí)候抓取你的頁面,只能通過服務(wù)器上的訪問日志來查詢,如果是cdn就比較麻煩。 而基于網(wǎng)站嵌入代碼的方式,不論是cnzz,百度統(tǒng)計(jì),還是google analytics,都無法獲得蜘蛛抓取的信息,因?yàn)檫@些信息不會(huì)觸發(fā)這些代碼的執(zhí)行。
一個(gè)比較推薦的日志分析軟件是awstats。
在十多年前,分析百度蜘蛛抓取軌跡和更新策略,是很多草根站長每日必做的功課,比如現(xiàn)在身價(jià)幾十億的知名80后上市公司董事長,當(dāng)年在某站長論壇就是以此準(zhǔn)確的分析判斷而封神,很年輕的時(shí)候就已經(jīng)是站長圈的一代偶像。
但關(guān)于蜘蛛的話題,并不只基于鏈接抓取這么簡單,延伸來說
第一,網(wǎng)站擁有者可以選擇是否允許蜘蛛抓取,有一個(gè)robots.txt的文件是來控制這個(gè)的。
一個(gè)經(jīng)典案例是 https://www.taobao.com/robots.txt
你會(huì)看到,淘寶至今仍有關(guān)鍵目錄不對(duì)百度蜘蛛開放,但對(duì)google開放。
另一個(gè)經(jīng)典案例是 http://www.baidu.com/robots.txt
你看出什么了?你可能什么都沒看出來,我提醒一句,百度實(shí)質(zhì)上全面禁止了360的蜘蛛抓取。
但這個(gè)協(xié)議只是約定俗成,實(shí)際上并沒有強(qiáng)制約束力,所以,你們猜猜,360遵守了百度的蜘蛛抓取禁止么?
第二,最早抓取是基于網(wǎng)站彼此的鏈接為入口,但實(shí)際上,并不能肯定的說,有可能存在其他抓取入口,比如說,
客戶端插件或?yàn)g覽器, 免費(fèi)網(wǎng)站統(tǒng)計(jì)系統(tǒng)的嵌入式代碼。
會(huì)不會(huì)成為蜘蛛抓取的入口,我只能說,有這個(gè)可能。
所以我跟很多創(chuàng)業(yè)者說,中國做網(wǎng)站,放百度統(tǒng)計(jì),海外做網(wǎng)站,放google analytics,是否會(huì)增加搜索引擎對(duì)你網(wǎng)站的收錄?我只能說猜測,有這個(gè)可能。
第三,無法被抓取的信息
有些網(wǎng)站的內(nèi)容鏈接,用一些 特殊效果完成,比如浮動(dòng)的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識(shí)別,當(dāng)然,我只是說有可能,現(xiàn)在搜索引擎比以前聰明,十多年前很多特效鏈接是不識(shí)別的,現(xiàn)在會(huì)好一些。
需要登錄,需要注冊(cè)才能訪問的頁面,蜘蛛是無法進(jìn)入的,也就是無法收錄。
有些網(wǎng)站會(huì)給搜索特殊頁面,就是蜘蛛來能看到內(nèi)容(蜘蛛訪問會(huì)有特殊的客戶端標(biāo)記,服務(wù)端識(shí)別和處理并不復(fù)雜),人來了要登錄才能看,但這樣做其實(shí)是違反了收錄協(xié)議(需要人和蜘蛛看到的同樣的內(nèi)容,這是絕大部分搜索引擎的收錄協(xié)議),有可能遭到搜索引擎處罰。
所以一個(gè)社區(qū)要想通過搜索引擎帶來免費(fèi)用戶,必須讓訪客能看到內(nèi)容,哪怕是部分內(nèi)容。
帶很多復(fù)雜參數(shù)的內(nèi)容鏈接url,有可能被蜘蛛當(dāng)作重復(fù)頁面,拒絕收錄。
很多動(dòng)態(tài)頁面是一個(gè)腳本程序帶參數(shù)體現(xiàn)的,但蜘蛛發(fā)現(xiàn)同一個(gè)腳本有大量參數(shù)的網(wǎng)頁,有時(shí)候會(huì)給該網(wǎng)頁的價(jià)值評(píng)估帶來困擾,蜘蛛可能會(huì)認(rèn)為這個(gè)網(wǎng)頁是重復(fù)頁面,而拒絕收錄。還是那句話,隨著技術(shù)的發(fā)展,蜘蛛對(duì)動(dòng)態(tài)腳本的參數(shù)識(shí)別度有了很大進(jìn)步,現(xiàn)在基本上可以不用考慮這個(gè)問題。
但這個(gè)催生了一個(gè)技術(shù),叫做偽靜態(tài)化,通過對(duì)web服務(wù)端做配置,讓用戶訪問的頁面,url格式看上去是一個(gè)靜態(tài)頁,其實(shí)后面是一個(gè)正則匹配,實(shí)際執(zhí)行的是一個(gè)動(dòng)態(tài)腳本。
很多社區(qū)論壇為了追求免費(fèi)搜索來路,做了偽靜態(tài)化處理,在十多年前,幾乎是草根站長必備技能之一。
爬蟲技術(shù)暫時(shí)說到這里,但是這里強(qiáng)調(diào)一下,有外鏈,不代表搜索蜘蛛會(huì)來爬取,搜索蜘蛛爬取了,不代表搜索引擎會(huì)收錄;搜索引擎收錄了,不代表用戶可以搜索的到;
site語法是檢查一個(gè)網(wǎng)站收錄數(shù)的最基本搜索語法,我開始以為是abc的常識(shí),直到在新加坡做一些創(chuàng)業(yè)培訓(xùn)后交流才發(fā)現(xiàn),大部分剛進(jìn)入這個(gè)行業(yè)的人,或者有興趣進(jìn)入這個(gè)行業(yè)的人,對(duì)此并不了解。
一個(gè)范例,百度搜索一下 site:qingpingseo.com
2、索引系統(tǒng)
蜘蛛抓取的是網(wǎng)頁的內(nèi)容,那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個(gè)網(wǎng)頁,就必須對(duì)網(wǎng)頁做關(guān)鍵詞的索引,從而提升查詢效率,簡單說就是,把網(wǎng)頁的每個(gè)關(guān)鍵詞提取出來,并針對(duì)這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率,位置,特殊標(biāo)記等諸多因素,給予不同的權(quán)值標(biāo)定,然后,存儲(chǔ)到索引庫中。
相關(guān)文章
寶塔面板屏蔽 Censys的配置方法(防止源站 IP 泄露)
Censys 搜索引擎很強(qiáng)大,Censys 每天都會(huì)掃描 IPv4 地址空間,以搜索所有聯(lián)網(wǎng)設(shè)備并收集相關(guān)的信息,并返回一份有關(guān)資源(如設(shè)備、網(wǎng)站和證書)配置和部署信息的總體報(bào)告2025-03-01使用高防服務(wù)器或者高防CDN后為什么還會(huì)出現(xiàn)源站IP被打
近來站長們應(yīng)該基本都遇到過 DDOS 攻擊,特別是 CC,如果放任不管,會(huì)導(dǎo)致服務(wù)器資源緊張,導(dǎo)致用戶無法正常訪問,有時(shí)間就算接入了高防服務(wù)器,源站 IP 還是被打,網(wǎng)站打不2025-03-01通過Censys引擎,教你繞過 CDN 精準(zhǔn)找到源站IP
當(dāng)我們談?wù)摾@過CDN查找真實(shí)IP的時(shí)候,不得不提到SSL證書,它確實(shí)是我們尋找真實(shí)IP的一大利器,至于為什么SSL證書會(huì)導(dǎo)致源站IP泄露?很多人或許沒有深入了解這個(gè)問題,目前好2025-03-01CloudFlare官方免費(fèi)CNAME接入配置教程
默認(rèn)CloudFlare都是讓大家通過dns接入,但大家因?yàn)橐呀?jīng)習(xí)慣了dnspod等解析方式,那么cname就比較方便大家使用了,下面為大家分享一下cname的接入方法,需要的朋友可以參考下2025-02-20旅途云 高防服務(wù)器活動(dòng)促銷(ddos、cc攻擊)
是否需要高防服務(wù)器呢,最近很多網(wǎng)站遭受ddos與cc攻擊,雙11之際旅途云特為大家提供了性價(jià)比更高的高防服務(wù)器套餐需要的朋友可以咨詢2023-11-12華為云優(yōu)惠券在哪里獲得?華為云優(yōu)惠券領(lǐng)取
在本篇文章里小編給大家整理的是關(guān)于華為云優(yōu)惠券領(lǐng)取的方法和入口,有此需要的朋友們可以領(lǐng)取下,希望對(duì)你有幫助。2020-03-12華為云優(yōu)惠券怎么用?華為云優(yōu)惠券使用方法
在本篇文章里小編給大家整理了關(guān)于華為云優(yōu)惠券使用方法和詳細(xì)步驟,有興趣的朋友們可以學(xué)習(xí)下。2020-03-12華為云優(yōu)惠券在哪能找到?華為云優(yōu)惠券領(lǐng)取教程
我們給大家?guī)砣绾斡脙?yōu)惠的方法購買華為云主機(jī)的方法以及給大家分享華為云的優(yōu)惠券和代金券,希望能夠幫助到大家。2020-02-26進(jìn)行https證書申請(qǐng)安裝和tomcat https證書安裝的方法
對(duì)于https證書,想必大家已經(jīng)非常熟悉了,這是一種可以保護(hù)網(wǎng)站安全的證書,以https開頭的網(wǎng)站都是具有這一證書的網(wǎng)站。今天給大家介紹怎樣進(jìn)行https證書申請(qǐng)安裝和tomcat2019-10-31庫店進(jìn)軍社交電商,揮斥重金燎原計(jì)劃迎戰(zhàn)雙十一
庫店創(chuàng)始人鄭劍豪,原寺庫商城總經(jīng)理,2010年聚劃算創(chuàng)始團(tuán)隊(duì)成員,5年時(shí)間幫助寺庫成功上市。庫店,是美國納斯達(dá)克上市企業(yè)寺庫旗下高品質(zhì)社交電商平臺(tái),獲京東與LVMH集團(tuán)旗下基2018-11-01