怎么避免網(wǎng)站大量重復(fù)URL被百度收錄?

很多同學(xué)會(huì)有這樣的疑惑,索引量工具顯示索引量數(shù)值很高但流量總也上不去,也沒(méi)有發(fā)現(xiàn)我們站內(nèi)有低質(zhì)內(nèi)容,百度這是要鬧哪樣?如果各位同學(xué)還有工作經(jīng)驗(yàn)等內(nèi)容想分享、或者對(duì)已有內(nèi)容持相反意見(jiàn)者,歡迎給站長(zhǎng)學(xué)院投稿。
首先聲明,我們只談?wù)撚袡z索意義的URL,也就是用戶會(huì)從搜索引擎查找的頁(yè)面。其他頁(yè)面按照常用的方法做屏蔽就好了。鑒于很多站長(zhǎng)都愛(ài)討論整體的收錄量,我必須潑一下冷水,也許你的有效收錄是1/10。
URL參數(shù)
也叫URL query,是一個(gè)最復(fù)雜,最容易被忽視,最容易被妥協(xié)的問(wèn)題。他是網(wǎng)站運(yùn)營(yíng)中必不可少的元素,如果簡(jiǎn)單的去除,其他部門就無(wú)法工作了。 靜態(tài)化是的話題,URL參數(shù)經(jīng)常被用于以下幾方面:
同一個(gè)實(shí)體的不同狀態(tài)展示,比如同一個(gè)酒店,在不同時(shí)間點(diǎn)會(huì)有不同的房間庫(kù)存:http://www.travel.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
為了統(tǒng)計(jì)不同渠道的流量:http://www.a.com/?tracking=website_a
為了統(tǒng)計(jì)不同渠道,具體模塊的點(diǎn)擊量:http://www.a.com/?tracking=website_a&click_spot=zone_abc
調(diào)試:http://www.a.com/product/item123/?debug=true
全世界最奇葩的是亞馬遜,居然把統(tǒng)計(jì)參數(shù)放到了路徑中http://www.amazon.cn/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
出現(xiàn)這種問(wèn)題的壞處有幾點(diǎn):
1. 浪費(fèi)搜索引擎對(duì)你網(wǎng)站的各項(xiàng)配額,從而影響其他正常的頁(yè)面。
2. 丟失很多本應(yīng)拿到的鏈接加分,站外渠道的鏈接往往是最優(yōu)質(zhì)的。同一個(gè)URL的分值可能分散成幾十份。
3. SEO的流量被統(tǒng)計(jì)到別的渠道(因?yàn)閠racking字段寫(xiě)的是別的渠道,而且被收錄被點(diǎn)擊)
4. 往往形成一種局面,產(chǎn)品用一套URL,SEO用另一套URL, 甚至不同渠道用不同的URL,后期開(kāi)發(fā)和維護(hù)的成本極高。
為了解決這個(gè)問(wèn)題,首先要弄清URL的定義。以我的理解,每一個(gè)URL是一個(gè)靜態(tài)的、獨(dú)立不重復(fù)的、有意義的實(shí)體,一般也有檢索意義(就是有人會(huì)搜)。比如一個(gè)人、一輛車、一條道路、一個(gè)零件。而不能混入各種"狀態(tài)",比如這個(gè)人生病的時(shí)候,難道就不是他自己了么? 一件商品在促銷的狀態(tài)難道是另一件商品了么?
理論上canonical標(biāo)簽就可以解決這個(gè)問(wèn)題了, 但是從實(shí)際測(cè)試結(jié)果看,百度對(duì)這個(gè)標(biāo)簽的支持優(yōu)先級(jí)非常低, 幾乎可以忽略不計(jì)。那么我的解決方案是這樣的:
1. 建立好網(wǎng)站的思維導(dǎo)圖和元信息。
2. 所有和SEO元信息相關(guān)的參數(shù)都放到路徑中去
3. 所有和SEO元信息不相干的參數(shù)都放到#后邊,因?yàn)?后邊不影響web服務(wù)器返回的內(nèi)容。簡(jiǎn)單的說(shuō)就是用"#"替代"?"。
4. 每個(gè)頁(yè)面中都利用js獲取#后邊的參數(shù)對(duì),通過(guò)二次請(qǐng)求發(fā)回給統(tǒng)計(jì)服務(wù)器
5. 如果#后邊的參數(shù)影響頁(yè)面內(nèi)容,比如酒店的入住日期。那么這部分內(nèi)容用ajax加載就行,他是不穩(wěn)定的,不屬于頁(yè)面內(nèi)容的一部分。(當(dāng)然還有變通的辦法,暫不贅述。)
6. 原始的#錨點(diǎn)定義肯定會(huì)沖突,定義一個(gè)#后邊的變量,并用js控制屏幕滾動(dòng),來(lái)保證原始錨點(diǎn)的作用。
有人可能會(huì)想到,根據(jù)ua判斷,如果是搜索引擎爬蟲(chóng),就用跳轉(zhuǎn)的方式去掉URL參數(shù)。但效率最高的方法必然是從一開(kāi)始就不展示錯(cuò)誤URL。那么前面的例子優(yōu)化后就變成了:
http://www.travel.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
http://www.a.com/#tracking=website_a
http://www.a.com/#tracking=website_a&click_spot=zone_abc
http://www.a.com/product/item123/#debug=true
其實(shí)很多網(wǎng)站早就使用這種方式了,但是還有很多網(wǎng)站由于開(kāi)發(fā)效率無(wú)法及時(shí)實(shí)現(xiàn)。所以對(duì)于一般的小網(wǎng)站,一定要考慮開(kāi)發(fā)成本,不要輕易冒進(jìn)。只要能避免問(wèn)題的發(fā)生,變通的方法是很多的。
路徑中使用非必要元素
很多網(wǎng)站仿照亞馬遜的做法,把商品名體現(xiàn)在URL中,然后再通過(guò)id來(lái)決定頁(yè)面展示的內(nèi)容:http://www.amazon.cn/博集典藏館043•基督山伯爵-亞歷山大•仲馬/dp/B005TZHJEQ/
這樣雖然可以提高一些相關(guān)性,但是很危險(xiǎn)。在長(zhǎng)期甚至短期的時(shí)間內(nèi),大量商品的名稱是非??赡苡凶兓?,那么URL也就跟著變化。成本也是非常高的,因?yàn)榧哟罅思夹g(shù)實(shí)現(xiàn)難度,不管從站內(nèi)還是站外,每次增加鏈接都是一個(gè)很麻煩的事情。
在我接手藝龍SEO之前,URL被全部改成了這樣,對(duì)我早期的工作造成了非常巨大的負(fù)擔(dān):http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
通過(guò)日志分析發(fā)現(xiàn)基本所有的百度蜘蛛發(fā)起的請(qǐng)求都被301跳轉(zhuǎn)了一次(日志分析方法可參考SEO健康度 )。細(xì)致調(diào)查后發(fā)現(xiàn),從SEO拼接規(guī)則到后臺(tái)的漢字和翻譯數(shù)據(jù)被一直修改。也就是說(shuō),這個(gè)URL相關(guān)的元素有:
1. 中文 (非必要元素)
2. 由中文翻譯的英文 (非必要元素)
3. id (必要元素)
而當(dāng)時(shí)負(fù)責(zé)SEO的同事把英文和id拼接在了URL中,那么這樣一個(gè)URL先后變成過(guò):
http://www.a.com/Shangrila_International_Hotel-12345678-hotel/
http://www.a.com/Xianggelila_International_Hotel-12345678-hotel/
http://www.a.com/XiangGeLiLa_International_Hotel-12345678-hotel/
http://www.a.com/Shangrila_guoji_Hotel-12345678-hotel/
跟"相關(guān)性"比,URL的唯一性和穩(wěn)定性更重要。所以針對(duì)這個(gè)問(wèn)題,URL的最佳策略應(yīng)該是:http://www.a.com/hotel/12345678/
如果這個(gè)id是隸屬于一個(gè)分類下的,比如城市,那么就可以是:http://www.a.com/hotel/beijing/123/
從技術(shù)角度說(shuō), id一般是數(shù)據(jù)庫(kù)的primary key,可以是數(shù)字也可以是字符串,那么這個(gè)時(shí)候URL是一維的; id也可以是聯(lián)合的唯一索引,那么URL就是二維的,就像上面的(bejing,123)缺一不可。電商類網(wǎng)站列表頁(yè)經(jīng)常用到三維以上。
大小寫(xiě)
如果網(wǎng)站的技術(shù)架構(gòu)用的是開(kāi)源系統(tǒng),一般是不會(huì)有這個(gè)問(wèn)題的。如果使用了微軟的技術(shù)架構(gòu),這個(gè)問(wèn)題非常常見(jiàn):
http://www.a.com/newyork/
http://www.a.com/Newyork/
http://www.a.com/NewYork/
我的建議是統(tǒng)一使用小寫(xiě),大寫(xiě)自動(dòng)跳轉(zhuǎn)為小寫(xiě)(小心301死循環(huán)!)。
目錄的規(guī)范
很多網(wǎng)站同時(shí)存在這樣的URL,無(wú)形中把收錄量擴(kuò)大了一倍:
http://www.a.com/product/123
http://www.a.com/product/123/
上邊第一個(gè)路徑的意思是在product目錄下有一個(gè)123文件。第二個(gè)路徑的意思是在product目錄下有一個(gè)123目錄,這個(gè)目錄下可能有很多文件,但是他代表眾多文件中的index.html或index.php或default.aspx等優(yōu)先級(jí)最高的那個(gè)文件。為了避免歧義,我定義文件都是用".html"結(jié)尾的。
為了減少重復(fù)收錄,那么按我的習(xí)慣是:
http://www.a.com/product/123 => http://www.a.com/product/123/
http://www.a.com/product/123 => http://www.a.com/product/123.html
總結(jié)
1. 所有部門統(tǒng)一使用SEO定義的URL,屏蔽非SEO URL的入口。
2. 用"#"替代"?"
3. 統(tǒng)一使用小寫(xiě)
4. 保證目錄的規(guī)范
5. 把不規(guī)范的URL跳轉(zhuǎn)到規(guī)范的URL
相關(guān)文章
文章為什么被重復(fù)收錄? 文章被百度重復(fù)收錄的原因及解決方法
一篇文章被三次重復(fù)收錄,這一現(xiàn)象無(wú)論是對(duì)于讀者還是對(duì)于搜索引擎都是不好的,一篇同樣文章被收錄三次,另外兩篇就成了"垃圾"了么?文章為什么被重復(fù)收錄?本文將提供文章2016-01-06網(wǎng)站內(nèi)容過(guò)度重復(fù)該怎么辦? 一個(gè)標(biāo)簽解決內(nèi)容重復(fù)高的問(wèn)題
網(wǎng)站內(nèi)容過(guò)度重復(fù)該怎么辦?最近網(wǎng)站總是出現(xiàn)內(nèi)容重復(fù)度過(guò)高的問(wèn)題,該怎么辦呢?網(wǎng)站出現(xiàn)的收錄可能會(huì)是加后綴的網(wǎng)頁(yè),最好給url加上后綴,下面我們以虎嗅網(wǎng)為例,給大家2015-12-18優(yōu)化過(guò)程中關(guān)鍵詞重復(fù)和關(guān)鍵詞廣度有什么區(qū)別?
很多人都不知道關(guān)鍵詞重復(fù)和關(guān)鍵詞廣度有什么區(qū)別?關(guān)鍵詞重復(fù)是指相同的關(guān)鍵詞在大量不同的頁(yè)面中出現(xiàn),而關(guān)鍵詞廣度是指在一個(gè)頁(yè)面中布局大量不同的關(guān)鍵詞,下面我們來(lái)看2014-12-02微信朋友圈賣面膜火爆的秘密 消耗快且能重復(fù)消費(fèi)
朋友圈里有很多代購(gòu)的,綜合看一下代購(gòu)什么的最多?當(dāng)然是面膜,為什么這么多產(chǎn)品偏偏選擇面膜呢?這也是營(yíng)銷中產(chǎn)品選擇的厲害之處,面膜消耗快且能重復(fù)消費(fèi),需要的朋友可2014-10-10SEO優(yōu)化常見(jiàn)的4種內(nèi)容重復(fù)類型和解決方案
做網(wǎng)站SEO優(yōu)化的站長(zhǎng)朋友應(yīng)該都比較忌諱自己網(wǎng)站中存在與其他同行網(wǎng)站相同的信息,這也是我們做SEO 工作時(shí)應(yīng)該盡量避免出現(xiàn)的情況2014-04-15怎么解決wordpress分頁(yè)title標(biāo)題重復(fù)不利于SEO的問(wèn)題
在使用谷歌管理員工具時(shí)發(fā)現(xiàn)wordpress博客列表文章分頁(yè)重復(fù)56頁(yè),肯定是對(duì)SEO十分不利,那怎么解決這個(gè)問(wèn)題呢?下文給出的解決辦法供大家參考2014-01-12什么是“網(wǎng)站內(nèi)容重復(fù)” 又該如何進(jìn)行消除
網(wǎng)站內(nèi)容重復(fù),是百度K站的一個(gè)主要原因,但是也有一些人并不知道什么情況才算網(wǎng)站內(nèi)容重復(fù),也不知道如何解決網(wǎng)站內(nèi)容重復(fù)的問(wèn)題。筆者認(rèn)為網(wǎng)站內(nèi)容重復(fù)不單單是指網(wǎng)站本2013-07-23互聯(lián)網(wǎng)電子公告服務(wù)專項(xiàng)審批取消原因是重復(fù)審批
這次取消的行政審批項(xiàng)目主要分5種情況:一是屬于重復(fù)審批的項(xiàng)目。經(jīng)營(yíng)性互聯(lián)網(wǎng)信息服務(wù)許可和非經(jīng)營(yíng)性互聯(lián)網(wǎng)信息服務(wù)備案”已包含了互聯(lián)網(wǎng)電子公告服務(wù)專項(xiàng)審批(備案)。2010-07-17- 現(xiàn)在的互聯(lián)網(wǎng)魚(yú)龍混雜,信息龐大而繁瑣,各類信息充斥著互聯(lián)網(wǎng)。然而大量的重復(fù)信息卻不斷的上演著,但是這種事情并沒(méi)法去終止,或者說(shuō)不可避免。2010-02-07
網(wǎng)站編輯工作不應(yīng)該被認(rèn)為是重復(fù)工作
信息是不斷涌來(lái)的水,互聯(lián)網(wǎng)承載著信息之水日夜流淌。而網(wǎng)站編輯就是將這些信息內(nèi)容根據(jù)我們站的定位一條一條的,一天一天的呈現(xiàn)在我們的網(wǎng)站上。2010-02-01