Google 處理采集數(shù)據(jù)的一些分析

點擊跟蹤
Google logs 把全部用戶在其服務(wù)產(chǎn)品上的引導(dǎo)點擊(廣告,行動,功能點擊等等)都記錄起來。
形式 -隨著用戶輸入數(shù)據(jù)的形式直接進(jìn)入(用戶名,密碼等),Google 記錄了時間和日期以及提交的位置。
注冊 Google 帳號時的表單
輸入類型是隱藏的,使用戶不會看到或進(jìn)入特定領(lǐng)域的數(shù)據(jù)
向用戶發(fā)送后提交 (隱藏) 的位置
輸入類型是隱藏的,所以用戶不會看到或進(jìn)入到特定數(shù)據(jù)里頭。
用戶使用引用數(shù)據(jù),并通過表格獲得怎樣才把”注冊”放在什么位置用戶會點擊
Cookies
Google 把它所有網(wǎng)站屬性的 Cookie 都用上了,此外,他還留下了廣告 Cookie 來跟蹤用戶在網(wǎng)站上的行為。通過這種方法,Google 就可以在有 doubleclick 和AdSense 廣告的網(wǎng)站下跟蹤該網(wǎng)站上任何一個用戶的網(wǎng)站行為。
存儲的cookies列表
存儲在日志文件的服務(wù)器請求
每一個向 Google 服務(wù)器發(fā)出的請求都存儲在日志文件里頭,而存儲的內(nèi)容取決于發(fā)出請求的類型。
日志文件
URL - http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8
從用戶付出的請求而獲得的 IP 地址,可以根據(jù)這個IP 地址定位該用戶的具體地理位置。
日期,時間和時區(qū)偏移的用戶
用戶的語言
用戶的操作系統(tǒng)
用戶的瀏覽器
其他信息就沒有那么重要但是必須具體的描述向服務(wù)器發(fā)出的請求,服務(wù)器的響應(yīng)和轉(zhuǎn)譯引擎。
Javascript
Google 有小部分的 JavaScript 已經(jīng)嵌入到互聯(lián)網(wǎng)上眾多的網(wǎng)站上面。當(dāng)用戶的瀏覽器執(zhí)行背景中的腳本時候,Google 就能夠知道很多關(guān)于這個用戶瀏覽習(xí)慣等重要信息(地理位置,操作系統(tǒng),瀏覽器類型和版本等)
網(wǎng)站信標(biāo)
Google 向很多結(jié)算屏幕嵌入小尺寸的透明 gif 圖片,就好像 JavaScript 一樣,一個用戶下載隱形的圖片并且向 Google 發(fā)送他們的電腦信息。
網(wǎng)站信標(biāo)樣例(什么?你看不到?這才是重點)
了解一下 Google 是怎樣處理這些數(shù)據(jù)
存儲
Google 使用一個內(nèi)部數(shù)據(jù)庫叫 BigTable 擴(kuò)展到近乎 100W 個服務(wù)器
Google Data In 2006 | |
Data |
Size (TB) |
Crawl Index |
800 |
Google Analytics |
200 |
Google Base |
2 |
Google Earth |
70 |
Orkut |
9 |
Personalized Search |
4 |
這壓縮的數(shù)據(jù)的大小接近 TB(1024GB)。而 Google 透露的數(shù)據(jù)大小超過 1PB(1048576GB)。這甚至不需要考慮 AdSense,Gmail,Google Map,街景,Google圖片,或者其他私有數(shù)據(jù)庫。并且這些數(shù)據(jù)都是超過2年前的。
大量的數(shù)據(jù)分析
這就有點像 Charlie and the Chocolate Factory (電影《查理與巧克力工廠》)。我們都知道有很多數(shù)據(jù)都進(jìn)入到 Google 那里,我們也知道有大量處理好的數(shù)據(jù)會導(dǎo)出來。我們就只是不知道兩者之間是發(fā)生了什么,是怎么轉(zhuǎn)換的。
我們也知道 Google 本身有很多運算法則組織他的數(shù)據(jù),Page Rank 就是最出名的了。據(jù)說,Google 也有很多復(fù)雜的 spam 的過濾系統(tǒng),內(nèi)容復(fù)制過濾系統(tǒng),類型偵查運算法則,自然語言解析程序,圖像識別軟件,和其他大量的復(fù)雜的軟件。
永久備份
Google 上的數(shù)據(jù)最終的棲息地可能會在永久存儲。Google 的隱私政策提示某些用戶數(shù)據(jù)永遠(yuǎn)都不會完全被刪除,因為已經(jīng)被永久的備份。
理解Google收集特定用戶的數(shù)據(jù)情況
以下都是一些當(dāng)用戶與很多網(wǎng)站交互的時候 Google 收集到的用戶的資料的清單列表。這意味著其實有更多的數(shù)據(jù)被 Google 收集而卻又沒有公開的。不過其實無知就是幸福,當(dāng)你看完之后,你或許會感覺很不爽:
Google用戶數(shù)據(jù)收集情況匯總:Google用戶數(shù)據(jù)收集情況匯總
你能相信 Google 會幫你保密一切信息么? 你敢相信 Google 會遵守所有保密要求么?
原文地址:http://semwatch.org/2009/11/evil-of-google-data
相關(guān)文章
網(wǎng)站收錄很低 為什么百度不采集你的網(wǎng)站?
你的網(wǎng)站為什么百度不采集呢?其實原因很多,網(wǎng)站內(nèi)容重復(fù)太多,seo過度、改版等等,對于這種現(xiàn)象我們該怎么應(yīng)對呢?現(xiàn)在說說百度不采集你的網(wǎng)站的原因和解決辦法,需要的2014-12-30- 目前站長圈內(nèi),比較流行的采集工具有很多,但是總結(jié)起來,比較出名的免費的就這么幾個,這里簡單給大家介紹下, 方便需要的朋友2014-11-01
防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總
最常規(guī)的防止網(wǎng)頁被搜索引擎收錄的方法是使用robots.txt,但是這樣做的弊端是要將所有已知的搜索引的爬蟲信息都羅列進(jìn)去,難免有疏漏。2010-07-16- 利用采集來添加網(wǎng)站并沒有什么不對,不僅小網(wǎng)站在做大網(wǎng)站也在做采集,而真正能體現(xiàn)網(wǎng)站價值的是網(wǎng)站帶給用戶的便利,這也是不同網(wǎng)站利用采集來的信息,有的能為用戶所接受2010-02-25
建站經(jīng)驗 你的網(wǎng)站該如何應(yīng)對被采集
雖然采集站的SEO比較難。但踏實的寫文章,在國內(nèi)這種氛圍下,很少會有人去做。2009-07-18- 現(xiàn)在很多網(wǎng)站都有抄襲和采集的行為,有了采集工具和目標(biāo)網(wǎng)站以后內(nèi)容再也不是什么頭疼的事。倒是如何提高采集內(nèi)容的排名成為了站長們最為頭疼的問題,如何提高采集內(nèi)容的排2009-05-26
- 業(yè)余站長成功率真的很低很低,如果哪個業(yè)余站長在三年之內(nèi)僥幸成功了,可以告訴我。不要把數(shù)萬IP的垃圾站發(fā)我就行了。如果垃圾站有數(shù)萬IP是不足不奇的,你的網(wǎng)站能在三年后2009-04-02
- 聽人說,百度最近封殺了采集的網(wǎng)站,難到采集文章的網(wǎng)站一定沒有出路嗎? 個人覺得未必。 QQ空間 站是本人的網(wǎng)站。里面的內(nèi)容全是采集來的。記得第一次百度兩個星期左2008-12-31
- 我是一個習(xí)慣在互聯(lián)網(wǎng)上閱讀的人,遇到上好的文章就另存到我的電腦上,久之電腦的資料就顯得很零亂,當(dāng)時就想建立一個數(shù)據(jù)庫,把這些文章保存起來,就這樣開始了我的站長的2008-11-04
- 很多站長都在為自己的站發(fā)愁。為什么我的站流量那么低?為什么我的站收入那么少?原因很明顯,你建立的是垃圾站。 那么什么是垃圾站呢?網(wǎng)上關(guān)于垃圾站的定義和判斷標(biāo)準(zhǔn)2008-11-03