欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Google 處理采集數(shù)據(jù)的一些分析

  發(fā)布時間:2009-11-20 22:42:34   作者:佚名   我要評論
Google 用戶數(shù)據(jù)采集大揭秘.

點擊跟蹤

Google logs 把全部用戶在其服務(wù)產(chǎn)品上的引導(dǎo)點擊(廣告,行動,功能點擊等等)都記錄起來。

形式 -隨著用戶輸入數(shù)據(jù)的形式直接進(jìn)入(用戶名,密碼等),Google 記錄了時間和日期以及提交的位置。

google form Google 邪惡的一面:Google 用戶數(shù)據(jù)采集大揭秘

注冊 Google 帳號時的表單

輸入類型是隱藏的,使用戶不會看到或進(jìn)入特定領(lǐng)域的數(shù)據(jù)

向用戶發(fā)送后提交 (隱藏) 的位置

輸入類型是隱藏的,所以用戶不會看到或進(jìn)入到特定數(shù)據(jù)里頭。

用戶使用引用數(shù)據(jù),并通過表格獲得怎樣才把”注冊”放在什么位置用戶會點擊

Cookies

Google 把它所有網(wǎng)站屬性的 Cookie 都用上了,此外,他還留下了廣告 Cookie 來跟蹤用戶在網(wǎng)站上的行為。通過這種方法,Google 就可以在有 doubleclick 和AdSense 廣告的網(wǎng)站下跟蹤該網(wǎng)站上任何一個用戶的網(wǎng)站行為。

google cookies Google 邪惡的一面:Google 用戶數(shù)據(jù)采集大揭秘

存儲的cookies列表

存儲在日志文件的服務(wù)器請求

每一個向 Google 服務(wù)器發(fā)出的請求都存儲在日志文件里頭,而存儲的內(nèi)容取決于發(fā)出請求的類型。

google log Google 邪惡的一面:Google 用戶數(shù)據(jù)采集大揭秘

日志文件

URL - http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8

從用戶付出的請求而獲得的 IP 地址,可以根據(jù)這個IP 地址定位該用戶的具體地理位置。

日期,時間和時區(qū)偏移的用戶

用戶的語言

用戶的操作系統(tǒng)

用戶的瀏覽器

其他信息就沒有那么重要但是必須具體的描述向服務(wù)器發(fā)出的請求,服務(wù)器的響應(yīng)和轉(zhuǎn)譯引擎。

Javascript

Google 有小部分的 JavaScript 已經(jīng)嵌入到互聯(lián)網(wǎng)上眾多的網(wǎng)站上面。當(dāng)用戶的瀏覽器執(zhí)行背景中的腳本時候,Google 就能夠知道很多關(guān)于這個用戶瀏覽習(xí)慣等重要信息(地理位置,操作系統(tǒng),瀏覽器類型和版本等)

網(wǎng)站信標(biāo)

Google 向很多結(jié)算屏幕嵌入小尺寸的透明 gif 圖片,就好像 JavaScript 一樣,一個用戶下載隱形的圖片并且向 Google 發(fā)送他們的電腦信息。

網(wǎng)站信標(biāo)樣例(什么?你看不到?這才是重點)

了解一下 Google 是怎樣處理這些數(shù)據(jù)

存儲

Google 使用一個內(nèi)部數(shù)據(jù)庫叫 BigTable 擴(kuò)展到近乎 100W 個服務(wù)器

Google Data In 2006

 

Data

Size (TB)

Crawl Index

800

Google Analytics

200

Google Base

2

Google Earth

70

Orkut

9

Personalized Search

4

這壓縮的數(shù)據(jù)的大小接近 TB(1024GB)。而 Google 透露的數(shù)據(jù)大小超過 1PB(1048576GB)。這甚至不需要考慮 AdSense,Gmail,Google Map,街景,Google圖片,或者其他私有數(shù)據(jù)庫。并且這些數(shù)據(jù)都是超過2年前的。

大量的數(shù)據(jù)分析

這就有點像 Charlie and the Chocolate Factory (電影《查理與巧克力工廠》)。我們都知道有很多數(shù)據(jù)都進(jìn)入到 Google 那里,我們也知道有大量處理好的數(shù)據(jù)會導(dǎo)出來。我們就只是不知道兩者之間是發(fā)生了什么,是怎么轉(zhuǎn)換的。

我們也知道 Google 本身有很多運算法則組織他的數(shù)據(jù),Page Rank 就是最出名的了。據(jù)說,Google 也有很多復(fù)雜的 spam 的過濾系統(tǒng),內(nèi)容復(fù)制過濾系統(tǒng),類型偵查運算法則,自然語言解析程序,圖像識別軟件,和其他大量的復(fù)雜的軟件。

永久備份

Google 上的數(shù)據(jù)最終的棲息地可能會在永久存儲。Google 的隱私政策提示某些用戶數(shù)據(jù)永遠(yuǎn)都不會完全被刪除,因為已經(jīng)被永久的備份。

理解Google收集特定用戶的數(shù)據(jù)情況

以下都是一些當(dāng)用戶與很多網(wǎng)站交互的時候 Google 收集到的用戶的資料的清單列表。這意味著其實有更多的數(shù)據(jù)被 Google 收集而卻又沒有公開的。不過其實無知就是幸福,當(dāng)你看完之后,你或許會感覺很不爽:

Google用戶數(shù)據(jù)收集情況匯總:Google用戶數(shù)據(jù)收集情況匯總

你能相信 Google 會幫你保密一切信息么? 你敢相信 Google 會遵守所有保密要求么?

原文地址:http://semwatch.org/2009/11/evil-of-google-data

相關(guān)文章

  • 網(wǎng)站收錄很低 為什么百度不采集你的網(wǎng)站?

    你的網(wǎng)站為什么百度不采集呢?其實原因很多,網(wǎng)站內(nèi)容重復(fù)太多,seo過度、改版等等,對于這種現(xiàn)象我們該怎么應(yīng)對呢?現(xiàn)在說說百度不采集你的網(wǎng)站的原因和解決辦法,需要的
    2014-12-30
  • 網(wǎng)站采集工具大比拼

    目前站長圈內(nèi),比較流行的采集工具有很多,但是總結(jié)起來,比較出名的免費的就這么幾個,這里簡單給大家介紹下, 方便需要的朋友
    2014-11-01
  • 防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總

    最常規(guī)的防止網(wǎng)頁被搜索引擎收錄的方法是使用robots.txt,但是這樣做的弊端是要將所有已知的搜索引的爬蟲信息都羅列進(jìn)去,難免有疏漏。
    2010-07-16
  • 讓采集網(wǎng)站內(nèi)容更有有價值

    利用采集來添加網(wǎng)站并沒有什么不對,不僅小網(wǎng)站在做大網(wǎng)站也在做采集,而真正能體現(xiàn)網(wǎng)站價值的是網(wǎng)站帶給用戶的便利,這也是不同網(wǎng)站利用采集來的信息,有的能為用戶所接受
    2010-02-25
  • 建站經(jīng)驗 你的網(wǎng)站該如何應(yīng)對被采集

    雖然采集站的SEO比較難。但踏實的寫文章,在國內(nèi)這種氛圍下,很少會有人去做。
    2009-07-18
  • 提高采集內(nèi)容的排名

    現(xiàn)在很多網(wǎng)站都有抄襲和采集的行為,有了采集工具和目標(biāo)網(wǎng)站以后內(nèi)容再也不是什么頭疼的事。倒是如何提高采集內(nèi)容的排名成為了站長們最為頭疼的問題,如何提高采集內(nèi)容的排
    2009-05-26
  • 業(yè)余站長與專業(yè)站長PK

    業(yè)余站長成功率真的很低很低,如果哪個業(yè)余站長在三年之內(nèi)僥幸成功了,可以告訴我。不要把數(shù)萬IP的垃圾站發(fā)我就行了。如果垃圾站有數(shù)萬IP是不足不奇的,你的網(wǎng)站能在三年后
    2009-04-02
  • 采集文章的網(wǎng)站出路分析

    聽人說,百度最近封殺了采集的網(wǎng)站,難到采集文章的網(wǎng)站一定沒有出路嗎?   個人覺得未必。 QQ空間 站是本人的網(wǎng)站。里面的內(nèi)容全是采集來的。記得第一次百度兩個星期左
    2008-12-31
  • 千巖:2007年我的站長生涯總結(jié)

    我是一個習(xí)慣在互聯(lián)網(wǎng)上閱讀的人,遇到上好的文章就另存到我的電腦上,久之電腦的資料就顯得很零亂,當(dāng)時就想建立一個數(shù)據(jù)庫,把這些文章保存起來,就這樣開始了我的站長的
    2008-11-04
  • 垃圾網(wǎng)站怎么贏利

    很多站長都在為自己的站發(fā)愁。為什么我的站流量那么低?為什么我的站收入那么少?原因很明顯,你建立的是垃圾站。 那么什么是垃圾站呢?網(wǎng)上關(guān)于垃圾站的定義和判斷標(biāo)準(zhǔn)
    2008-11-03

最新評論