大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用(第2版) 完
88.3MB / 07-23
大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 pdf完整版
65.6MB / 03-20
大數(shù)據(jù)挖掘:系統(tǒng)方法與實例分析 帶目錄書簽 pdf版[57MB]
57MB / 02-05
大數(shù)據(jù)分析:R基礎(chǔ)及應(yīng)用完整版PDF[28MB]
26.8MB / 11-10
大數(shù)據(jù)分析:方法與應(yīng)用 (王星 著) 中文pdf掃描版[98MB]
98.6MB / 12-05
-
-
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)面試筆試題300+合集 中文pdf完整版 編程其它 / 5.9MB
-
-
-
Arduino編程參考手冊 中文版PDF 編程其它 / 80KB
-
CODESYS基礎(chǔ)編程及應(yīng)用指南 中文pdf完整版 編程其它 / 10.6MB
-
Tcl教程中文版+入門教程 完整版PDF 編程其它 / 2.12MB
-
圖解算法小抄(筆記) 中文PDF完整版 編程其它 / 6.1MB
-
QNX官方開發(fā)手冊(中英文版) 完整版pdf 編程其它 / 6.32MB
-
詳情介紹
《尋路大數(shù)據(jù) :海量數(shù)據(jù)與大規(guī)模分析》是一本系統(tǒng)化解讀大數(shù)據(jù)工程處理基礎(chǔ)技術(shù)的書籍。技術(shù)熱潮已然催生了形形色色的大數(shù)據(jù)處理技術(shù)及工具,但重要的并非魚與熊掌的孰優(yōu)孰劣,而是如何選擇或組合這些技術(shù)并應(yīng)用于實現(xiàn)不同的商業(yè)目標(biāo)。
《尋路大數(shù)據(jù) :海量數(shù)據(jù)與大規(guī)模分析》正是從這個角度評估了針對不同使用場景的大數(shù)據(jù)處理技術(shù),從而幫助技術(shù)負(fù)責(zé)人及架構(gòu)師做出不同的選型決策。我很高興看到了這《尋路大數(shù)據(jù) :海量數(shù)據(jù)與大規(guī)模分析》的出版,它必將有益于大數(shù)據(jù)技術(shù)的各種具體實踐。
目錄
第1 部分 大數(shù)據(jù)時代指引 1
第1 章 數(shù)據(jù)成功四原則 3
1.1 當(dāng)數(shù)據(jù)成為一件“大”事 3
1.2 數(shù)據(jù)和單臺服務(wù)器 4
1.3 大數(shù)據(jù)的權(quán)衡 5
1.3.1 構(gòu)建可(限)擴(kuò)展的解決方案 6
1.3.2 構(gòu)建可(在互聯(lián)網(wǎng)上)共享數(shù)據(jù)的系統(tǒng) 7
1.3.3 構(gòu)建解決方案,而非基礎(chǔ)設(shè)施 8
1.3.4 關(guān)注從數(shù)據(jù)中解放價值 8
1.4 大數(shù)據(jù)流水線剖析 9
1.5 終極數(shù)據(jù)庫 10
1.6 總結(jié) 10
第2 部分 收集和共享海量數(shù)據(jù) 13
第2 章 托管和共享TB 級原始數(shù)據(jù) 15
2.1 文件之殤 16
2.1.1 共享大量文件的挑戰(zhàn) 16
2.2 存儲:基礎(chǔ)設(shè)施即服務(wù) 17
2.2.1 網(wǎng)絡(luò)很慢 18
2.3 選擇合適的數(shù)據(jù)格式 18
2.3.1 XML :數(shù)據(jù),描述你自己 20
2.3.2 JSON :程序員的選擇 21
2.4 字符編碼 22
2.4.1 文件轉(zhuǎn)換 24
2.5 移動中的數(shù)據(jù):數(shù)據(jù)序列化格式 25
2.5.1 Apache Thrift 和Protocol Buffers 26
2.6 總結(jié) 27
第3 章 構(gòu)建基于NoSQL 的Web 應(yīng)用采集眾包數(shù)據(jù) 29
3.1 關(guān)系型數(shù)據(jù)庫:命令及控制 30
3.1.1 關(guān)系數(shù)據(jù)庫的ACID 測試 32
3.2 當(dāng)關(guān)系型數(shù)據(jù)庫遇上互聯(lián)網(wǎng) 33
3.2.1 CAP 原理與BASE 34
3.3 非關(guān)系型數(shù)據(jù)庫的模式 36
3.3.1 鍵- 值數(shù)據(jù)庫 36
3.3.2 文檔存儲 38
3.4 為寫入性能優(yōu)化:Redis 40
3.5 在多個Redis 實例上分片 43
3.5.1 使用Twemproxy 自動分區(qū) 44
3.5.2 Redis 的替代選項 46
3.6 NewSQL :Codd 歸來 46
3.7 總結(jié) 47
第4 章 解決數(shù)據(jù)孤島問題的策略 49
4.1 堆滿術(shù)語的倉庫 49
4.1.1 實踐中的問題 51
4.1.2 數(shù)據(jù)合規(guī)與安全規(guī)劃 52
4.1.3 走進(jìn)數(shù)據(jù)倉庫 53
4.1.4 數(shù)據(jù)倉庫的口訣:抽取、轉(zhuǎn)換和加載 54
4.2 Hadoop :數(shù)據(jù)倉庫中的大象 55
4.3 數(shù)據(jù)孤島也可能是個優(yōu)點 55
4.3.1 專注于數(shù)據(jù)問題,而不是技術(shù) 56
4.3.2 鼓勵員工提出他們自己的問題 57
4.3.3 投資溝通數(shù)據(jù)孤島的技術(shù) 57
4.4 融合:數(shù)據(jù)孤島的終結(jié) 58
4.4.1 Luhn 的商業(yè)智能系統(tǒng)是否能成為現(xiàn)實 59
4.5 總結(jié) 59
第3 部分 數(shù)據(jù)探究 61
第5 章 使用Hadoop、Hive 和Shark 探索大規(guī)模數(shù)據(jù)集 63
5.1 什么是數(shù)據(jù)倉庫 64
5.2 Apache Hive :在Hadoop 上進(jìn)行交互式查詢 66
5.2.1 Hive 用例 66
5.2.2 Hive 實戰(zhàn) 67
5.2.3 在Hive 中使用其他數(shù)據(jù)源 71
5.3 Shark :以內(nèi)存的速度進(jìn)行查詢 72
5.4 云中的數(shù)據(jù)倉庫 73
5.5 總結(jié) 74
第6 章 使用Google BigQuery 構(gòu)建數(shù)據(jù)信息中心 77
6.1 分析型數(shù)據(jù)庫 78
6.2 Dremel :均貧富 79
6.2.1 Dremel 與MapReduce 的不同之處 80
6.3 BigQuery :數(shù)據(jù)分析即服務(wù) 81
6.3.1 BigQuery 的查詢語言 82
6.4 建造自己的大數(shù)據(jù)信息面板 83
6.4.1 授權(quán)訪問BigQuery API 84
6.4.2 運行查詢并獲取結(jié)果 87
6.4.3 緩存查詢結(jié)果 88
6.4.4 添加可視化圖形 89
6.5 分析型查詢引擎的未來 91
6.6 總結(jié) 91
第7 章 探索大數(shù)據(jù)的可視化策略 93
7.1 警世良言:將數(shù)據(jù)翻譯成故事 94
7.2 人類尺度 VS 機(jī)器尺度 97
7.2.1 交互性 97
7.3 開發(fā)交互式數(shù)據(jù)應(yīng)用 98
7.3.1 使用R 和ggplot2 實現(xiàn)交互式可視化 98
7.3.2 matplotlib: Python 的2D 圖形庫 100
7.3.3 D3.js :用于Web 的交互式可視化庫 100
7.4 總結(jié) 104
第4 部分 構(gòu)建數(shù)據(jù)流水線 107
第8 章 整合:MapReduce 數(shù)據(jù)流水線 109
8.1 數(shù)據(jù)流水線是什么 109
8.1.1 正確的工具 110
8.2 使用Hadoop Streaming 搭建數(shù)據(jù)流水線 111
8.2.1 MapReduce 和數(shù)據(jù)轉(zhuǎn)換 111
8.2.2 最簡單的流水線:stdin 到stdout 113
8.3 單步MapReduce 變換 115
8.3.1 從原始NVSS 數(shù)據(jù)中抽取相關(guān)信息:map 階段 116
8.3.2 合計每月出生數(shù):reducer 階段 117
8.3.3 在本地測試MapReduce 流水線 118
8.3.4 在Hadoop 集群上運行我們的MapReduce 作業(yè) 119
8.4 降低復(fù)雜性:Hadoop 上Python 的MapReduce 框架 120
8.4.1 使用mrjob 重寫Hadoop Streaming 示例 121
8.4.2 建造一個多步流水線 122
8.4.3 在Elastic MapReduce 上運行mrjob 腳本 124
8.4.4 其他基于Python 的MapReduce 框架 125
8.5 總結(jié) 125
第9 章 使用Pig 和Cascading 構(gòu)建數(shù)據(jù)轉(zhuǎn)換工作流 127
9.1 大規(guī)模數(shù)據(jù)工作流實戰(zhàn) 128
9.2 多步MapReduce 轉(zhuǎn)換真復(fù)雜 128
9.2.1 Apache Pig :拒絕復(fù)雜 129
9.2.2 使用交互式Grunt shell 運行Pig 130
9.2.3 過濾和優(yōu)化數(shù)據(jù)工作流 132
9.2.4 以批處理模式運行Pig 腳本 132
9.3 Cascading :構(gòu)建健壯的數(shù)據(jù)工作流應(yīng)用 133
9.3.1 以source 和sink 的方式思考 134
9.3.2 構(gòu)建Cascading 應(yīng)用 135
9.3.3 創(chuàng)建一個Cascade :一個簡單的JOIN 例子 136
9.3.4 在Hadoop 集群上部署Cascading 應(yīng)用 138
9.4 何時選擇Pig 或Cascading 139
9.5 總結(jié) 140
第5 部分 基于大規(guī)模數(shù)據(jù)集的機(jī)器學(xué)習(xí) 141
第10 章 使用Mahout 構(gòu)建數(shù)據(jù)分類系統(tǒng) 143
10.1 機(jī)器能否預(yù)測未來 144
10.2 機(jī)器學(xué)習(xí)的挑戰(zhàn) 144
10.2.1 貝葉斯分類 146
10.2.2 聚類 146
10.2.3 推薦引擎 148
10.3 Apache Mahout :可伸縮的機(jī)器學(xué)習(xí)工具 148
10.3.1 使用Mahout 進(jìn)行文本分類 149
10.4 MLbase :分布式機(jī)器學(xué)習(xí)框架 152
10.5 總結(jié) 152
第6 部分 基于大規(guī)模數(shù)據(jù)集的統(tǒng)計分析 155
第11 章 使用R 語言處理大數(shù)據(jù)集 157
11.1 統(tǒng)計學(xué)為什么性感 158
11.1.1 R 處理大型數(shù)據(jù)集的局限性 159
11.1.2 R 的數(shù)據(jù)幀和矩陣 161
11.2 處理大數(shù)據(jù)集的策略 162
11.2.1 大矩陣處理:bigmemory 和biganalytics 162
11.2.2 ff: 使用大于內(nèi)存的數(shù)據(jù)幀 164
11.2.3 biglm :大規(guī)模數(shù)據(jù)集的線性回歸 165
11.2.4 RHadoop: 使用R 訪問Apache Hadoop 166
11.3 總結(jié) 168
第12 章 使用Python 和Pandas 構(gòu)建分析工作流 171
12.1 數(shù)據(jù)樂園中自在的蟒蛇――Python 172
12.1.1 為統(tǒng)計性計算選擇一門語言 172
12.1.2 擴(kuò)展現(xiàn)有代碼 173
12.1.3 工具和測試 174
12.2 用于數(shù)據(jù)處理的Python 庫 174
12.2.1 NumPy 175
12.2.2 SciPy :Python 的科學(xué)計算庫 176
12.2.3 數(shù)據(jù)分析庫Pandas 178
12.3 構(gòu)建更復(fù)雜的工作流 182
12.3.1 處理損壞或丟失的記錄 184
12.4 iPython :科學(xué)計算工具鏈的最后一環(huán) 185
12.4.1 在集群上并行執(zhí)行iPython 186
12.5 總結(jié) 190
第7 部分 展望未來 191
第13 章 何時選擇自制、購買或外包 193
13.1 功能重合的解決方案 193
13.2 理解你的數(shù)據(jù)問題 195
13.3 自制還是購買問題的參考手冊 197
13.3.1 你已經(jīng)對哪些技術(shù)有所投入 197
13.3.2 從小處著手 198
13.3.3 規(guī)劃時考慮可擴(kuò)展性 198
13.4 私人數(shù)據(jù)中心 199
13.5 了解開源的成本 201
13.6 一切皆服務(wù) 202
13.7 總結(jié) 202
第14 章 未來:數(shù)據(jù)科技的幾個趨勢 205
14.1 Hadoop :攪局者與被攪局者 206
14.2 一切皆在云中 208
14.3 數(shù)據(jù)科學(xué)家的興衰 209
14.4 融合:終極數(shù)據(jù)庫 212
14.5 文化融合 213
14.6 總結(jié) 214
下載地址
人氣書籍
下載聲明
☉ 解壓密碼:www.dbjr.com.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個軟件總是不能下載的請在評論中留言,我們會盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請過一段時間重試!或者多試試幾個下載地址
☉ 如果遇到什么問題,請評論留言,我們定會解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請購買正版。
☉ 本站提供的尋路大數(shù)據(jù)-海量數(shù)據(jù)與大規(guī)模分析 [美]Michael Manoochehri完整版PDF資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。