欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Spark大數(shù)據(jù)處理技術(shù) 完整pdf掃描版[48MB]

Spark大數(shù)據(jù)處理技術(shù)

  • 書籍大?。?span>48.7MB
  • 書籍語言:簡體中文
  • 書籍類型:國產(chǎn)軟件
  • 書籍授權(quán):免費(fèi)軟件
  • 書籍類別:編程其它
  • 應(yīng)用平臺(tái):PDF
  • 更新時(shí)間:2018-04-02
  • 購買鏈接:
  • 網(wǎng)友評(píng)分:
360通過 騰訊通過 金山通過

情介紹

《Spark大數(shù)據(jù)處理技術(shù)》以Spark 0.9版本為基礎(chǔ)進(jìn)行編寫,是一本全面介紹Spark及Spark生態(tài)圈相關(guān)技術(shù)的書籍,是國內(nèi)首本深入介紹Spark原理和架構(gòu)的技術(shù)書籍。主要內(nèi)容有Spark基礎(chǔ)功能介紹及內(nèi)部重要模塊分析,包括部署模式、調(diào)度框架、存儲(chǔ)管理以及應(yīng)用監(jiān)控;同時(shí)也詳細(xì)介紹了Spark生態(tài)圈中其他的軟件和模塊,包括SQL處理引擎Shark和Spark SQL、流式處理引擎Spark Streaming、圖計(jì)算框架Graphx以及分布式內(nèi)存文件系統(tǒng)Tachyon?!禨park大數(shù)據(jù)處理技術(shù)》從概念和原理上對(duì)Spark核心框架和生態(tài)圈做了詳細(xì)的解讀,并對(duì)Spark的應(yīng)用現(xiàn)狀和未來發(fā)展做了一定的介紹,旨在為大數(shù)據(jù)從業(yè)人員和Spark愛好者提供一個(gè)更深入學(xué)習(xí)的平臺(tái)。

《Spark大數(shù)據(jù)處理技術(shù)》適合任何大數(shù)據(jù)、Spark領(lǐng)域的從業(yè)人員閱讀,同時(shí)也為架構(gòu)師、軟件開發(fā)工程師和大數(shù)據(jù)愛好者展現(xiàn)了一個(gè)現(xiàn)代大數(shù)據(jù)框架的架構(gòu)原理和實(shí)現(xiàn)細(xì)節(jié)。相信通過學(xué)習(xí)《Spark大數(shù)據(jù)處理技術(shù)》,讀者能夠熟悉和掌握Spark這一當(dāng)前流行的大數(shù)據(jù)框架,并將其投入到生產(chǎn)實(shí)踐中去。

目錄
第1章 Spark系統(tǒng)概述 1
1.1 大數(shù)據(jù)處理框架 1
1.2 Spark大數(shù)據(jù)處理框架 3
1.2.1 RDD表達(dá)能力 3
1.2.2 Spark子系統(tǒng) 4
1.3 小結(jié) 7
第2章 Spark RDD及編程接口 9
2.1 Spark程序“Hello World” 9
2.2 Spark RDD 12
2.2.1 RDD分區(qū)(partitions) 13
2.2.2 RDD優(yōu)先位置(preferredLocations) 13
2.2.3 RDD依賴關(guān)系(dependencies) 15
2.2.4 RDD分區(qū)計(jì)算(compute) 19
2.2.5 RDD分區(qū)函數(shù)(partitioner) 20
2.3 創(chuàng)建操作 23
2.3.1 集合創(chuàng)建操作 23
2.3.2 存儲(chǔ)創(chuàng)建操作 23
2.4 轉(zhuǎn)換操作 26
2.4.1 RDD基本轉(zhuǎn)換操作 26
2.4.2 鍵值RDD轉(zhuǎn)換操作 35
2.4.3 再論RDD依賴關(guān)系 43
2.5 控制操作(control operation) 46
2.6 行動(dòng)操作(action operation) 47
2.6.1 集合標(biāo)量行動(dòng)操作 47
2.6.2 存儲(chǔ)行動(dòng)操作 52
2.7 小結(jié) 56
第3章 Spark運(yùn)行模式及原理 57
3.1 Spark運(yùn)行模式概述 57
3.1.1 Spark運(yùn)行模式列表 57
3.1.2 Spark基本工作流程 58
3.1.3 相關(guān)基本類 59
3.2 Local模式 62
3.2.1 部署及程序運(yùn)行 62
3.2.2 內(nèi)部實(shí)現(xiàn)原理 63
3.3 Standalone模式 64
3.3.1 部署及程序運(yùn)行 64
3.3.2 內(nèi)部實(shí)現(xiàn)原理 67
3.4 Local cluster模式 68
3.4.1 部署及程序運(yùn)行 68
3.4.2 內(nèi)部實(shí)現(xiàn)原理 69
3.5 Mesos模式 69
3.5.1 部署及程序運(yùn)行 69
3.5.2 內(nèi)部實(shí)現(xiàn)原理 70
3.6 YARN standalone / YARN cluster模式 72
3.6.1 部署及程序運(yùn)行 72
3.6.2 內(nèi)部實(shí)現(xiàn)原理 75
3.7 YARN client模式 76
3.7.1 部署及程序運(yùn)行 76
3.7.2 內(nèi)部實(shí)現(xiàn)原理 77
3.8 各種模式的實(shí)現(xiàn)細(xì)節(jié)比較 78
3.8.1 環(huán)境變量的傳遞 78
3.8.2 JAR包和各種依賴文件的分發(fā) 80
3.8.3 任務(wù)管理和序列化 82
3.8.4 用戶參數(shù)配置 83
3.8.5 用戶及權(quán)限控制 84
3.9 Spark 1.0版本之后的變化 85
3.10 小結(jié) 86
第4章 Spark調(diào)度管理原理 87
4.1 Spark作業(yè)調(diào)度管理概述 87
4.2 Spark調(diào)度相關(guān)基本概念 88
4.3 作業(yè)調(diào)度模塊頂層邏輯概述 89
4.4 作業(yè)調(diào)度具體工作流程 92
4.4.1 調(diào)度階段的拆分 94
4.4.2 調(diào)度階段的提交 97
4.4.3 任務(wù)集的提交 99
4.4.4 完成狀態(tài)的監(jiān)控 99
4.4.5 任務(wù)結(jié)果的獲取 101
4.5 任務(wù)集管理模塊詳解 102
4.6 調(diào)度池和調(diào)度模式分析 104
4.7 其他調(diào)度相關(guān)內(nèi)容 106
4.7.1 Spark應(yīng)用之間的調(diào)度關(guān)系 106
4.7.2 調(diào)度過程中的數(shù)據(jù)本地性問題 106
4.8 小結(jié) 107
第5章 Spark的存儲(chǔ)管理 109
5.1 存儲(chǔ)管理模塊整體架構(gòu) 109
5.1.1 通信層架構(gòu) 110
5.1.2 通信層消息傳遞 112
5.1.3 注冊(cè)存儲(chǔ)管理模塊 113
5.1.4 存儲(chǔ)層架構(gòu) 114
5.1.5 數(shù)據(jù)塊 (Block) 116
5.2 RDD 持久化 116
5.2.1 RDD分區(qū)和數(shù)據(jù)塊的關(guān)系 117
5.2.2 內(nèi)存緩存 118
5.2.3 磁盤緩存 119
5.2.4 持久化選項(xiàng) 120
5.2.5 如何選擇不同的持久化選項(xiàng) 122
5.3 Shuffle數(shù)據(jù)持久化 122
5.4 廣播(Broadcast)變量持久化 125
5.5 小結(jié) 126
第6章 Spark監(jiān)控管理 127
6.1 UI管理 127
6.1.1 實(shí)時(shí)UI管理 128
6.1.2 歷史UI管理 132
6.2 Metrics管理 133
6.2.1 Metrics系統(tǒng)架構(gòu) 133
6.2.2 Metrics系統(tǒng)配置 135
6.2.3 輸入源(Metrics Source)介紹 136
6.2.4 輸出方式(Metrics Sink)介紹 138
6.3 小結(jié) 139
第7章 Shark架構(gòu)與安裝配置 141
7.1 Shark架構(gòu)淺析 142
7.2 Hive/Shark各功能組件對(duì)比 143
7.2.1 MetaStore 143
7.2.2 CLI/ Beeline 143
7.2.3 JDBC/ODBC 144
7.2.4 Hive Server/2 與 Shark Server/2 144
7.2.5 Driver 145
7.2.6 SQL Parser 146
7.2.7 查詢優(yōu)化器(Query Optimizer) 147
7.2.8 物理計(jì)劃與執(zhí)行 147
7.3 Shark安裝配置與使用 148
7.3.1 安裝前準(zhǔn)備工作 149
7.3.2 在不同運(yùn)行模式下安裝Shark 149
7.4 Shark SQL命令行工具(CLI) 152
7.5 使用Shark Shell命令 155
7.6 啟動(dòng)Shark Server 155
7.7 Shark Server2配置與啟動(dòng) 156
7.8 緩存數(shù)據(jù)表 157
7.8.1 數(shù)據(jù)緩存級(jí)別 158
7.8.2 創(chuàng)建不同緩存級(jí)別的Shark數(shù)據(jù)表 158
7.8.3 指定數(shù)據(jù)表緩存策略 159
7.8.4 使用Tachyon 160
7.9 常見問題分析 160
7.9.1 OutOfMemory異常 160
7.9.2 數(shù)據(jù)處理吞吐量低 161
7.9.3 Shark查詢比Hive慢 161
7.10 小結(jié) 162
第8章 SQL程序擴(kuò)展 163
8.1 程序擴(kuò)展并行運(yùn)行模式 164
8.2 Evaluator和ObjectInspector 164
8.3 自定義函數(shù)擴(kuò)展 168
8.3.1 自定義函數(shù)擴(kuò)展分類 168
8.3.2 CLI中的用戶自定義函數(shù)擴(kuò)展相關(guān)命令 170
8.3.3 用戶自定義函數(shù)(UDF) 171
8.3.4 通用用戶自定義函數(shù)(Generic UDF) 175
8.3.5 用戶自定義聚合函數(shù)(UDAF) 178
8.3.6 通用用戶自定義聚合函數(shù)(Generic UDAF) 182
8.3.7 通用用戶自定義表函數(shù)(Generic UDTF) 186
8.4 自定義數(shù)據(jù)存取格式 190
8.4.1 SerDe 190
8.4.2 StorageHandler 197
8.5 小結(jié) 198
第9章 Spark SQL 199
9.1 Spark SQL邏輯架構(gòu) 199
9.1.1 Catalyst功能邊界 200
9.1.2 SQL解析階段 201
9.1.3 邏輯計(jì)劃元數(shù)據(jù)綁定和語義分析階段 202
9.1.4 邏輯計(jì)劃優(yōu)化階段 202
9.1.5 物理計(jì)劃生成階段 202
9.1.6 Shark和Spark SQL對(duì)比 203
9.2 Catalyst上下文(Context) 204
9.2.1 SQLContext 204
9.2.2 HiveContext 205
9.3 SQL DSL API 206
9.3.1 數(shù)據(jù)源管理 206
9.3.2 SchemaRDD 208
9.3.3 Row API 210
9.3.4 數(shù)據(jù)類型 211
9.3.5 DSL API舉例 213
9.3.6 表達(dá)式計(jì)算 214
9.3.7 Parquet列式存儲(chǔ)文件 218
9.3.8 代碼演示 218
9.4 Java API 221
9.5 Python API 224
9.6 Spark SQL CLI 225
9.7 Thrift服務(wù) 225
9.8 小結(jié) 225
第10章 Spark Streaming流數(shù)據(jù)處理框架 227
10.1 快速入門 227
10.2 Spark Streaming基本概念 229
10.2.1 鏈接和初始化 229
10.2.2 時(shí)間和窗口概念 231
10.2.3 DStream原理 232
10.2.4 DStream輸入源 234
10.2.5 DStream 操作 235
10.2.6 DStream持久化 237
10.3 性能調(diào)優(yōu) 238
10.3.1 運(yùn)行時(shí)間優(yōu)化 238
10.3.2 內(nèi)存使用優(yōu)化 238
10.4 容錯(cuò)處理 239
10.4.1 工作節(jié)點(diǎn)失效 239
10.4.2 驅(qū)動(dòng)節(jié)點(diǎn)失效 240
10.5 DStream作業(yè)的產(chǎn)生和調(diào)度 242
10.5.1 作業(yè)產(chǎn)生 242
10.5.2 作業(yè)調(diào)度 243
10.5.3 Streaming作業(yè)與Spark作業(yè)之間的關(guān)系 244
10.6 DStream與RDD關(guān)系 246
10.7 數(shù)據(jù)接收原理 248
10.8 自定義數(shù)據(jù)輸入源 251
10.9 自定義監(jiān)控接口(StreamingListener) 253
10.10 Spark Streaming案例分析 254
10.11 小結(jié) 256
第11章 GraphX計(jì)算框架 259
11.1 圖并行計(jì)算 259
11.1.1 數(shù)據(jù)并行與圖并行計(jì)算 259
11.1.2 圖并行計(jì)算框架簡介 260
11.1.3 GraphX簡介 264
11.2 GraphX模型設(shè)計(jì) 264
11.2.1 數(shù)據(jù)模型 264
11.2.2 圖計(jì)算接口 265
11.3 GraphX模型實(shí)現(xiàn) 269
11.3.1 圖的分布式存儲(chǔ) 269
11.3.2 圖操作執(zhí)行策略 278
11.3.3 圖操作執(zhí)行優(yōu)化 280
11.3.4 序列化和反序列化 283
11.3.5 GraphX內(nèi)置算法庫 284
11.4 GraphX應(yīng)用 285
11.4.1 Pregel模型 285
11.4.2 N維鄰接關(guān)系計(jì)算 288
11.5 小結(jié) 291
第12章 Tachyon存儲(chǔ)系統(tǒng) 293
12.1 設(shè)計(jì)原理 294
12.1.1 高效的內(nèi)存讀寫 294
12.1.2 無副本的可靠性實(shí)現(xiàn)——Lineage 297
12.2 框架設(shè)計(jì) 299
12.2.1 主節(jié)點(diǎn) 300
12.2.2 工作節(jié)點(diǎn) 304
12.2.3 客戶端 306
12.2.4 讀寫工作流程 307
12.3 Tachyon的部署 313
12.3.1 單機(jī)部署 313
12.3.2 分布式部署 316
12.3.3 Tachyon的配置 317
12.4 Tachyon應(yīng)用 321
12.4.1 Shark原始表(RawTable) 321
12.4.2 Spark的堆外RDD 325
12.4.3 Tachyon用戶接口(API) 327
12.5 相關(guān)項(xiàng)目討論 335
12.6 小結(jié) 336

載地址

下載錯(cuò)誤?【投訴報(bào)錯(cuò)】

Spark大數(shù)據(jù)處理技術(shù) 完整pdf掃描版[48MB]

      氣書籍

      載聲明

      ☉ 解壓密碼:www.dbjr.com.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
      ☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
      ☉ 如果這個(gè)軟件總是不能下載的請(qǐng)?jiān)谠u(píng)論中留言,我們會(huì)盡快修復(fù),謝謝!
      ☉ 下載本站資源,如果服務(wù)器暫不能下載請(qǐng)過一段時(shí)間重試!或者多試試幾個(gè)下載地址
      ☉ 如果遇到什么問題,請(qǐng)?jiān)u論留言,我們定會(huì)解決問題,謝謝大家支持!
      ☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請(qǐng)購買正版。
      ☉ 本站提供的Spark大數(shù)據(jù)處理技術(shù) 完整pdf掃描版[48MB] 資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。