Spark大數(shù)據(jù)處理: 原理、算法與實(shí)例 pdf掃描版[148MB]
148.7MB / 07-17
Spark零基礎(chǔ)實(shí)戰(zhàn) (王家林、孔祥瑞著) 高清pdf掃描版[91MB]
91.0MB / 07-17
Spark內(nèi)核機(jī)制解析及性能調(diào)優(yōu) 高清pdf掃描版[167MB]
167.5MBMB / 05-08
Spark大數(shù)據(jù)處理技術(shù) 完整pdf掃描版[48MB]
48.7MB / 04-02
spark案例與實(shí)驗(yàn)教程 完整掃描版pdf[29MB]
29.4MB / 07-26
-
-
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)面試筆試題300+合集 中文pdf完整版 編程其它 / 5.9MB
-
-
-
Arduino編程參考手冊(cè) 中文版PDF 編程其它 / 80KB
-
CODESYS基礎(chǔ)編程及應(yīng)用指南 中文pdf完整版 編程其它 / 10.6MB
-
Tcl教程中文版+入門教程 完整版PDF 編程其它 / 2.12MB
-
圖解算法小抄(筆記) 中文PDF完整版 編程其它 / 6.1MB
-
QNX官方開發(fā)手冊(cè)(中英文版) 完整版pdf 編程其它 / 6.32MB
-
詳情介紹
本書首先從技術(shù)層面講解了Spark的機(jī)制、生態(tài)系統(tǒng)與開發(fā)相關(guān)的內(nèi)容;然后從應(yīng)用角度講解了日志分析、推薦系統(tǒng)、情感分析、協(xié)同過濾、搜索引擎、社交網(wǎng)絡(luò)分析、新聞數(shù)據(jù)分析等多個(gè)常見的大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)分析。在每個(gè)場(chǎng)景中,首先是對(duì)場(chǎng)景進(jìn)行抽象與概括,然后將Spark融入其中構(gòu)建數(shù)據(jù)分析算法與應(yīng)用,最后結(jié)合其他開源系統(tǒng)或工具構(gòu)建更為豐富的數(shù)據(jù)分析流水線。
本書一共11章:其中第1~3章,主要介紹了Spark的基本概念、編程模型、開發(fā)與部署的方法;第4~11章,詳細(xì)詳解了熱點(diǎn)新聞分析系統(tǒng)、基于云平臺(tái)的日志數(shù)據(jù)分析、情感分析系統(tǒng)、搜索引擎鏈接分析系統(tǒng)等的應(yīng)用與算法等核心知識(shí)點(diǎn)。
目錄
前 言
第1章 Spark簡介 1
1.1 初識(shí)Spark 1
1.2 Spark生態(tài)系統(tǒng)BDAS 3
1.3 Spark架構(gòu)與運(yùn)行邏輯 4
1.4 彈性分布式數(shù)據(jù)集 6
1.4.1 RDD簡介 6
1.4.2 RDD算子分類 8
1.5 本章小結(jié) 17
第2章 Spark開發(fā)與環(huán)境配置 18
2.1 Spark應(yīng)用開發(fā)環(huán)境配置 18
2.1.1 使用Intellij開發(fā)Spark程序 18
2.1.2 使用SparkShell進(jìn)行交互式數(shù)據(jù)分析 23
2.2 遠(yuǎn)程調(diào)試Spark程序 24
2.3 Spark編譯 26
2.4 配置Spark源碼閱讀環(huán)境 29
2.5 本章小結(jié) 29
第3章 BDAS簡介 30
3.1 SQL on Spark 30
3.1.1 為什么使用Spark SQL 31
3.1.2 Spark SQL架構(gòu)分析 32
3.2 Spark Streaming 35
3.2.1 Spark Streaming簡介 35
3.2.2 Spark Streaming架構(gòu) 38
3.2.3 Spark Streaming原理剖析 38
3.3 GraphX 45
3.3.1 GraphX簡介 45
3.3.2 GraphX的使用簡介 45
3.3.3 GraphX體系結(jié)構(gòu) 48
3.4 MLlib 50
3.4.1 MLlib簡介 50
3.4.2 MLlib中的聚類和分類 52
3.5 本章小結(jié) 57
第4章 Lamda架構(gòu)日志分析流水線 58
4.1 日志分析概述 58
4.2 日志分析指標(biāo) 61
4.3 Lamda架構(gòu) 62
4.4 構(gòu)建日志分析數(shù)據(jù)流水線 64
4.4.1 用Flume進(jìn)行日志采集 64
4.4.2 用Kafka將日志匯總 68
4.4.3 用Spark Streaming進(jìn)行實(shí)時(shí)日志分析 70
4.4.4 Spark SQL離線日志分析 75
4.4.5 用Flask將日志KPI可視化 78
4.5 本章小結(jié) 81
第5章 基于云平臺(tái)和用戶日志的推薦系統(tǒng) 82
5.1 Azure云平臺(tái)簡介 82
5.1.1 Azure網(wǎng)站模型 83
5.1.2 Azure數(shù)據(jù)存儲(chǔ) 84
5.1.3 Azure Queue消息傳遞 84
5.2 系統(tǒng)架構(gòu) 85
5.3 構(gòu)建Node.js應(yīng)用 86
5.3.1 創(chuàng)建Azure Web應(yīng)用 87
5.3.2 構(gòu)建本地Node.js網(wǎng)站 90
5.3.3 發(fā)布應(yīng)用到云平臺(tái) 90
5.4 數(shù)據(jù)收集與預(yù)處理 91
5.4.1 通過JS收集用戶行為日志 92
5.4.2 用戶實(shí)時(shí)行為回傳到Azure Queue 94
5.5 Spark Streaming實(shí)時(shí)分析用戶日志 96
5.5.1 構(gòu)建Azure Queue的Spark Streaming Receiver 96
5.5.2 Spark Streaming實(shí)時(shí)處理Azure Queue日志 97
5.5.3 Spark Streaming數(shù)據(jù)存儲(chǔ)于Azure Table 98
5.6 MLlib離線訓(xùn)練模型 99
5.6.1 加載訓(xùn)練數(shù)據(jù) 99
5.6.2 使用rating RDD訓(xùn)練ALS模型 100
5.6.3 使用ALS模型進(jìn)行電影推薦 101
5.6.4 評(píng)估模型的均方差 101
5.7 本章小結(jié) 102
第6章 Twitter情感分析 103
6.1 系統(tǒng)架構(gòu) 103
6.2 Twitter數(shù)據(jù)收集 104
6.2.1 設(shè)置 104
6.2.2 Spark Streaming接收并輸出Tweet 109
6.3 數(shù)據(jù)預(yù)處理與Cassandra存儲(chǔ) 111
6.3.1 添加SBT依賴 111
6.3.2 創(chuàng)建Cassandra Schema 112
6.3.3 數(shù)據(jù)存儲(chǔ)于Cassandra 112
6.4 Spark Streaming熱點(diǎn)Twitter分析 113
6.5 Spark Streaming在線情感分析 115
6.6 Spark SQL進(jìn)行Twitter分析 118
6.6.1 讀取Cassandra數(shù)據(jù) 118
6.6.2 查看JSON數(shù)據(jù)模式 118
6.6.3 Spark SQL分析Twitter 119
6.7 Twitter可視化 123
6.8 本章小結(jié) 125
第7章 熱點(diǎn)新聞分析系統(tǒng) 126
7.1 新聞數(shù)據(jù)分析 126
7.2 系統(tǒng)架構(gòu) 126
7.3 爬蟲抓取網(wǎng)絡(luò)信息 127
7.3.1 Scrapy簡介 127
7.3.2 創(chuàng)建基于Scrapy的新聞爬蟲 128
7.3.3 爬蟲分布式化 133
7.4 新聞文本數(shù)據(jù)預(yù)處理 134
7.5 新聞聚類 135
7.5.1 數(shù)據(jù)轉(zhuǎn)換為向量(向量空間模型VSM) 135
7.5.2 新聞聚類 136
7.5.3 詞向量同義詞查詢 138
7.5.4 實(shí)時(shí)熱點(diǎn)新聞分析 138
7.6 Spark Elastic Search構(gòu)建全文檢索引擎 139
7.6.1 部署Elastic Search 139
7.6.2 用Elastic Search索引MongoDB數(shù)據(jù) 141
7.6.3 通過Elastic Search檢索數(shù)據(jù) 143
7.7 本章小結(jié) 145
第8章 構(gòu)建分布式的協(xié)同過濾推薦系統(tǒng) 146
8.1 推薦系統(tǒng)簡介 146
8.2 協(xié)同過濾介紹 147
8.2.1 基于用戶的協(xié)同過濾算法User-based CF 148
8.2.2 基于項(xiàng)目的協(xié)同過濾算法Item-based CF 149
8.2.3 基于模型的協(xié)同過濾推薦Model-based CF 150
8.3 基于Spark的矩陣運(yùn)算實(shí)現(xiàn)協(xié)同過濾算法 152
8.3.1 Spark中的矩陣類型 152
8.3.2 Spark中的矩陣運(yùn)算 153
8.3.3 實(shí)現(xiàn)User-based協(xié)同過濾的示例 153
8.3.4 實(shí)現(xiàn)Item-based協(xié)同過濾的示例 154
8.3.5 基于奇異值分解實(shí)現(xiàn)Model-based協(xié)同過濾的示例 155
8.4 基于Spark的MLlib實(shí)現(xiàn)協(xié)同過濾算法 155
8.4.1 MLlib的推薦算法工具 155
8.4.2 MLlib協(xié)同過濾推薦示例 156
8.5 案例:使用MLlib協(xié)同過濾實(shí)現(xiàn)電影推薦 157
8.5.1 MovieLens數(shù)據(jù)集 157
8.5.2 確定ZUI佳的協(xié)同過濾模型參數(shù) 158
8.5.3 利用ZUI佳模型進(jìn)行電影推薦 160
8.6 本章小結(jié) 161
第9章 基于Spark的社交網(wǎng)絡(luò)分析 162
9.1 社交網(wǎng)絡(luò)介紹 162
9.1.1 社交網(wǎng)絡(luò)的類型 162
9.1.2 社交網(wǎng)絡(luò)的相關(guān)概念 163
9.2 社交網(wǎng)絡(luò)中社團(tuán)挖掘算法 164
9.2.1 聚類分析和K均值算法簡介 165
9.2.2 社團(tuán)挖掘的衡量指標(biāo) 165
9.2.3 基于譜聚類的社團(tuán)挖掘算法 166
9.3 Spark中的K均值算法 168
9.3.1 Spark中與K均值有關(guān)的對(duì)象和方法 168
9.3.2 Spark下K均值算法示例 168
9.4 案例:基于Spark的Facebook社團(tuán)挖掘 169
9.4.1 SNAP社交網(wǎng)絡(luò)數(shù)據(jù)集介紹 169
9.4.2 基于Spark的社團(tuán)挖掘?qū)崿F(xiàn) 170
9.5 社交網(wǎng)絡(luò)中的鏈路預(yù)測(cè)算法 172
9.5.1 分類學(xué)習(xí)簡介 172
9.5.2 分類器的評(píng)價(jià)指標(biāo) 173
9.5.3 基于Logistic回歸的鏈路預(yù)測(cè)算法 174
9.6 Spark MLlib中的Logistic回歸 174
9.6.1 分類器相關(guān)對(duì)象 174
9.6.2 模型驗(yàn)證對(duì)象 175
9.6.3 基于Spark的Logistic回歸示例 175
9.7 案例:基于Spark的鏈路預(yù)測(cè)算法 177
9.7.1 SNAP符號(hào)社交網(wǎng)絡(luò)Epinions數(shù)據(jù)集 177
9.7.2 基于Spark的鏈路預(yù)測(cè)算法 177
9.8 本章小結(jié) 179
第10章 基于Spark的大規(guī)模新聞主題分析 180
10.1 主題模型簡介 180
10.2 主題模型LDA 181
10.2.1 LDA模型介紹 181
10.2.2 LDA的訓(xùn)練算法 183
10.3 Spark中的LDA模型 185
10.3.1 MLlib對(duì)LDA的支持 185
10.3.2 Spark中LDA模型訓(xùn)練示例 186
10.4 案例:Newsgroups新聞的主題分析 189
10.4.1 Newsgroups數(shù)據(jù)集介紹 190
10.4.2 交叉驗(yàn)證估計(jì)新聞的主題個(gè)數(shù) 190
10.4.3 基于主題模型的文本聚類算法 193
10.4.4 基于主題模型的文本分類算法 195
10.5 本章小結(jié) 196
第11章 構(gòu)建分布式的搜索引擎 197
11.1 搜索引擎簡介 197
11.2 搜索排序概述 198
11.3 查詢無關(guān)模型PageRank 199
11.4 基于Spark的分布式PageRank實(shí)現(xiàn) 200
11.4.1 PageRank的MapReduce實(shí)現(xiàn) 200
11.4.2 Spark的分布式圖模型GraphX 203
11.4.3 基于GraphX的PageRank實(shí)現(xiàn) 203
11.5 案例:GoogleWeb Graph的PageRank計(jì)算 204
11.6 查詢相關(guān)模型Ranking SVM 206
11.7 Spark中支持向量機(jī)的實(shí)現(xiàn) 208
11.7.1 Spark中的支持向量機(jī)模型 208
11.7.2 使用Spark測(cè)試數(shù)據(jù)演示支持向量機(jī)的訓(xùn)練 209
11.8 案例:基于MSLR數(shù)據(jù)集的查詢排序 211
11.8.1 Microsoft Learning to Rank數(shù)據(jù)集介紹 211
11.8.2 基于Spark的Ranking SVM實(shí)現(xiàn) 212
11.9 本章小結(jié) 213
下載地址
人氣書籍
微信公眾平臺(tái)應(yīng)用開發(fā)實(shí)戰(zhàn) PDF掃描版
Arduino編程參考手冊(cè) 中文版PDF
設(shè)計(jì)模式:可復(fù)用面向?qū)ο筌浖幕A(chǔ) PDF 掃描版[21M]
啊哈!算法 PDF掃描版[73MB]
proe5.0 入門教程pdf版
算法圖解 (袁國忠著) 中文pdf完整版[17MB]
Unity3D游戲開發(fā) 宣雨松著 PDF掃描版[27MB]
R語言實(shí)戰(zhàn)(第2版) ([美]卡巴科弗) 中文pdf完整版[19MB]
unity3d從入門到精通中文教程 高清PDF完整版[11MB]
編程之美PDF全集
下載聲明
☉ 解壓密碼:www.dbjr.com.cn 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個(gè)軟件總是不能下載的請(qǐng)?jiān)谠u(píng)論中留言,我們會(huì)盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請(qǐng)過一段時(shí)間重試!或者多試試幾個(gè)下載地址
☉ 如果遇到什么問題,請(qǐng)?jiān)u論留言,我們定會(huì)解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請(qǐng)購買正版。
☉ 本站提供的Spark大數(shù)據(jù)分析實(shí)戰(zhàn) (高彥杰 等著) 完整pdf掃描版[31MB] 資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。