快捷導(dǎo)航

Spark整合Mongodb的方法

更新時(shí)間：2017年11月20日 15:58:55 投稿：mrr

Spark 是一個(gè)通用，快速，適用于大規(guī)模數(shù)據(jù)的處理引擎。接下來通過本文給大家分享Spark整合Mongodb的方法，感興趣的朋友一起看看吧

Spark介紹

按照官方的定義，Spark 是一個(gè)通用，快速，適用于大規(guī)模數(shù)據(jù)的處理引擎。

通用性：我們可以使用Spark SQL來執(zhí)行常規(guī)分析， Spark Streaming 來流數(shù)據(jù)處理，以及用Mlib來執(zhí)行機(jī)器學(xué)習(xí)等。Java，python，scala及R語言的支持也是其通用性的表現(xiàn)之一。

快速：這個(gè)可能是Spark成功的最初原因之一，主要?dú)w功于其基于內(nèi)存的運(yùn)算方式。當(dāng)需要處理的數(shù)據(jù)需要反復(fù)迭代時(shí)，Spark可以直接在內(nèi)存中暫存數(shù)據(jù)，而無需像Map Reduce一樣需要把數(shù)據(jù)寫回磁盤。官方的數(shù)據(jù)表明：它可以比傳統(tǒng)的Map Reduce快上100倍。

大規(guī)模：原生支持HDFS，并且其計(jì)算節(jié)點(diǎn)支持彈性擴(kuò)展，利用大量廉價(jià)計(jì)算資源并發(fā)的特點(diǎn)來支持大規(guī)模數(shù)據(jù)處理。

環(huán)境準(zhǔn)備

mongodb下載

解壓安裝

啟動(dòng)mongodb服務(wù)

$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log

pom依賴

<dependency> 
<groupId>org.mongodb.spark</groupId> 
<artifactId>mongo-spark-connector_2.11</artifactId> 
<version>${spark.version}</version> 
</dependency>

實(shí)例代碼

object ConnAppTest { 
def main(args: Array[String]): Unit = { 
val spark = SparkSession.builder() 
.master("local[2]") 
.appName("ConnAppTest") 
.config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸入 
.config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸出 
.getOrCreate() 
// 生成測(cè)試數(shù)據(jù) 
val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) 
// 存儲(chǔ)數(shù)據(jù)到mongodb 
MongoSpark.save(documents) 
// 加載數(shù)據(jù) 
val rdd = MongoSpark.load(spark) 
// 打印輸出 
rdd.show 
} 
}

總結(jié)

以上所述是小編給大家介紹的Spark整合Mongodb的方法，希望對(duì)大家有所幫助，如果大家有任何疑問請(qǐng)給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持！

您可能感興趣的文章:

相關(guān)文章

mongodb使用docker搭建replicaSet集群與變更監(jiān)聽(最新推薦)
replicaSet和cluster從部署難度相比，replicaSet要簡(jiǎn)單許多。如果所存儲(chǔ)的數(shù)據(jù)量規(guī)模不算太大的情況下，那么使用replicaSet方式部署mongodb是一個(gè)不錯(cuò)的選擇，這篇文章主要介紹了mongodb使用docker搭建replicaSet集群與變更監(jiān)聽,需要的朋友可以參考下
2023-03-03
MongoDB通配符索引的用法實(shí)例
這篇文章主要給大家介紹了關(guān)于MongoDB通配符索引的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-09-09
MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解
這篇文章主要介紹了MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解,mongostat是mongdb自帶的狀態(tài)檢測(cè)工具,在命令行下使用,它會(huì)間隔固定時(shí)間獲取mongodb的當(dāng)前運(yùn)行狀態(tài),并輸出,本文詳細(xì)講解了它的使用,需要的朋友可以參考下
2015-07-07
使用Node操作MongoDB數(shù)據(jù)庫(kù)的方法
這篇文章主要介紹了使用Node操作MongoDB數(shù)據(jù)庫(kù)的方法，非常不錯(cuò)，具有參考借鑒價(jià)值,需要的朋友可以參考下
2018-01-01
MongoDB在系統(tǒng)數(shù)據(jù)庫(kù)local中無法創(chuàng)建用戶的解決辦法
這篇文章主要給大家介紹了關(guān)于MongoDB在系統(tǒng)數(shù)據(jù)庫(kù)local中無法創(chuàng)建用戶的解決辦法，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2018-11-11
MongoDB執(zhí)行mongoexport時(shí)的異常及分析（數(shù)字類型的查詢）
這篇文章主要給大家介紹了關(guān)于MongoDB執(zhí)行mongoexport時(shí)的異常及分析（數(shù)字類型的查詢）的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，需要的朋友可以參考借鑒，下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2018-09-09
MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程
MongoDB中的聚合aggregate主要用于處理數(shù)據(jù)計(jì)算,這里我們就來詳細(xì)整理MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程,需要的朋友可以參考下
2016-07-07
Ubuntu 18.04安裝MongoDB 4.0 的教程詳解
這篇文章主要介紹了Ubuntu 18.04安裝MongoDB 4.0 的教程，非常不錯(cuò)，具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
2019-04-04
MongoDB中游標(biāo)的深入學(xué)習(xí)
MongoDB中find()函數(shù)返回一個(gè)游標(biāo)，客戶端通過對(duì)游標(biāo)進(jìn)行一些設(shè)置就能對(duì)查詢結(jié)果進(jìn)行有效地控制，如可以限制查詢得到的結(jié)果數(shù)量、跳過部分結(jié)果、或?qū)Y(jié)果集按任意鍵進(jìn)行排序等！這篇文章主要介紹了MongoDB中的游標(biāo)，有需要的朋友們可以參考借鑒，下面來一起看看吧。
2016-12-12
Mongodb常見操作符和運(yùn)算符總結(jié)
MongoDB 提供了豐富的操作符（Operators）和運(yùn)算符（Expressions）用于在查詢和更新文檔時(shí)指定條件和操作數(shù)據(jù),本文將通過代碼示例給大家詳細(xì)的總結(jié)一下Mongodb常見操作符和運(yùn)算符,需要的朋友可以參考下
2024-01-01