Spark整合Mongodb的方法
Spark介紹
按照官方的定義,Spark 是一個通用,快速,適用于大規(guī)模數(shù)據(jù)的處理引擎。
通用性:我們可以使用Spark SQL來執(zhí)行常規(guī)分析, Spark Streaming 來流數(shù)據(jù)處理, 以及用Mlib來執(zhí)行機(jī)器學(xué)習(xí)等。Java,python,scala及R語言的支持也是其通用性的表現(xiàn)之一。
快速: 這個可能是Spark成功的最初原因之一,主要?dú)w功于其基于內(nèi)存的運(yùn)算方式。當(dāng)需要處理的數(shù)據(jù)需要反復(fù)迭代時,Spark可以直接在內(nèi)存中暫存數(shù)據(jù),而無需像Map Reduce一樣需要把數(shù)據(jù)寫回磁盤。官方的數(shù)據(jù)表明:它可以比傳統(tǒng)的Map Reduce快上100倍。
大規(guī)模:原生支持HDFS,并且其計算節(jié)點(diǎn)支持彈性擴(kuò)展,利用大量廉價計算資源并發(fā)的特點(diǎn)來支持大規(guī)模數(shù)據(jù)處理。
環(huán)境準(zhǔn)備
mongodb下載
解壓安裝
啟動mongodb服務(wù)
$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log
pom依賴
<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>${spark.version}</version> </dependency>
實(shí)例代碼
object ConnAppTest { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[2]") .appName("ConnAppTest") .config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸入 .config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸出 .getOrCreate() // 生成測試數(shù)據(jù) val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) // 存儲數(shù)據(jù)到mongodb MongoSpark.save(documents) // 加載數(shù)據(jù) val rdd = MongoSpark.load(spark) // 打印輸出 rdd.show } }
總結(jié)
以上所述是小編給大家介紹的Spark整合Mongodb的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
相關(guān)文章
mongodb使用docker搭建replicaSet集群與變更監(jiān)聽(最新推薦)
replicaSet和cluster從部署難度相比,replicaSet要簡單許多。如果所存儲的數(shù)據(jù)量規(guī)模不算太大的情況下,那么使用replicaSet方式部署mongodb是一個不錯的選擇,這篇文章主要介紹了mongodb使用docker搭建replicaSet集群與變更監(jiān)聽,需要的朋友可以參考下2023-03-03MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解
這篇文章主要介紹了MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解,mongostat是mongdb自帶的狀態(tài)檢測工具,在命令行下使用,它會間隔固定時間獲取mongodb的當(dāng)前運(yùn)行狀態(tài),并輸出,本文詳細(xì)講解了它的使用,需要的朋友可以參考下2015-07-07使用Node操作MongoDB數(shù)據(jù)庫的方法
這篇文章主要介紹了使用Node操作MongoDB數(shù)據(jù)庫的方法,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2018-01-01MongoDB在系統(tǒng)數(shù)據(jù)庫local中無法創(chuàng)建用戶的解決辦法
這篇文章主要給大家介紹了關(guān)于MongoDB在系統(tǒng)數(shù)據(jù)庫local中無法創(chuàng)建用戶的解決辦法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-11-11MongoDB執(zhí)行mongoexport時的異常及分析(數(shù)字類型的查詢)
這篇文章主要給大家介紹了關(guān)于MongoDB執(zhí)行mongoexport時的異常及分析(數(shù)字類型的查詢)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程
MongoDB中的聚合aggregate主要用于處理數(shù)據(jù)計算,這里我們就來詳細(xì)整理MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程,需要的朋友可以參考下2016-07-07Ubuntu 18.04安裝MongoDB 4.0 的教程詳解
這篇文章主要介紹了Ubuntu 18.04安裝MongoDB 4.0 的教程,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下2019-04-04MongoDB中游標(biāo)的深入學(xué)習(xí)
MongoDB中find()函數(shù)返回一個游標(biāo),客戶端通過對游標(biāo)進(jìn)行一些設(shè)置就能對查詢結(jié)果進(jìn)行有效地控制,如可以限制查詢得到的結(jié)果數(shù)量、跳過部分結(jié)果、或?qū)Y(jié)果集按任意鍵進(jìn)行排序等!這篇文章主要介紹了MongoDB中的游標(biāo),有需要的朋友們可以參考借鑒,下面來一起看看吧。2016-12-12