Spark整合Mongodb的方法
Spark介紹
按照官方的定義,Spark 是一個(gè)通用,快速,適用于大規(guī)模數(shù)據(jù)的處理引擎。
通用性:我們可以使用Spark SQL來(lái)執(zhí)行常規(guī)分析, Spark Streaming 來(lái)流數(shù)據(jù)處理, 以及用Mlib來(lái)執(zhí)行機(jī)器學(xué)習(xí)等。Java,python,scala及R語(yǔ)言的支持也是其通用性的表現(xiàn)之一。
快速: 這個(gè)可能是Spark成功的最初原因之一,主要?dú)w功于其基于內(nèi)存的運(yùn)算方式。當(dāng)需要處理的數(shù)據(jù)需要反復(fù)迭代時(shí),Spark可以直接在內(nèi)存中暫存數(shù)據(jù),而無(wú)需像Map Reduce一樣需要把數(shù)據(jù)寫(xiě)回磁盤。官方的數(shù)據(jù)表明:它可以比傳統(tǒng)的Map Reduce快上100倍。
大規(guī)模:原生支持HDFS,并且其計(jì)算節(jié)點(diǎn)支持彈性擴(kuò)展,利用大量廉價(jià)計(jì)算資源并發(fā)的特點(diǎn)來(lái)支持大規(guī)模數(shù)據(jù)處理。
環(huán)境準(zhǔn)備
mongodb下載
解壓安裝
啟動(dòng)mongodb服務(wù)
$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log
pom依賴
<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>${spark.version}</version> </dependency>
實(shí)例代碼
object ConnAppTest { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[2]") .appName("ConnAppTest") .config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸入 .config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb輸出 .getOrCreate() // 生成測(cè)試數(shù)據(jù) val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) // 存儲(chǔ)數(shù)據(jù)到mongodb MongoSpark.save(documents) // 加載數(shù)據(jù) val rdd = MongoSpark.load(spark) // 打印輸出 rdd.show } }
總結(jié)
以上所述是小編給大家介紹的Spark整合Mongodb的方法,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
- linux環(huán)境不使用hadoop安裝單機(jī)版spark的方法
- 淺談七種常見(jiàn)的Hadoop和Spark項(xiàng)目案例
- Python搭建Spark分布式集群環(huán)境
- 使用docker快速搭建Spark集群的方法教程
- centOS7下Spark安裝配置教程詳解
- Spark學(xué)習(xí)筆記(一)Spark初識(shí)【特性、組成、應(yīng)用】
- 初識(shí)Spark入門
- 詳解Java編寫(xiě)并運(yùn)行spark應(yīng)用程序的方法
- java 中Spark中將對(duì)象序列化存儲(chǔ)到hdfs
- Spark學(xué)習(xí)筆記 (二)Spark2.3 HA集群的分布式安裝圖文詳解
相關(guān)文章
mongodb使用docker搭建replicaSet集群與變更監(jiān)聽(tīng)(最新推薦)
replicaSet和cluster從部署難度相比,replicaSet要簡(jiǎn)單許多。如果所存儲(chǔ)的數(shù)據(jù)量規(guī)模不算太大的情況下,那么使用replicaSet方式部署mongodb是一個(gè)不錯(cuò)的選擇,這篇文章主要介紹了mongodb使用docker搭建replicaSet集群與變更監(jiān)聽(tīng),需要的朋友可以參考下2023-03-03MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解
這篇文章主要介紹了MongoDB運(yùn)行狀態(tài)監(jiān)控、性能分析工具mongostat詳解,mongostat是mongdb自帶的狀態(tài)檢測(cè)工具,在命令行下使用,它會(huì)間隔固定時(shí)間獲取mongodb的當(dāng)前運(yùn)行狀態(tài),并輸出,本文詳細(xì)講解了它的使用,需要的朋友可以參考下2015-07-07使用Node操作MongoDB數(shù)據(jù)庫(kù)的方法
這篇文章主要介紹了使用Node操作MongoDB數(shù)據(jù)庫(kù)的方法,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下2018-01-01MongoDB在系統(tǒng)數(shù)據(jù)庫(kù)local中無(wú)法創(chuàng)建用戶的解決辦法
這篇文章主要給大家介紹了關(guān)于MongoDB在系統(tǒng)數(shù)據(jù)庫(kù)local中無(wú)法創(chuàng)建用戶的解決辦法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-11-11MongoDB執(zhí)行mongoexport時(shí)的異常及分析(數(shù)字類型的查詢)
這篇文章主要給大家介紹了關(guān)于MongoDB執(zhí)行mongoexport時(shí)的異常及分析(數(shù)字類型的查詢)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程
MongoDB中的聚合aggregate主要用于處理數(shù)據(jù)計(jì)算,這里我們就來(lái)詳細(xì)整理MongoDB的聚合框架Aggregation Framework入門學(xué)習(xí)教程,需要的朋友可以參考下2016-07-07Ubuntu 18.04安裝MongoDB 4.0 的教程詳解
這篇文章主要介紹了Ubuntu 18.04安裝MongoDB 4.0 的教程,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-04-04MongoDB中游標(biāo)的深入學(xué)習(xí)
MongoDB中find()函數(shù)返回一個(gè)游標(biāo),客戶端通過(guò)對(duì)游標(biāo)進(jìn)行一些設(shè)置就能對(duì)查詢結(jié)果進(jìn)行有效地控制,如可以限制查詢得到的結(jié)果數(shù)量、跳過(guò)部分結(jié)果、或?qū)Y(jié)果集按任意鍵進(jìn)行排序等!這篇文章主要介紹了MongoDB中的游標(biāo),有需要的朋友們可以參考借鑒,下面來(lái)一起看看吧。2016-12-12Mongodb常見(jiàn)操作符和運(yùn)算符總結(jié)
MongoDB 提供了豐富的操作符(Operators)和運(yùn)算符(Expressions)用于在查詢和更新文檔時(shí)指定條件和操作數(shù)據(jù),本文將通過(guò)代碼示例給大家詳細(xì)的總結(jié)一下Mongodb常見(jiàn)操作符和運(yùn)算符,需要的朋友可以參考下2024-01-01