Lesen der riesigen MongoDB-Sammlung von Spark mit Hilfe von Worker

Es gibt zwei Möglichkeiten, die Daten von MongoDB nach Apache Spark zu übertragen.

Methode 1:Verwenden von Casbah (Schicht auf MongDB-Java-Treiber)

val uriRemote = MongoClientURI("mongodb://RemoteURL:27017/")
val mongoClientRemote =  MongoClient(uriRemote)
val dbRemote = mongoClientRemote("dbName")
val collectionRemote = dbRemote("collectionName")
val ipMongo = collectionRemote.find
val ipRDD = sc.makeRDD(ipMongo.toList)
ipRDD.saveAsTextFile("hdfs://path/to/hdfs")

Hier drüben verwenden wir Scala und Casbah, um die Daten zuerst abzurufen und sie dann in HDFS zu speichern.

Methode 2:Spark Worker bei unserer Verwendung

Bessere Codeversion:Verwendung von Spark-Worker und mehreren Kernen, um die Daten in kurzer Zeit abzurufen.

val config = new Configuration()
config.set("mongo.job.input.format","com.mongodb.hadoop.MongoInputFormat")
config.set("mongo.input.uri", "mongodb://RemoteURL:27017/dbName.collectionName")
val keyClassName = classOf[Object]
val valueClassName = classOf[BSONObject]
val inputFormatClassName = classOf[com.mongodb.hadoop.MongoInputFormat]
val ipRDD = sc.newAPIHadoopRDD(config,inputFormatClassName,keyClassName,valueClassName)
ipRDD.saveAsTextFile("hdfs://path/to/hdfs")