from pyspark.sql import SparkSession
import sys
if __name__ == "__main__":
spark = SparkSession.builder \
.getOrCreate()
mongo_read_uri = "mongodb://user:passwd@ip:port/database_name"
table = "table_name"
device_statis_df = spark.read \
.option("uri",mongo_read_uri) \
.option("collection",table) \
.format("com.mongodb.spark.sql") \
.load()
device_statis_df.createOrReplaceTempView("devicestatistics")
sql_str = """
select * from devicestatistics
"""
sqlDF = spark.sql(sql_str)
sqlDF.repartition(10).write.format("parquet").mode("overwrite").save("/path/to/hdfs")
print ("Done ====")
spark.stop()
spark 读取mongodb中的数据然后存储到hdfs上
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...