Hive/Spark任务小文件合并配置

-- hive任务
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=256000000;  
set hive.merge.smallfiles.avgsize=256000000;  

-- spark任务
set spark.sql.adaptive.repartition.enabled=true;
set spark.sql.adaptive.minNumPostShufflePartitions=1;

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

HIVE：小文件合并
HDFS非常容易存储大数据文件，如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过...
惊不意外阅读 12,079评论 0赞 2
hive小文件合并问题
背景 Hivequery将运算好的数据写回hdfs（比如insert into语句），有时候会产生大量的小文件，如...
DuLaGong阅读 5,979评论 0赞 0
spark 小文件合并优化实践
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。背景此文是关于公司在 Delta...
breeze_lsw阅读 10,003评论 0赞 4
Hive小文件合并迁移
1 需求 Hive数据库内有4张表，每张表有1TB左右数据，按天分区，需要将这4张表的数据迁移到另一个集群。因为...
大数据技术进阶阅读 11,306评论 1赞 4
黑猴子的家：Hive 数据倾斜优化之小文件合并
在map执行前合并小文件，减少map数：CombineHiveInputFormat具有对小文件进行合并的功能（系...
黑猴子的家阅读 3,199评论 0赞 7

赞1赞

赞赏

手机看全文