登录注册写文章

Spark过大数据量分组排序,内存不足

相关知情人士

Spark过大数据量分组排序,内存不足

需求 :

假定超大数据量的商品,需要根据其价格在其类目或全类目进行排序求前1000,但是内存不足

需求拆解 :

先算出特定类目的前1000,再进行全类目的分组比较排序

备注 :

不要使用Spark自带的GroupByKey,要自己实现CombineByKey
实现CombinedByKey的时候需要在每次MergeValue 和 MergeCombiner的时候做好排序,限定前1000(即限定Combiner的大小)
这样就可以避免内存不足的问题,同时可以先得到单独类目的前1000
最后再进行全类目多条件组合的分组比较排序即可

最后编辑于：2017.12.06 08:44:42

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,567评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,398评论 0赞 15

（转）八大排序算法
概述排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部...
蚁前阅读 5,308评论 0赞 52
八大排序算法 (转载)
概述：排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部...
每天刷两次牙阅读 3,833评论 0赞 15
An activity stopped by the weather
I can recall a few activities stopped by weather.Today I'...
lililily9阅读 274评论 0赞 0

友情链接更多精彩内容

赞1赞

手机看全文