防止数据偏移的方法

一般的聚合往往有这样运算

RRD1 运算 RDD2 正确结果
key 1 key (1, 7)
key 2 key (2, 7)
key 3 join key 7 = key (3, 7)
key 4 key (4, 7)
key 5 key (5, 7)

RDD1加随机 RDD2只加随机不扩容 则

1_key 1 0_key (2, 7) key (2, 7)
0_key 2 1_key (1, ()) key (3, ())
2_key 3 join 0_key 7 = 2_key (3, ()) 去掉前缀 key (1, ()) 错误结果
3_key 4 3_key (4, ()) key (4, ())
4_key 5 4_key (5, ()) key (5, ())

RDD1 加随机, RDD2加随机又扩容

1_key 1 0_key 7 0_key (2, 7) key (2, 7)
0_key 2 4_key 7 1_key (1, 7) key (1, 7)
2_key 3 join 1_key 7 = 2_key (3, 7) 去掉前缀 key (3. 7) 这才是正确结果
3_key 4 3_key 7 3_key (4, 7) key (4, 7)
4_key 5 2_key 7 4_key (5, 7) key (5, ())

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 自从2015年开始,思维导图成一种风靡全国的工具,产品运营技术都会用到,开会学习生活都有他的影子。其实在国外,东尼...
    violin_残阳如血阅读 4,229评论 0 8
  • 秋风乍起,偶感寒意。随着最后一只蚊子的死去,跟着第一片黄叶子的飘零;在风中,在夕阳洒下的那一片黄昏里。秋...
    隋憶阅读 2,688评论 0 1
  • 关于价值取向问题,似乎无法辩论,所谓人各有志。又随着社会多元化的发展,越来越多的社会价值观,人生价值观等等的出现,...
    衣诺双鱼阅读 1,326评论 0 1