数据倾斜产生的原因:1.并行度1 2.key值一样,分到一个区
场景:拿计算直播间的同时在线观看用户数来说,大 v 直播间的人数会比小直播间的任务多几个量级,因此如果计算一个直播间的数据需要注意这种业务数据倾斜的特点
解决方案1:计算这种数据时,我们可以先按照直播间 id 将数据进行打散(mod(uid, 1000) -- 将大 v 分桶打散)。内层打散,外层合并
解决方案2 :解决方案:设置合理的【最大并发度】【并发度】,【最大并发度】最好为【并发度】的倍数关系,比如【最大并发度】1024,【并发度】512