Kata12:泡面文章

Kata12地址

这个Kata说难那是非常难,说简单也非常简单。

要求

假设我们在一个超级大的电商工作(比如淘宝),现在需要实现一个功能,展示销量TOP10的商品,每个小时更新一次,如何去做?

如果这时候产品突然告诉你需求改变,你更喜欢下面的哪个变化?

  1. 更新时间改成每天一次
  2. 只计算24小时内的TOP10,但是要求实时更新

思考

这个Kata不需要写代码(其实也没法写代码),只谈谈思路。

说白了,这题就是如何处理大数据。

我觉得对于大公司来说,上面的两个选择其实都需要做,顾客既需要看到总排名,又需要看到今日最热,所以下面分开讨论。

总TOP10

每小时更新还是每天更新其实并不重要,或许我们会想到半夜人少,把更新放在半夜,但是要知道大公司面向的已经不是某一个地方的用户,而是全球用户,所以理论上并不存在人少的时间。换句话说,这种思路的前提是更新TOP10和给用户提供正常服务矛盾,所以要错开。

认识到根本问题后,我们要做的就是思考如何不让计算影响正常服务。

由于总数据量非常大,所以必然要用到集群,总节点有限,所以我认为关键是要做好负载均衡。计算TOP10本身已经有很多优秀的算法了,选择一个可以用分布式计算实现的算法就行,之后主要是通过负载来动态分配节点,用户多的时候分配给计算的节点少,速度慢些,用户少的时候分配给计算的节点多,速度快些。

24小时TOP10

24小时的关键是速度,我的思路是使用分布式内存存储,增量计算。

购买记录肯定是有log的,也就是说我们只有第一次计算的时候需要遍历24小时全部log,之后每次有新log进来都更新内存数据并抛弃过时数据,实现增量计算。这个数据量使用分布式的内存数据库应该足够解决。

这个思路同样可以用在总TOP10上,但是总的数据量非常大,放在内存中会严重影响正常使用,并且总排名对时间不是非常敏感,所以没必要使用内存。

泡面

现在你应该明白了,为什么我说这个问题既难又简单,真做起来这是世界性难题,但是嘴上说说就很简单了,所以这篇文章就像泡面一样,似乎很好吃,但是没营养。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容