4.千万日活的系统如何统计UV?

HyperLogLog

假设有个千万日活的统计系统,需要统计系统每天的UV。如果是你的话你该怎么设计?

如果统计 PV 那非常好办,使用string的incr就搞定了。

但是 UV 不一样,它要去重,同一个用户一天之内的多次访问请求只能计数一次。这就要求每一个网页请求都需要带上用户的 ID,无论是登陆用户还是未登陆用户都需要一个唯一 ID 来标识。

我们第一反应就是为每一个页面搞一个独立的 set 集合来存储所有当天访问过此页面的用户 ID。当一个请求过来时,我们使用 sadd 将用户 ID 塞进去就可以了。通过 scard 可以取出这个集合的大小,这个数字就是这个页面的 UV 数据。没错,这是一个非常简单的方案。

存在问题:

①占用内存,set集合里有1000万条数据,如果一个用户ID占32个字节,一天就320M,这是非常恐怖的

②性能差,当数据量大时,sadd性能会下降

其实对于千万日活系统,老板需要的数据不需要太精确,1001万和1002万对于老板决策没有太大影响。

Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。HyperLogLog 提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是 0.81%,这样的精确度已经可以满足上面的 UV 统计需求了。

常用命令

127.0.0.1:6379> pfadd uv user1 ## 将元素参数添加到 HyperLogLog 数据结构中
(integer) 1
127.0.0.1:6379> pfadd uv user2
(integer) 1
127.0.0.1:6379> pfadd uv user1
(integer) 0
127.0.0.1:6379> pfcount uv
(integer) 2
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Redis基础入门篇可参考 Redis基础入门篇[https://www.jianshu.com/p/58ece9...
    AC编程阅读 717评论 0 2
  • 如果你负责开发维护一个大型的网站,有一天老板找产品经理要网站每个网页每天的 UV 数据,然后让你来开发这个统计模块...
    天的安排阅读 242评论 0 0
  • 如果你负责开发维护一个大型的网站,有一天老板找产品经理要网站每个网页每天的 UV 数据,然后让你来开发这个统计模块...
    要不再等等阅读 323评论 0 1
  • redis面试[https://baijiahao.baidu.com/s?id=1594341157941741...
    缘尤会阅读 242评论 0 0
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,098评论 0 4