案例:一封来自产品经理的邮件。
问题1、缺乏清晰度
产品经理究竟要定义或者描述什么?
1、某项功能的使用次数分布,在设定的哪个区间内最多?
2、使用的某项功能的人在5-7月份之间的对比,以此来判断季节的影响?
3、最小值跟最大值的占比?
问题2、变动的百分数
如果5月与6月,落在区间为0的高级会员数均是10,代表的意义一样吗?
不一样!因为总体会员数会有波动,分母是动态变化的。
假设:
5月,高级会员100人,落在区间0的数量为10,占比 10%。
6月,高级会员变为120人,落在区间0的数量为10,占比约 8.3%。
但是是否能得出6月趋势在变好呢?不见得,这里需要引入标准差的概念,下一篇详解。
不仅仅是会员数量,会员组成的属性有变化吗?
问题3、可预料的不均衡
产品经理想统计的是频数分布。
简单说,最近3个月,多少人没有使用功能,使用了功能的人中,使用的次数呈现怎样的分布。
产品经理较为主观的按照0,1~5,6~10这样的区间去统计。但是凭借经验,我们也应该知道,结果一定是不均衡的。
如果:
① 大部分人落在0那个区间,意味着统计意义不大;
② 超过30+的也有若干,但是你不知道最高到多少,很容易错失异常值;
再如果,我们虚拟一组数据,会员数量都是100,但是结果可以完全被带偏。
表格1的结论:[1,10] 占了6成多的用户可以代表大多数情况。
表格2的结论:使用了5次与6次的用户代表了6成多的情况,6次以上比例也不低,但明细不详。
上述结果有意义吗?统计结果可以反映问题的实质吗?其实不可以。
规律一:正态分布
正态的英文单词是Normal,“常见的,典型的”,表示这种分布能恰当代表多种多样的数据类型。正态分布像一只倒扣的钟。两头低,中间高,左右对称。大部分数据集中在平均值,小部分在两端。
比如考试成绩,员工绩效、群体的身高、智商,都是遵循这个规律。
规律二:幂率分布
幂率分布最显著的特征就是等级越高则越不均衡,第n个位置的rank是第1个位置的rank的1/n,第1位与第2位之间的差距要大于第2位与第3位之间的差距,以此类推。以维基百科的文章编辑为例,你可以料到排名第二的最活跃用户的编辑量只及第一名编辑量的一半,而排名第10的只做了后者的1/10,所谓的“80/20法则”。
20%的人掌握了社会80%的财富、电商平台销售的大部分商品都不是爆款,但长尾商品聚合起来却有惊人收入、常用单词5000个,常用口语800句已经可以应付大多数场景下的沟通,都是说明了这个道理。
越是大型的“系统”或“社会”,就越不是“平均”用户的聚合。
在我们这个案例中,也恰恰应该知道,最后的结果会呈现幂率分布,大部分资源会集中在部分客户身上。