集中趋势(central tendency):算数平均数、中位数、众数
如果需要使用平均数,聚合时排除离群值(outlier)是必须的
离散趋势(dispersion tendency):方差、标准差、极差
- 总体方差:
业务上很少用总体方差和离中趋势。主要原因可能是,central tendency直接反映业务指标的好坏;但离中趋势可能无法让业务同学直接参考。比如,交易金额方差很大,可能很多用户的交易金额很低,甚至为0。但是,应该把精力放在培养用户从0到1上,还是从1到10上呢?方差本身并不能回答这个问题。 - 极差:数据集合中最大值和最小值的差值
- 平均偏差:标准差的“乞丐版”,每个数与平均数偏差绝对值,求均值
- 变异系数(离散系数):如果两个数据集合的标准差和方差相等,这个时候哪个数据集合的离散程度更大呢?
变异系数=标准差/均值 - 四分位极差:可以理解为极差的细化版本,主要为了克服两侧极端值影响
- 异众比率:总体中非众数次数与总体全部次数之比
分布的形状
- 引子:一个正态分布是单峰分布,那单峰分布是正态分布吗?
- 峰度系数:描述单峰分布曲线的峰度高低和陡峭程度
峰度越大:可能分布肥尾的现象越明显,或者尾部的极端值过于极端(这里的一个推测是,如果一个单峰曲线的方差和正态分布相等,峰度较高说明有很多数集中在中间,此时,如需得到相同的方差,必然需要两侧的离群值贡献的方差足够大)
Jensen不等式:峰度的取值不小于1,不高于数据的个数
典型分布峰度:正态分布为3,均匀分布为1.8 - 偏度系数:描述数据集合的分布形态是否对称
其中,左偏分布,长尾在左
偏度:主要由离群值(outlier)导致的,离群值在正数中特别大的时候,分布是右偏的。
中位数、平均数、众数:不管左偏右偏分布,中位数永远在三者的中间