在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里,数据分析师「触手可及」的便是数据开发工程师处理过后的数据,在上述环节中,分析师尤其需要重点关注数据集的描述性统计特征,了解不同类型的数据的集中、离散和分布程度,以便在业务提数时,补充合理的筛选条件,避免计算出来的指标有误导性。
数据描述的三个维度
所有的结构化数据都可以从三个维度进行描述,这三个维度就是:
- 数据的集中趋势描述:算数平均值,加权平均值,调和平均值,几何平均值,众数,中位数
- 数据的离散程度描述:全距,平均差,总体方差和标准差,样本方差和标准差,离散洗漱,四分位极差和四分位差
- 数据的分布形态描述:峰度与偏度,概率及概率分布,二项概率分布,多项概率分布,泊松概率分布,指数概率分布,正态概率分布
数据的集中趋势描述
寻找反映数据集某一特征的代表值或中心值,表明所研究的对象在一定的条件下的共同性质和一般水平。
1)平均值
算术平均值
概念:将数据集合的所有数据值相加的和除以数据值的个数就能得到简单算术平均值。
应用:当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,计算结果会掩盖数据集合的真实特征。
加权算术平均值
概念:将各数值乘以相应的权重值,然后加总求和得到总体值,再除以总的数据值个数。
应用:计算前需要设定好各数据值的权重,可是由「专家」根据具体业务设置,也可以根据各数据值的分布占比进行设定。
- 几何平均值
概念:有些数据之间的关系不是相加减关系,而是乘除关系,此时该用几何平均值来表示由这样的数值组成数据集合的集中趋势。
应用案例:银行的平均存款利率、汽车工厂每条生产线的平均产品合格率,由于生产工艺是连续型生产,只有上一道工序的合格品才能进入下一道工序中,所以每道工序的合格率之间是乘积关系。假设每道工序的产品合格率分别是 85%、97%、94% 和 92%,求这条生产线的平均产品合格率。
2)中位数
概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,如果数据集合包含的数值个数是奇数,那么排在最中间的数值就是该数据集合的中位数,如果数据集合的数值为偶数,那么取最中间两个数值的算术平均值作为中位数。
应用:中位数能够避免数据的平均水平受到异常值的影响,因此在做数据分析时,不仅要计算算数平均数,也计算中位数,若两个数字差距很大,就用中位数作为平均数。
3)众数
概念:数据集合中出现次数最多的数值。
应用:众数真正的价值在于类别型数据,用于统计各类别的数量。
数据的离散程度描述
1)极差
概念:数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。
应用:极差虽能表示数据集合的波动大小,但没有提供两个极值以外的数值的信息,且对极值非常敏感,不太可靠,需要结合其他离散程度描述指标来描述数据集合的离散程度。
2)平均偏差
概念:数据集合的所有数值与平均值的偏差(取绝对值)之和,除以数值个数。
3)方差和标准差
概念:描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。
应用:方差/标准差值越大,代表大部分数值和其平均值之间的差异较大,数据离散程度也就越大。在处理风险评估模型时,一个数据的波动性,说明它涵盖的信息量越大,信息量越大,不可知的因素越多,因此风险会更大。
4)样本方差和标准差
概念:从数据总体中随机抽取一定数量的样本数值,然后用样本数值的方差和标准差来估计总体的方差和标准差。
总体方差公式的分母就是数据集合的总数量 N,而样本方差公式的分母却是 n-1,即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。
5)变异系数
概念:数据集合的标准差与算术平均值的比值。
应用:无单位指标,不仅可以说明同类事物的相对离散程度,也可以说明不同类型事物的相对离散程度。
6)四分位极差
概念:对于数据集合,将所有的数值按照它们的大小,从高到低进行排序,排在四分之一位置的数值即为第一四分位数 Q1,以此类推,分别有有第二、三、四四分位数,Q2,Q3,Q4。四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合 50% 的数据值。
数据的分布形态描述
概率
概念:度量随机事件中某一个结果发生的可能性大小的数值。
1)古典概率法:事件结果数目已知,且每种结果对应的发生概率相等。
2)统计概率法:需要统计过往事件发生的结果频数来确定。
3)主观概率法:分析者对预测事件发生的概率做出主观估计。
概率分布
概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象的解释。
- 离散型概率分布的概率函数被称为概率质量函数,对应的 Y 轴表示某事件结果出现的概率。
- 连续型概率分布对应的 Y 轴表示某结果的概率密度,X 轴任意一点,它对应的概率为 0,需要从 X 轴取某一段区间的积分面积得到事件的发生概率。
离散型概率分布
1)二项/多项分布
二项分布的试验结果只有两个(成功和失败,0 和 1),而多项分布的试验结果则多于两个,多项分布试验的特点如下:
- 每次试验有两种或多种可能的结果,但是每种结果只会出现一个;
- 每次结果都有各自发生的概率,所有结果的发生概率之和为 1;
- 每次试验相互独立,每次试验结果都不受其他各次试验结果的影响(放回抽样)。
假设某个多项分布试验有 k 个结果,每种结果发生的概率分别为 p1,p2…,pk(概率之和为 1)现在进行 n 次多项分布试验,假设观测结果为 a1 的次数为 x1 次,结果为 a2 的次数为 x2 次,…,结果为 ak 的次数为 xk(n=x1+x2+…+xk),多么多项分布的联合概率函数为:
而二项分布中,只有 和 (记为 q)两种概率,因此二项分布的概率函数为:
上述公式里,P(X=x) 表示特定事件的概率,在实际工作中,常结合数学期望一起使用。
数学期望
数学期望是对随机变量中心位置的一种度量,是试验中每次可能结果的乘以其结果的总和。
假设一等奖成本 1000 元,二等奖成本 500 元,三等奖成本 100 元,欢迎下次再来当然没钱,而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望
下面从公司角度分析活动的盈亏成本:
一等奖 | 二等奖 | 三等奖 | 欢迎下次再来 | |
---|---|---|---|---|
A 方案盈亏结果 | 10-1000 | 10-500 | 10-100 | 10 |
P(X=x) | 5% | 10% | 20% | 65% |
B 方案盈亏结果 | 10-1000 | 10-500 | 10-100 | 10 |
P(X=x) | 10% | 10% | 10% | 70% |
A 方案的数学期望:
B 方案的数学期望:
A 方案能否期望没抽奖运营方亏损 110 元,B 方案则是亏损 150 元。
而从用户的角度分析活动的收益成本:
一等奖 | 二等奖 | 三等奖 | 欢迎下次再来 | |
---|---|---|---|---|
A 方案收益结果 | 1000-10 | 500-10 | 100-10 | -10 |
P(X=x) | 5% | 10% | 20% | 65% |
B 方案收益结果 | 1000-10 | 500-10 | 100-10 | -10 |
P(X=x) | 10% | 10% | 10% | 70% |
A 方案的数学期望:
B 方案的数学期望:
2)超几何分布
在二项/多项分布试验中,每次试验结果的发生概率是不变的,而超几何分布试验结果的概率会随着每一次试验的发生而改变(无放回抽样)。
- 若样本容量 n = 1,即从有限总体中只抽取一个个案,且恰好抽到符合要求个案的概率,那超几何分布可以还原成二项分布
- 如果数据总体的容量 N 无穷大,或是样本容量的 10 倍以上,即 N>=10n,也可以将二项分布近似描述超几何分布
假设有限数据总体包含 N 个数值,其中符合要求的个案数量为 m 个,如果从该数据总体中抽取 n 个个案,其中有 k 个是符合要求个案的概率计算公式为:
3)泊松分布
基于过去某个随机事件在单位时间内的平均发生次数,预测该随机事件在未来同样单位时间内发生不同次数的的概率。
连续型概率分布
1)指数分布
根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率。
2)均匀分布
是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,但所有的变量对应的概率都相等。
3)正态分布
正态分布的数据特点:
- 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
- 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
- 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 68% 的数值位于平均值一个标准差的范围之内,95% 的数值在平均值两个标准差的范围内。
- 正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数 μ 决定正态曲线的中心位置;标准差 σ 决定正态曲线的陡峭或扁平程度。σ 越小,曲线越陡峭;σ越大,曲线越扁平。
偏态分布的数据有什么特点?
-
正偏态(右偏)分布:曲线右侧偏长,左侧偏短,M>Me>Mo,即平均数大于中数中数又大于众数,则数据的分布是属于正偏态分布。
-
负偏态(左偏)分布:曲线左侧偏长,右侧偏短,M<Me<Mo,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。