理论篇
- 数据的集中趋势
- 众数
数据集合中出现次数最多的数为众数,可能不止一个数值。 - 中位数
对于数据集合,按照从小到大或从大到小排列,
如果集合数目为奇数个,排在中间的数字为中位数。
如果集合数目为偶数个,排在中间的两位数的算术平均值为中位数。 - 平均数
算术平均值:集合中所有数据相加处以集合中数值个数。
几何平均值:
有些几何内的数值不止有加减关系还有乘除关系,此时应该用到几何平均值。集合中数值为,且所有的值都大于0,公式为
例如生产线上各步骤是顺承关系,最终产品的合格率应用为几何平均值。 - 分位数
是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。 - 极差
极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
- 众数
- 数据的离中趋势
-
数值型数据:
方差: 方差利用平方克服了离差和等于0的问题,
-局限性 :方差的单位是数据单位的平方,夸大了数据集合的离散型。
标准差: 因为方差的局限性,取方差的算术平方根作为描述离散程度的指标。
极差:极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。全距的计算公式为:
平均差: 也叫平均偏差。对于任意数据集合,数据集合中每个数值与算术平均值之间的偏差的绝对值,处以数据个数。
顺序数据:四分位差
回顾知识点:中位数。
引入知识点:一个集合的数,按照从小到大排序,排在四分之一位置的即为第一四分位数,,排在四分之二位置的即为第二四分位数,也就是中位数,排在四分之三位置的即为第三四分位数。
引出知识点:四分位极差等于第一四分位数与第三四分位数的差值()分类数据:异众比率
是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
众数:是一组数据中出现次数最多数值。有时众数在一组数中有好几个。
计算公式:
其中,表示异众比率,表示众数次数,N表示总体单位总数(即总体次数)。相对离散程度:离散系数
也称为变异系数,数值为标准差相对于算术平均值的大小。
适用场景:两个集合算术平均值不等,标准差相等,无法对比集合中数值的离散程度。
总体变异系数公式:
样本变异系数:
为总体标准差,为总体平均值,
为样本标准差,为样本平均值。-
分布的形状:
参考《统计学》 作者:卢黎霞,董洪清主编- 偏态系数(Coefficient of Skewness):
根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
- 偏态系数(Coefficient of Skewness):
为平均值
为标准差
-
根据分组数据计算偏态系数的公式是:
为频次
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏态系数:
1. 偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。
2. 偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
3. 偏态系数等于0即分布对称。
- 峰态系数(Coefficient of Kurtosis):
它是指数据分布的平峰或尖峰程度,峰态通常与正态分布比较而言,
- 如果数据分布为标准正太分布,则峰态系数为0。
- 如果峰态系数大于0,则为尖峰分布。
- 如果峰态系数小于0,则为平峰分布。
峰态系数常用计算公式为: