小白入门数据挖掘,从零开始,每周一更
01 数据集中趋势度量
-
众数
是一组数据中出现次数最多的数值,有可能没有也有可能有多个
用众数代表一组数据,可靠性较差;不过众数不受极端数据的影响,并且求法简便
-
中位数
是按顺序排列的一组数据中居于中间位置的数
如果是这组数据是奇数个数,则为中间那个数,如果是偶数个数,则为中间那两个数的平均数
中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性
-
平均数
- 是数据中各观测值相对集中较多的中心位置
-
算数平均数
它是一组数据之和,除以这组数据个数or项数
优点,就是它较中位数、众数更少受到随机因素影响
缺点,是它更容易受到极端值影响
-
几何平均数
通过使用它们的值的乘积来指示一组数字的集中趋势或典型值
多用于流程转化中的平均,比如多步骤的转化率求平均值
-
加权平均数
数据中的每个点对于平均数的贡献并不是相等的,有些点要比其他的点更加重要
-
加权平均数十分常见,此处不多介绍,额外提出一个有意思的理论-辛普森悖论
-
分位数
是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间
箱线图的数据基础就是分位数,通常超过1和3分位的差值成为四分位距(IQR),而超出Q1和Q3的1.5+IQR部分,称为异常点。
02 数据离散趋势度量
-
数值型数据
-
方差,度量随机变量和其数学期望(即均值)之间的偏离程度
如果所有变量+常数,方差不变Var(X + a) = Var(X)
如果所有变量*常数,方差变大Var(aX) = a^2Var(X)
标准差,方差的开方,可与平均值同单位比较
平均差,各个变量值同平均数的离差绝对值的算术平均数
-
-
顺序数据
- 上述的分位数,通常用(Q1-1.5IQR,Q3+1.5IQR)范围衡量数据健康范围
-
分类数据
异众比率,是总体中非众数次数与总体全部次数之比。
换句话说,异众比率指非众数组的频数占总频数的比例
03 相对离散度量
-
离散系数
- 定义为标准差与平均值之比
在两组样本均值不同时,比较离散系数好于标准差
平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足
04 分布的形状
-
偏态系数
-
偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度
偏态系数小于 0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。
偏态系数大于 0,因为均值在众数之右,是一种右偏的分布,又称为正偏
描述:偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画
偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大
-
-
峰态系数
是对数据分布平峰或尖峰程度的测度
峰态系数就是概率分布函数中,与众数概率的高低有直接关系,众数概率越高,峰态系数越大
正态分布的峰态系数是 3,常常计算出来的峰态系数会跟 3 作比较,如果小于 3 则具有不足的峰度,如果大于 3 则具有过度的峰度。反正理解为大于 3 比正态分布的更尖
在相同的标准差下,峰度系数越大,分布就有更多的极端值
Day Day Up~