常见概念

众数(mode):一组数据中出现次数最多的变量值 $M_0$ ；
中位数：一组数据排序后处于中心位置上的变量值；
分位数：对数据排序后进行数量上的拆分，表示下四分位数,表示上四分位数，常见的有:
1. 四分位数
2. 十分位数
3. 百分位数
平均数：用符号表示，样本均值用表示，用来测量定量数据的集中趋势；
1. 简单平均数(mean),公式： $\overline{x} = \frac{x_1+x_2+x_3\dots+x_n}{n}$
2. 加权平均数(weighted mean),分组数据均值，公式 $\overline{x} = \frac{M_1*f_1+M_2*f_2+\dots+M_n*f_n}{n}$ ;
3. 几何平均数(geometric mean),计算平均比率，公式 $\overline{G}=\sqrt[n]{x_1*x_2\dots*x_n}$

平均数、中位数和众数的比较：
三者皆代表数据的中心位置，作为数据的代表；
都可以作为集中趋势的度量，
但平均数容易受到极端值的影响

异众比率： $V_r$ 用来衡量众数对一组数据的代表程度； $f_m$ 为众数组的频数， $\sum{f_i}$ 总频数，异众比率越大说明数据分布越分散，异众比率越小，说明数据分布越集中；

$V_r = 1 - \frac{f_m}{\sum{f_i}}$

极差和平均差
1. 极差 R = max-min
2. 离差 $x_i-\overline{x}$
3. 平均差(平均绝对离差) $M_d = \frac{\sum|{x_i-\overline{x}|}}{n}$
4. 分组数据平均差 $M_d = \frac{\sum|{M_i-\overline{x}}|f_i}{n}$
方差和标准差
1. 总体方差
$\sigma^2 = \frac{\sum({x_i-\overline{x}})^2}{n}$
1. 样本方差
  $s^2 = \frac{\sum({x_i-\overline{x}})^2}{n-1}$
2. 标准差：方差的开平方 $\sigma = \sqrt{\sigma^2}$
3. 分组数据总体方差
  $\sigma^2 = \frac{\sum({M_i-\overline{x}})^2}{n}$
4. 分组数据样本方差
  $s^2 = \frac{\sum({M_i-\overline{x}})^2}{n-1}$
5. 标准分数：z分数，特性，平均数为0，标准差为1；也就是可知道某个数值相对于平均值的离散程度，（如：距离平均数3个标准差），还可以用来比较两个不同度量的数据离散程度；
$z=\frac{x_i-\mu}{\sigma}$
1. 四分位差（内距或四分间距），用 $Q_d$ 或者IQR表示：
$Q_d = Q_u-Q_L = Q_3-Q_1$
1. 变异系数，又叫离散系数，表示一组数据的离散程度，可以用来比较两组数组的离散程度，值越小，离散程度越小

$c_v = \frac{\sigma}{|\mu|}$

偏态（skewness）: 是对分布对称性的测度，测量偏态的统计量是偏态系数sk
$sk = \frac{n*\sum(x_i-\mu)^3}{(n-1)(n-2)*\sigma^3}$

分组数据偏态系数
$M_i$ 分组均值
$sk = \frac{\sum(M_i-\mu)^3f_i}{n\sigma^3}$

|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称，无偏态

sk>0, 右偏态， sk <0 ,左偏态

$K = \frac{n(n+1)\sum(x_i-\mu)^4 - 3[\sum(x_i-\mu)^2]^2(n-1)}{(n-1)(n-2)(n-3)\sigma^4}$

分组数据峰态系数
$K = \frac{\sum(M_i-\mu)^4f_i}{n\sigma^4} - 3$

标准正态分布的峰度系数设为0，
通过与标准正态分布相比较，
K>0为尖峰分布，K<0 为扁平分布

切比雪夫法则

可能有很少的测量值落在平均值的1个标准差范围内；
所有数据中，至少有3/4（或75%）的数据位于平均数的2个标准差范围内；
所有数据中，至少有8/9（或88.9%）的数据位于平均数的3个标准差范围内；
所有数据中，至少有24/25（或96%）的数据位于平均数的5个标准差范围内。通常，对于任意大于1的数k，至少有 $1-\frac{1}{k^2}$ 的测量值落在k个标准差范围内；

经验法则

适用条件：数据对称分布

image.png