常见概念

1. 集中趋势

  1. 众数(mode):一组数据中出现次数最多的变量值 M_0
  2. 中位数:一组数据排序后处于中心位置上的变量值;
  3. 分位数:对数据排序后进行数量上的拆分,Q_L表示下四分位数,Q_U表示上四分位数,常见的有:
    1. 四分位数
    2. 十分位数
    3. 百分位数
  4. 平均数:用符号\mu表示,样本均值用\overline{x}表示,用来测量定量数据的集中趋势;
    1. 简单平均数(mean),公式:\overline{x} = \frac{x_1+x_2+x_3\dots+x_n}{n}
    2. 加权平均数(weighted mean),分组数据均值,公式 \overline{x} = \frac{M_1*f_1+M_2*f_2+\dots+M_n*f_n}{n};
    3. 几何平均数(geometric mean),计算平均比率,公式 \overline{G}=\sqrt[n]{x_1*x_2\dots*x_n}

平均数、中位数和众数的比较:
三者皆代表数据的中心位置,作为数据的代表;
都可以作为集中趋势的度量,
但平均数容易受到极端值的影响


2. 离散趋势

  1. 异众比率:V_r 用来衡量众数对一组数据的代表程度;f_m为众数组的频数, \sum{f_i}总频数,异众比率越大说明数据分布越分散,异众比率越小,说明数据分布越集中;

V_r = 1 - \frac{f_m}{\sum{f_i}}

  1. 极差和平均差

    1. 极差 R = max-min
    2. 离差 x_i-\overline{x}
    3. 平均差(平均绝对离差) M_d = \frac{\sum|{x_i-\overline{x}|}}{n}
    4. 分组数据平均差 M_d = \frac{\sum|{M_i-\overline{x}}|f_i}{n}
  2. 方差和标准差

    1. 总体方差

    \sigma^2 = \frac{\sum({x_i-\overline{x}})^2}{n}

    1. 样本方差
      s^2 = \frac{\sum({x_i-\overline{x}})^2}{n-1}

    2. 标准差:方差的开平方 \sigma = \sqrt{\sigma^2}

    3. 分组数据总体方差
      \sigma^2 = \frac{\sum({M_i-\overline{x}})^2}{n}

    4. 分组数据样本方差
      s^2 = \frac{\sum({M_i-\overline{x}})^2}{n-1}

    5. 标准分数:z分数,特性,平均数为0,标准差为1;也就是可知道某个数值相对于平均值的离散程度,(如:距离平均数3个标准差),还可以用来比较两个不同度量的数据离散程度;

    z=\frac{x_i-\mu}{\sigma}

    1. 四分位差(内距或四分间距),用Q_d或者IQR表示:

    Q_d = Q_u-Q_L = Q_3-Q_1

    1. 变异系数,又叫离散系数,表示一组数据的离散程度,可以用来比较两组数组的离散程度,值越小,离散程度越小

c_v = \frac{\sigma}{|\mu|}

3. 数据分布的形状

  1. 偏态(skewness): 是对分布对称性的测度,测量偏态的统计量是偏态系数sk
    sk = \frac{n*\sum(x_i-\mu)^3}{(n-1)(n-2)*\sigma^3}

分组数据偏态系数
M_i分组均值
sk = \frac{\sum(M_i-\mu)^3f_i}{n\sigma^3}

|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称,无偏态

sk>0, 右偏态, sk <0 ,左偏态

  1. 峰态(kurtosis): 是对分布平峰或尖峰的测度,测量峰态的统计量是峰态系数 K

K = \frac{n(n+1)\sum(x_i-\mu)^4 - 3[\sum(x_i-\mu)^2]^2(n-1)}{(n-1)(n-2)(n-3)\sigma^4}

分组数据峰态系数
K = \frac{\sum(M_i-\mu)^4f_i}{n\sigma^4} - 3

标准正态分布的峰度系数设为0,
通过与标准正态分布相比较,
K>0为尖峰分布,K<0 为扁平分布

4. 数据分布特征总结

切比雪夫法则

  1. 可能有很少的测量值落在平均值的1个标准差范围内;
  2. 所有数据中,至少有3/4(或75%)的数据位于平均数的2个标准差范围内;
  3. 所有数据中,至少有8/9(或88.9%)的数据位于平均数的3个标准差范围内;
  4. 所有数据中,至少有24/25(或96%)的数据位于平均数的5个标准差范围内。通常,对于任意大于1的数k,至少有 1-\frac{1}{k^2}的测量值落在k个标准差范围内;

经验法则

适用条件:数据对称分布

  1. 大约68%的测量值位于均值的一个标准差范围内;
  2. 大约95%的测量值位于均值的2个标准差范围内;
  3. 几乎所有的测量值位于均值的3个标准差范围内;
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,974评论 0 3
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,941评论 0 3
  • 作为前数学专业毕业生,学过的概率统计知识已经忘记得差不多了,对于统计学的概念能清楚记得的也只有方差,标准差和均值了...
    Endzzz阅读 19,297评论 2 140
  • 目录 [TOC] 常见基本概念 最小二乘:  适用于具有低方差,高偏差的数据 最近邻:  适用于具有高方差,低偏差...
    arcral阅读 346评论 0 0
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,995评论 0 3