常见概念

1. 集中趋势

  1. 众数(mode):一组数据中出现次数最多的变量值 M_0
  2. 中位数:一组数据排序后处于中心位置上的变量值;
  3. 分位数:对数据排序后进行数量上的拆分,Q_L表示下四分位数,Q_U表示上四分位数,常见的有:
    1. 四分位数
    2. 十分位数
    3. 百分位数
  4. 平均数:用符号\mu表示,样本均值用\overline{x}表示,用来测量定量数据的集中趋势;
    1. 简单平均数(mean),公式:\overline{x} = \frac{x_1+x_2+x_3\dots+x_n}{n}
    2. 加权平均数(weighted mean),分组数据均值,公式 \overline{x} = \frac{M_1*f_1+M_2*f_2+\dots+M_n*f_n}{n};
    3. 几何平均数(geometric mean),计算平均比率,公式 \overline{G}=\sqrt[n]{x_1*x_2\dots*x_n}

平均数、中位数和众数的比较:
三者皆代表数据的中心位置,作为数据的代表;
都可以作为集中趋势的度量,
但平均数容易受到极端值的影响


2. 离散趋势

  1. 异众比率:V_r 用来衡量众数对一组数据的代表程度;f_m为众数组的频数, \sum{f_i}总频数,异众比率越大说明数据分布越分散,异众比率越小,说明数据分布越集中;

V_r = 1 - \frac{f_m}{\sum{f_i}}

  1. 极差和平均差

    1. 极差 R = max-min
    2. 离差 x_i-\overline{x}
    3. 平均差(平均绝对离差) M_d = \frac{\sum|{x_i-\overline{x}|}}{n}
    4. 分组数据平均差 M_d = \frac{\sum|{M_i-\overline{x}}|f_i}{n}
  2. 方差和标准差

    1. 总体方差

    \sigma^2 = \frac{\sum({x_i-\overline{x}})^2}{n}

    1. 样本方差
      s^2 = \frac{\sum({x_i-\overline{x}})^2}{n-1}

    2. 标准差:方差的开平方 \sigma = \sqrt{\sigma^2}

    3. 分组数据总体方差
      \sigma^2 = \frac{\sum({M_i-\overline{x}})^2}{n}

    4. 分组数据样本方差
      s^2 = \frac{\sum({M_i-\overline{x}})^2}{n-1}

    5. 标准分数:z分数,特性,平均数为0,标准差为1;也就是可知道某个数值相对于平均值的离散程度,(如:距离平均数3个标准差),还可以用来比较两个不同度量的数据离散程度;

    z=\frac{x_i-\mu}{\sigma}

    1. 四分位差(内距或四分间距),用Q_d或者IQR表示:

    Q_d = Q_u-Q_L = Q_3-Q_1

    1. 变异系数,又叫离散系数,表示一组数据的离散程度,可以用来比较两组数组的离散程度,值越小,离散程度越小

c_v = \frac{\sigma}{|\mu|}

3. 数据分布的形状

  1. 偏态(skewness): 是对分布对称性的测度,测量偏态的统计量是偏态系数sk
    sk = \frac{n*\sum(x_i-\mu)^3}{(n-1)(n-2)*\sigma^3}

分组数据偏态系数
M_i分组均值
sk = \frac{\sum(M_i-\mu)^3f_i}{n\sigma^3}

|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称,无偏态

sk>0, 右偏态, sk <0 ,左偏态

  1. 峰态(kurtosis): 是对分布平峰或尖峰的测度,测量峰态的统计量是峰态系数 K

K = \frac{n(n+1)\sum(x_i-\mu)^4 - 3[\sum(x_i-\mu)^2]^2(n-1)}{(n-1)(n-2)(n-3)\sigma^4}

分组数据峰态系数
K = \frac{\sum(M_i-\mu)^4f_i}{n\sigma^4} - 3

标准正态分布的峰度系数设为0,
通过与标准正态分布相比较,
K>0为尖峰分布,K<0 为扁平分布

4. 数据分布特征总结

切比雪夫法则

  1. 可能有很少的测量值落在平均值的1个标准差范围内;
  2. 所有数据中,至少有3/4(或75%)的数据位于平均数的2个标准差范围内;
  3. 所有数据中,至少有8/9(或88.9%)的数据位于平均数的3个标准差范围内;
  4. 所有数据中,至少有24/25(或96%)的数据位于平均数的5个标准差范围内。通常,对于任意大于1的数k,至少有 1-\frac{1}{k^2}的测量值落在k个标准差范围内;

经验法则

适用条件:数据对称分布

  1. 大约68%的测量值位于均值的一个标准差范围内;
  2. 大约95%的测量值位于均值的2个标准差范围内;
  3. 几乎所有的测量值位于均值的3个标准差范围内;
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,635评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,543评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,083评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,640评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,640评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,262评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,833评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,736评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,280评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,369评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,503评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,870评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,340评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,460评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,909评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,512评论 2 359

推荐阅读更多精彩内容

  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,820评论 0 3
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,698评论 0 3
  • 作为前数学专业毕业生,学过的概率统计知识已经忘记得差不多了,对于统计学的概念能清楚记得的也只有方差,标准差和均值了...
    Endzzz阅读 19,051评论 2 140
  • 目录 [TOC] 常见基本概念 最小二乘:  适用于具有低方差,高偏差的数据 最近邻:  适用于具有高方差,低偏差...
    arcral阅读 315评论 0 0
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,901评论 0 3