第三章 描述统计学Ⅱ:数值方法

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第三章 描述统计学Ⅱ:数值方法

本章我们将介绍位置、离散程度、形态和相关程度的数值变量。

数据来自样本,计算的度量称为样本统计量(sample statistics),如果数据来自总体,计算的度量成为总体参数(population parameters)
统计推断中,样本统计量被称为是相应总体参数的点估计量(point estimator)

3.1 位置的变量

3.1.1 平均数

平均数(mean)
样本平均值:\bar x 用n表示样本观测值的个数总体平均值:\mu 用N表示总体观测值个数
一般用x_i来表示变量x的第i个观测值,公式如下:
样本平均数:\bar x=\frac{\sum x_i}{n}
总体平均数:\mu = \frac{\sum x_i}{N}

3.1.2 加权平均数

加权平均数(weighted mean)\bar x =\frac{\sum x_iw_i}{\sum w_i}

3.1.3 中位数

中位数(median):所有数据按照升序排列,位于中间的数值即中位数。假设有n个数
n为奇数,就中间的即可
n为偶数,中间两个求平均值

3.1.4 几何平均数

几何平均数(geometric mean):是一种位置度量,是n个数值乘积的n次方根。用\bar x_g来表示
\bar x_g=\sqrt[n]{x_1x_2\cdots x_n}
用途如投资10年计算年平均回报率

3.1.5 众数

众数(mode):出现次数最多的数据
有时候众数可能有多个,那么我们称数据集是双众数的或多众数的。一般多众数的数据也就没啥必要描述众数了。

3.1.6 百分位数

百分位数(percentile):提供了数据如何散步在从最小值和最大值的区间上的信息。
第p百分位数将数据分割为两部分,至少有p%的观测值小于或等于p百分位数,且至少有大约(100-p)%的观测值大于或等于p百分位数。

计算步骤

  1. 把数据升序排列
  2. 计算指数i
    i=\left(\frac{p}{100}\right) n
    其中,p为所求的百分位数,n为观测值个数
  3. 看i是不是整数
    • i不是整数,则向上取整取。大于i的第一个整数表示p百分位数的位置
    • i是整数,则p百分位数就是i项和i+1项的平均值

3.1.7 四分位数

四分位数(quartiles)
Q_1=第一四分位数,第25百分位数
Q_2=第二四分位数,第50百分位数(中位数)
Q_3=第三百分位数,第75百分位数
计算方式跟用上面百分位数计算的方式来。

3.2 变异程度和度量

变异程度(亦即离散程度)

3.2.1 极差

极差(range)=最大值-最小值

3.2.2 四分位数间距

四分位数间距(interquartile range,IQR)作为边意程度的一种度量,能客服异常值的影响。
IQR=Q_3-Q_1

3.2.3 方差

方差(variance)是用所有数据对变异程度所作的一种度量。
每个观察值x_i与平均值的差称为平均数的离差(deviationabout the mean),当然样本和总体要分开计算。
总体方差(population variance)\sigma^2=\frac{\sum(x_i-\mu)^2}{N}
样本方差(sample variance)s^2=\frac{\sum(x_i-\bar x)^2}{n-1}
样本方差除以n-1才是对总体方差的无偏估计,样本方差s^2是总体方差\sigma^2的点估计,别问,问就无可奉告。

方差的单位是平方,如计算某学校班级人数的方差,抽了5个班级作为样本那么s^2=64(人)^2
这个单位是不是很魔幻,那就别试图理解,直接理解成比较多个变量变异程度的工具。方差大意味着变异程度大,没别的了。

3.2.4 标准差

标准差(standard deviation):为方差的正平方根。
样本标准差:s=\sqrt{s^2}
总体标准差:\sigma=\sqrt{\sigma^2}

这样做的好处是什么呢?——标准差和原始数据的单位度量相同,更容易比较。

3.2.5 标准差系数

标准差系数(coefficient of variation)=\left(\frac{标准差}{平均数}\times100 \right)\%
如班级样本平均人数44人,样本标准差8;则标准差系数为\left(\frac{8}{44}\times100 \right)\%=18.2\%

标准差系数一般用于比较不同标准差和不同平均数的变量的变异程度

3.3 分布形态、相对位置的度量以及异常值的检测

分布形态的一种重要数值度量被称为偏度(skewness)

3.3.1 分布形态

image

偏度=\frac{n}{(n-1)(n-2)}\sum\left(\frac{x_i-\bar x}{s}\right)^3
公式不用记,计算机以后算就行。

  • 左偏的偏度为负数,左边低_/\
    • 通常平均数比中位数小(平均数收偏度影响较大)
  • 右偏的偏度为正数,右边低/\_
    • 通常平均数比中位数大(平均数收偏度影响较大,如平均工资)
  • 数据对称时,偏度为0
    • 平均数=中位数

3.3.2 z-分数

我们想了解数据中数值的相对位置(一个数值距离平均值有多远)
z-分数(z-score)z_i=\frac{x_i-\bar x}{s}
z-分数往往称作标准化数值,可以理解为x_i与平均数\bar x的距离是z_i个标准差。
z-分数的正负表示x_i是大于\bar x还是小于\bar x

一个变量的数值转换成z-分数的过程被称作z变换。


image

3.3.3 切比雪夫定理

切比雪夫定理(Chebyshev's theorem)能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理内容:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-\frac{1}{z^2}),其中z是大于1的任意实数。

z=2, 3和4个标准差时该定理的一些应用如下:

  • 至少0.75或75%的数据值与平均数的距离在z=2个标准差之内。
  • 至少0.89或89%的数据值与平均数的距离在z=3个标准差之内。
  • 至少0.94或94%的数据值与平均数的距离在z=4个标准差之内。

例如100个学生成绩平均值70分,标准差5分
60-80分的人至少有75%的人
58-82分上下分别是2.4个标准差,
那么\left(1-\frac{1}{z^2}\right)=\left(1-\frac{1}{2.4^2}\right)=0.826,则至少有82.6%的学生成绩在58-82之间。

3.3.4 经验法则

切比雪夫可适用于任何数据集,但实际多数是对称的峰形或钟形分布。当数据被认为近似这种分布时(正态分布),可用经验法则(empirical rule)来确定平均数的距离在某个特定个数的标准差内的数据值所占比例。

  • 大约68%的数据值与平均数的距离在1个标准差之内。
  • 大约95%的数据值与平均数的距离在2个标准差之内。
  • 几乎所有的数据值与平均数的距离在3个标准差之内。

3.3.5 异常值的检测

数据集中包含一个或多个数值异常大或者异常小的观测值,称作异常值(outliers)。如果错误就删除或者修正,如果时正确的反常值应该保留。

判断异常值的方法:

  1. 标准化数值(z-分数)可以用来确认异常值,我们通过经验法则可以判断在正态分布中,z-分数的绝对值大于3的任何数值都视为异常值。然后进一步检查。
  2. 利用第一四分位数(Q_1)、第三四分位数(Q_3)和四分位数间距(IQR)计算上限和下限
    上限 = Q_3+1.5 \times IQR
    下限 = Q_1-1.5 \times IQR
    若观测值超出上限或下限就归类为异常值。

3.4 五数概括法和箱形图

3.4.1 五数概括法

五数概括法(five-number summary)

  • 最小值
  • 第一四分位数(Q_1)
  • 中位数(Q_2)
  • 第三四分位数(Q_3)
  • 最大值

3.4.2 箱形图

箱形图(box plot)是基于五数概括法的数据图形汇总,关键是计算四分位数间距(IQR)。绘制步骤如下:

  1. 画箱体,边界为Q_1Q_3,箱体包含50%的观测值。
  2. 箱体中位数的位置画一条垂线
  3. 利用四分位数间距IQR、Q_1Q_3 计算上下界限(参考3.3.5中第二种异常值判断方法)
  4. 图中间的横线称作触须线(whisker)触须线从箱体边界一直画到边界内的最大和最小数据值。
  5. 异常值用*来表示
image

上图有上下限,只是为了让你们看明白,一般而言是不画的,如下图:


image

当然了,我们还可以竖着画箱形图,如下:


image

3.5 两变量间关系的度量

上面都是一个实践对一个变量数据汇总的数值方法,下面介绍两个变量之间关系的度量。

3.5.1 协方差

协方差(covariance),对于一个容量为n的样本,其观测值为(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)

s_{xy}=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{n-1}

如之前提到的音像设备商店的广告次数x与销售额y之间的线性关系,总体协方差如下:
\sigma_{xy}=\frac{\sum(x_i-\mu_x)(y_i-\mu_y)}{N}

3.5.2 协方差的解释

我们看下图,我们画了垂直虚线\bar x=3和水平虚线\bar y=51,并且在四个象限中的变化特点如下。

image

  • Ⅰ象限中(x_i-\bar x)(y_i-\bar y)值为正数
  • Ⅱ象限中(x_i-\bar x)(y_i-\bar y)值为负数
  • Ⅲ象限中(x_i-\bar x)(y_i-\bar y)值为正数
  • Ⅳ象限中(x_i-\bar x)(y_i-\bar y)值为负数

s_{xy}为正,则xy存在正的线性关系
s_{xy}为负,则xy存在负的线性关系
若各点在四象限均匀分布,s_{xy}趋近于0,则xy不存在线性关系。

image

3.5.3 相关系数

  1. 皮尔逊积矩相关系数(简称样本相关系数),样本数据:
    r_{xy}=\frac{s_{xy}}{s_xs_y}
    r_{xy}为样本相关系数;s_{xy}为样本协方差;s_xx的样本标准差;s_yy的样本标准差

  2. 皮尔逊积矩相关系数:总体数据
    \rho_{xy}=\frac{\sigma_{xy}}{\sigma_x \sigma_y}
    \rho_{xy}为总体相关系数;\sigma_{xy}为总体协方差;\sigma_xx的总体标准差,\sigma_yy的总体标准差

样本相关系数r_{xy}给出了总体相关系数\rho_{xy}的一个估计。

3.5.4 样本相关系数的解释

r_{xy}>0,则x和y存在正线性关系,且r_{xy}=1时为完全正线性关系
r_{xy}<0,则x和y存在负线性关系,且r_{xy}=-1时为完全负线性关系
r_{xy}=0,则x和y不存在线性关系

3.6 数据仪表板:增加数值度量以提高有效性


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容