参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第三章 描述统计学Ⅱ:数值方法
本章我们将介绍位置、离散程度、形态和相关程度的数值变量。
数据来自样本,计算的度量称为样本统计量(sample statistics),如果数据来自总体,计算的度量成为总体参数(population parameters)。
统计推断中,样本统计量被称为是相应总体参数的点估计量(point estimator)
3.1 位置的变量
3.1.1 平均数
平均数(mean):
样本平均值: 用n表示样本观测值的个数总体平均值: 用N表示总体观测值个数
一般用来表示变量x的第i个观测值,公式如下:
样本平均数:
总体平均数:
3.1.2 加权平均数
加权平均数(weighted mean):
3.1.3 中位数
中位数(median):所有数据按照升序排列,位于中间的数值即中位数。假设有n个数
n为奇数,就中间的即可
n为偶数,中间两个求平均值
3.1.4 几何平均数
几何平均数(geometric mean):是一种位置度量,是n个数值乘积的n次方根。用来表示
用途如投资10年计算年平均回报率
3.1.5 众数
众数(mode):出现次数最多的数据
有时候众数可能有多个,那么我们称数据集是双众数的或多众数的。一般多众数的数据也就没啥必要描述众数了。
3.1.6 百分位数
百分位数(percentile):提供了数据如何散步在从最小值和最大值的区间上的信息。
第p百分位数将数据分割为两部分,至少有p%的观测值小于或等于p百分位数,且至少有大约(100-p)%的观测值大于或等于p百分位数。
计算步骤
- 把数据升序排列
- 计算指数i
其中,p为所求的百分位数,n为观测值个数 - 看i是不是整数
- i不是整数,则向上取整取。大于i的第一个整数表示p百分位数的位置
- i是整数,则p百分位数就是i项和i+1项的平均值
3.1.7 四分位数
四分位数(quartiles)
计算方式跟用上面百分位数计算的方式来。
3.2 变异程度和度量
变异程度(亦即离散程度)
3.2.1 极差
极差(range)=最大值-最小值
3.2.2 四分位数间距
四分位数间距(interquartile range,IQR)作为边意程度的一种度量,能客服异常值的影响。
3.2.3 方差
方差(variance)是用所有数据对变异程度所作的一种度量。
每个观察值与平均值的差称为平均数的离差(deviationabout the mean),当然样本和总体要分开计算。
总体方差(population variance):
样本方差(sample variance):
样本方差除以n-1才是对总体方差的无偏估计,样本方差是总体方差的点估计,别问,问就无可奉告。
方差的单位是平方,如计算某学校班级人数的方差,抽了5个班级作为样本那么
这个单位是不是很魔幻,那就别试图理解,直接理解成比较多个变量变异程度的工具。方差大意味着变异程度大,没别的了。
3.2.4 标准差
标准差(standard deviation):为方差的正平方根。
样本标准差:
总体标准差:
这样做的好处是什么呢?——标准差和原始数据的单位度量相同,更容易比较。
3.2.5 标准差系数
标准差系数(coefficient of variation)=
如班级样本平均人数44人,样本标准差8;则标准差系数为
标准差系数一般用于比较不同标准差和不同平均数的变量的变异程度
3.3 分布形态、相对位置的度量以及异常值的检测
分布形态的一种重要数值度量被称为偏度(skewness)
3.3.1 分布形态
偏度
公式不用记,计算机以后算就行。
- 左偏的偏度为负数,左边低
_/\
- 通常平均数比中位数小(平均数收偏度影响较大)
- 右偏的偏度为正数,右边低
/\_
- 通常平均数比中位数大(平均数收偏度影响较大,如平均工资)
- 数据对称时,偏度为0
- 平均数=中位数
3.3.2 z-分数
我们想了解数据中数值的相对位置(一个数值距离平均值有多远)
z-分数(z-score):
z-分数往往称作标准化数值,可以理解为与平均数的距离是个标准差。
z-分数的正负表示是大于还是小于
一个变量的数值转换成z-分数的过程被称作z变换。
3.3.3 切比雪夫定理
切比雪夫定理(Chebyshev's theorem)能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理内容:与平均数的距离在个标准差之内的数据项所占比例至少为,其中是大于1的任意实数。
当 =2, 3和4个标准差时该定理的一些应用如下:
- 至少0.75或75%的数据值与平均数的距离在=2个标准差之内。
- 至少0.89或89%的数据值与平均数的距离在=3个标准差之内。
- 至少0.94或94%的数据值与平均数的距离在=4个标准差之内。
例如100个学生成绩平均值70分,标准差5分
60-80分的人至少有75%的人
58-82分上下分别是2.4个标准差,
那么=,则至少有82.6%的学生成绩在58-82之间。
3.3.4 经验法则
切比雪夫可适用于任何数据集,但实际多数是对称的峰形或钟形分布。当数据被认为近似这种分布时(正态分布),可用经验法则(empirical rule)来确定平均数的距离在某个特定个数的标准差内的数据值所占比例。
- 大约68%的数据值与平均数的距离在1个标准差之内。
- 大约95%的数据值与平均数的距离在2个标准差之内。
- 几乎所有的数据值与平均数的距离在3个标准差之内。
3.3.5 异常值的检测
数据集中包含一个或多个数值异常大或者异常小的观测值,称作异常值(outliers)。如果错误就删除或者修正,如果时正确的反常值应该保留。
判断异常值的方法:
- 标准化数值(z-分数)可以用来确认异常值,我们通过经验法则可以判断在正态分布中,z-分数的绝对值大于3的任何数值都视为异常值。然后进一步检查。
- 利用第一四分位数()、第三四分位数()和四分位数间距(IQR)计算上限和下限
上限 =
下限 =
若观测值超出上限或下限就归类为异常值。
3.4 五数概括法和箱形图
3.4.1 五数概括法
五数概括法(five-number summary):
- 最小值
- 第一四分位数()
- 中位数()
- 第三四分位数()
- 最大值
3.4.2 箱形图
箱形图(box plot)是基于五数概括法的数据图形汇总,关键是计算四分位数间距(IQR)。绘制步骤如下:
- 画箱体,边界为和,箱体包含50%的观测值。
- 箱体中位数的位置画一条垂线
- 利用四分位数间距IQR、和 计算上下界限(参考3.3.5中第二种异常值判断方法)
- 图中间的横线称作触须线(whisker)触须线从箱体边界一直画到边界内的最大和最小数据值。
- 异常值用*来表示
上图有上下限,只是为了让你们看明白,一般而言是不画的,如下图:
当然了,我们还可以竖着画箱形图,如下:
3.5 两变量间关系的度量
上面都是一个实践对一个变量数据汇总的数值方法,下面介绍两个变量之间关系的度量。
3.5.1 协方差
协方差(covariance),对于一个容量为n的样本,其观测值为
如之前提到的音像设备商店的广告次数与销售额之间的线性关系,总体协方差如下:
3.5.2 协方差的解释
我们看下图,我们画了垂直虚线和水平虚线,并且在四个象限中的变化特点如下。
- Ⅰ象限中值为正数
- Ⅱ象限中值为负数
- Ⅲ象限中值为正数
- Ⅳ象限中值为负数
若为正,则和存在正的线性关系
若为负,则和存在负的线性关系
若各点在四象限均匀分布,趋近于0,则和不存在线性关系。
3.5.3 相关系数
皮尔逊积矩相关系数(简称样本相关系数),样本数据:
为样本相关系数;为样本协方差;为的样本标准差;为的样本标准差皮尔逊积矩相关系数:总体数据
为总体相关系数;为总体协方差;为的总体标准差,为的总体标准差
样本相关系数给出了总体相关系数的一个估计。
3.5.4 样本相关系数的解释
当,则x和y存在正线性关系,且时为完全正线性关系
当,则x和y存在负线性关系,且时为完全负线性关系
当,则x和y不存在线性关系
3.6 数据仪表板:增加数值度量以提高有效性
无
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦