什么是统计推断
对于要做统计推断的人来讲,这个问题似乎显得多余,他们往往关心怎样做统计推断。这也许可以窥得发展中国家在经济增长中的一个弊端:知其然,不知其所以然。因为别人已经做出来了嘛,我管那么多干嘛,先做出来再讲!然而,核心科技我们还是要掌握的。
我们经常讲概率统计,概率统计,这并不是一个词而是一个有着继承关系的短语。可以说一个是理论基础一个是应用科学,当然这里我们主要关注的是这个应用科学:统计学。
概率论是推理性的,由概率分布推断样本性质,如大数定律、中心极限定理。统计是归纳性的,由样本信息反推概率分布,如概率分布参数的点估计、区间估计,以及线性回归。一张图很好地区别了概率与统计:
在数据分析中使用了两种主要的统计方法:描述性统计,使用诸如均值或标准偏差等指标对样本中的数据进行汇总,以及推论统计,从随机变化的数据中得出结论(例如,观察误差,抽样变异)。其中描述性统计一般用来做探索性数据分析,所谓的推论统计,就是今天我们主要讲的统计推断,其意思就是用统计学的方法来推断。统计推断(区别于贝叶斯推断,这里主要基于频率推断)主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。其中假设检验又可分为参数检验与非参数检验。
至于怎么推断的:
在讲述统计的时候离不开概率,而在讲述这两者的时候,就离不开几个基本的概念:
- 总体(population):包含所研究的全部个体(数据)的集合。
- 样本(sample):从总体中抽取的一部分元素的集合。
- 参数(parameter):用来描述总体特征的概括性数字度量。
- 统计量(statistic):用来描述样本的概括性数字度量。
- 置信区间(Confidence interval)以统计量的置信上限和置信下限为上下界构成的区间
在做统计的时候,我们手里有的就是样本信息,在这里要注意样本的两重性: 样本既可看成具体的数, 又可以看成随机变量 (或随机向量). 在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量. 因为在实施具体抽样之前无法预料抽样的结果, 只能预料它可能取值的范围, 故可把它看成一个随机变量,因此才有概率分布可言。
对理论工作者, 更重视样本是随机变量这一点,而对应用工作者虽则将样本看成具体的数字, 但仍不可忽视样本是随机变量 (或随机向量) 这一背景。否则,样本就是一堆杂乱无章毫无规律可言的数字,无法进行任何统计处理。 样本既然是随机变量 (或随机向量),就有分布而言,就可以应用概率论的知识, 这样才存在统计推断问题。
统计学的目的是试图找到可能产生我们所观测到的数据背后的概率分布,而统计推断是建立在这个分布之上的。寻找一个模型一般有两步:对一个模型(分布)的初步猜想以及对未知模型参数的估计。可见统计学的三大要素:模型、策略、算法。
为什么要做统计推断
为了那些未被观察到的样本总体,为了抉择。
怎样做统计推断
获得有效数据后, 统计推断问题可以按照如下的步骤进行:
- 确定用于统计推断的合适统计量;
- 寻求统计量的精确分布; 在统计量的精确分布难以求出的情形,
可考虑利用中心极限定理或其它极限定理找出统计量的极限分
布. - 基于该统计量的精确分布或极限分布, 求出统计推断问题的精
确解或近似解. - 根据统计推断结果对问题作出解释.
假设检验的一般步骤:
- 将实际问题提炼为统计问题
- 建立假设
- 确定显著性水平α
- 验证前提条件
- 确定检验统计量
- 确定拒绝域
- 根据样本计算检验统计量的值并进行判断
求最大似然函数估计值的一般步骤
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数,令导数为0,得到似然方程;
(4)解似然方程,得到的参数即为所求
参考:
统计推断概述
概率论与统计学的关系是什么?
“鲁棒性”的出现与译者的偷懒
第五章: 数理统计的基本概念与抽样分布
「统计学」「统计推断」「统计学习」有什么区别?
统计学的现实意义是什么?
统计学(三):简单统计推断
假设检验之三:假设检验的基本步骤
用简单方法学会----参数估计