1. 从算术平均数说起
- 作为最常用的对总体平均水平的估计,为啥它就是最好的
2. 极大似然估计
- 任务是通过测量值X1,X2,...,Xn来估计μ,n个数据对应n个误差(测量值和真实值之差),假设我们挑了一个数
作为对真值μ的估计,我们就能据此算出误差的估计:
- 如果随机误差e1,e2,...,en服从某种已知的规律,那么出现这些误差的估计的概率就可以被计算出来:
- 这是一个关于
的函数,存在一个
使其取值最大,我们把这个
视作μ的最佳估计(极大似然意义)。 - 接下来就要找出随机误差的性质,也就是其概率密度函数,从而写出似然函数。
-
首先,任意两个不同的测量值的随机误差之间是独立的,所以可以把似然函数拆开,变成每个随机误差出现概率的乘积:
其次,既然是随机误差,那么它在零点两侧的可能性是相同的。更进一步说,对于绝对值相同的误差,取值为正和取值为负的可能性应该是一样的。
最后,绝对值小的随机误差出现的可能性比绝对值大的可能性大。
-
最后的最后,高斯反向解决了这个问题:假设算术平均数就是对真值的极大似然估计,那么什么样的误差分布能让算数平均数成为极大似然估计呢?他推出了:
-
也就是我们熟悉的正态分布。
3. 正态分布
3.1. 渊源
- 拉普拉斯读到了高斯的论文,发现高斯推出的概率密度函数很面熟,和他的中心极限定理(棣莫弗-拉普拉斯中心极限定理)里推出的足够多个二项分布相加得到的分布的概率密度函数非常像。
- 拉普拉斯认为这不是一个巧合,进而想到,虽然我们并不一定知道随机误差究竟是什么引起的,但是如果误差也可以看成许多微小量(拉普拉斯称之为“元误差”)叠加起来的总和,那么根据中心极限定理,随机误差也就该服从正态分布了。
3.2. 中心极限定理的演进
- 2.0版:如果我们有n个独立、同分布的随机变量,而且它们的均值和方差都是有限的,那么当n趋于无穷大时,这n个随机变量之和的一个简单变换(类似于之前棣莫弗-拉普拉斯中心极限定理中的变换)服从正态分布。
- 3.x版:很多时候,即使随机变量并不独立,或者并非来自同样的概率分布,它们的和(或者均值——由于n是个确定的数,因此求和与求均值是等价的)在n足够大时仍然服从正态分布。
3.3. 为什么重要
- 首先,中心极限定理是概率论和统计学最重要的定理(没有之一);
- 其次,我们接下来要讲到的许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求。