高斯分布参数的极大似然估计

正态分布被命名为高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,高斯分布最早由棣莫弗在1718年著作的书籍(Doctrine of Change),及1734年发表的一篇关于二项分布文章中提出的,不过高斯对于正态分布历史地位的确立起到了决定性的作用。本篇主要介绍一维高斯分布参数的极大似然估计如何计算。

一维高斯分布

对于一元实值变量x,高斯分布被定义为
N\left( x|\mu ,\sigma ^2 \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\}

给定一个数据集\boldsymbol{x}=\left( x_1,x_{2,}...,x_N \right) ^T,表示变量xN次观测,这里假定每个观测值是独立地从高斯分布中抽取的,分布的均值\mu 和方差\sigma ^2未知。
因此数据的联合概率为
p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =\prod_{i=1}^N{N\left( x_i|\mu ,\sigma ^2 \right)}
这里我们使用极大似然估计来估计高斯分布的参数。对数似然函数为

\ln L=\ln p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =\ln \prod_{n=1}^N{N\left( x_n|\mu ,\sigma ^2 \right)}

将高斯分布的分布函数代入得对数似然函数
\ln L=\ln p\left( \boldsymbol{x|}\mu ,\sigma ^2 \right) =-\frac{1}{2\sigma ^2}\sum_{n=1}^N{\left( x_n-\mu \right)}^2-\frac{N}{2}\ln \sigma ^2-\frac{N}{2}\ln \left( 2\pi \right)
对似然函数求偏导得
\left\{ \begin{array}{c} \frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma ^2}\sum_{i=1}^N{\left( x_i-\mu \right) =0}\\ \frac{\partial \ln L}{\partial \left( \sigma ^2 \right)}=-\frac{N}{2\sigma ^2}+\frac{1}{2\sigma ^4}\sum_{i=1}^N{\left( x_i-\mu \right) ^2}=0\\ \end{array} \right.
由第一式得出\mu的解为

\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}
以此代入第二式,得到\sigma^2的解为
\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}
分别对\mu\sigma^2求期望
E\left[ \mu _{MLE} \right] =E\left[ \frac{1}{N}\sum\limits_{i=1}^N{x}_i \right] =\frac{1}{N}\sum_{i=1}^N{E\left[ x_i \right] =\mu}

\begin{aligned} E\left[ \sigma _{MLE}^{2} \right] &=E\left[ \frac{1}{N}\sum\limits_{i=1}^N{\left( x_i-\mu _{MLE} \right)}^2 \right] =E\text{[}\frac{1}{N}\sum\limits_{i=1}^N{\left( x_{i}^{2}-2x_i\mu _{MLE}+\mu _{MLE}^{2} \right)}\\ &=E\left[ \frac{1}{N}\sum\limits_{i=1}^N{x}_{i}^{2}-\mu _{MLE}^{2} \right] =\frac{1}{N}\sum_{i=1}^N{E\left[ x_i^2 \right] -E\left[ \mu _{MLE}^{2} \right]}\\ &=\frac{1}{N}\sum_{i=1}^N{\left[ var\left( x_i \right) +E^2\left( x_i \right) \right] -\left[ var\left( \mu _{MLE} \right) +E^2\left( \mu _{MLE} \right) \right]}\\ &=\frac{1}{N}\left( N\sigma ^2+N\mu ^2 \right) -\left[ var\left( \frac{1}{N}\sum_{i=1}^N{x_i} \right) +\mu ^2 \right]\\ &=\sigma ^2+\mu ^2-\left[ \frac{1}{N^2}\left( N\sigma ^2 \right) +\mu ^2 \right]\\ &=\sigma ^2+\mu ^2-\frac{1}{N}\sigma ^2-\mu ^2\\ &=\frac{N-1}{N}\sigma ^2\\ \end{aligned}

我们可以看到\mu_{MLE}\mu的无偏估计,而\sigma_{MLE}^{2}则是有偏的,经过修正得无偏估计\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}

那么为什么一个有偏一个无偏呢?

我们注意到\sigma_{MLE}^{2}是关于样本均值\mu_{MLE}的样本方差。这是因为我们要同时关于\mu\sigma^2最大化函数,但是在高斯分布的情况下,\mu的解和\sigma^2的无关(\frac{\partial \ln L}{\partial \mu}直接得到了\mu的解),因此我们先估计公式\frac{\partial \ln L}{\partial \mu},然后使用这个结果来估计公式\frac{\partial \ln L}{\partial \left( \sigma ^2 \right)},感觉是在这个过程中\sigma^2的估计便产生了偏移。如图

PRML

当样本数量N增大时,最大似然解的偏移会逐渐变小,当N\rightarrow \infty时,\frac{N-1}{N}的极限为1,方差的最大似然解与真实分布的真实方差相等。在实际应⽤中,只要N的值不太小,那么偏移的现象不是个⼤问题。但是对于那些带有很多参数的模型,最大似然偏移的问题会更加严重。实际上,在机器学习中,最大似然的偏移问题是我们在多项式曲线拟合问题中遇到的过拟合问题的核心(这里暂不做论证)。

参考:
陈希孺:概率论与数理统计
模式识别与机器学习(PRML)
维基百科

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。