Notes on 极大似然估计(MLE)

从总体X中取出n个样本X_1,X_2,...,X_n,观测值分别为x_1,x_2,...,x_3,则似然函数为
\mathcal{Lik}(\theta)=\prod_{i=1}^nf(x_i;\theta)
求使得出现样本概率最大的参数\hat{\theta}作为\theta=[\theta_1,\theta_2,...,\theta_k]^\top的估计值
\hat{\theta}=arg\ max_\ \mathcal{Lik}(\theta)=arg\ max\prod_{i=1}^n f(x_i;\theta)
为了方便计算,对\ Lik(\theta)\ ​取对数得到对数似然函数
\ell(\theta)=\sum_{i=1}^nlogf(x_i;\theta)
又记梯度算子
\nabla_\theta=[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},...,\frac{\partial}{\partial\theta_k}]^\top
若似然函数满足连续可导的条件,则最大似然估计量\ \hat{\theta}\就是如下方程的解
\nabla_\theta \ell(\theta)=\sum_{i=n}^n\nabla_\theta logf(x_i;\theta)=0


设样本服从正态分布\ \mathcal{N} (\mu, \sigma^2),则似然函数为
\mathcal{Lik}(\mu,\sigma^2)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2)
对数似然函数
\ell(\mu,\sigma)=-\frac{n}{2}log(2\pi)-\frac{n}{2}log(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2
得方程组
\left\{ \begin{align} &\frac{\partial}{\partial\mu}\ell(\mu,\sigma)=\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0 \\ &\frac{\partial}{\partial\sigma}\ell(\mu,\sigma)=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2=0 \end{align} \right.
解得\ \hat{\mu}=\bar{x},\hat{\sigma^2}=\dfrac{1}{n}\sum\limits_{i=1}^n(x_i-\bar{x})^2\为极大似然估计参数。


定义 \ Fisher\信息
\mathcal{I}(\theta)=\mathbb{E}[\nabla logf(X;\theta)\nabla logf(X;\theta)^\top]
其中,\ f(X;\theta)\是分布的密度函数。(不是似然函数。)

引理
\mathcal{I}(\theta)=-\mathbb{E}[\nabla^2logf(X;\theta)]
定理\ f\具有合适的平滑条件下,来自\ i.i.d\样本的最大似然估计具有一致性。且
(\hat{\theta}-\theta_0)→\mathcal{N}(0,\frac{1}{n\mathcal{I}(\theta_0)})
其中,\dfrac{1}{n\mathcal{I}(\theta_0)} 称为最大似然估计的渐进方差。


伯努利分布\ B(p)\有密度函数
f(x|p)=p^x(1-p)^{1-x},\ x=0,1
取对数
logf(x|p)=xlogp+(1-x)log(1-p)
求导
\frac{\partial}{\partial p}logf(x|p)=\frac{x}{p}-\frac{1-x}{1-p},\ \ \frac{\partial^2}{\partial p^2}logf(x|p)=-\frac{x}{p^2}-\frac{1-x}{(1-p)^2}
得到\ Fisher\信息
\mathcal{I}(\theta)=-\mathbb{E}[\frac{\partial^2}{\partial p^2}logf(X|p)]=\frac{\mathbb{E}X}{p^2}+\frac{1-\mathbb{E}X}{(1-p)^2}=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}
得到渐进方差
\sigma^2=\frac{1}{n\mathcal{I}(\theta)}=\frac{p(1-p)}{n}

(\hat{\theta}-\theta_0)→\mathcal{N}(0,\frac{p(1-p)}{n})


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容