高级计量经济学 11:最大似然估计(上)
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。
仅供学习参考,请勿转载,侵删!
目录
-
6 最大似然估计法
-
6.5 最大似然法的大样本性质
- 6.5.1 估计量的一致性
- 6.5.2 渐近有效和渐近正态
-
6.6 最大似然估计量的渐近协方差矩阵
6.6.1 期望值法
6.6.2 观测信息矩阵法
-
6.6.3 梯度向量外积或BHHH法
-
6.5 最大似然法的大样本性质
6 最大似然估计法
6.1 最大似然估计法的定义
假设随机变量 的概率密度函数为
,其中
为
维位置参数向量,
表示参数向量处于参数空间中,即所有
可能取值所构成的集合。我们现在通过抽取随机样本
来估计
。 假设
为
,那么样本数据的联合密度函数为:
。
注意,使用最大似然法估计,我们相当于就知道了(或者说,假设了)
的概率密度函数。
这通常被称为“先验分布”
在抽样之前, 被视为随机过程;抽样后,
就有了特定的样本值。因此,可以将样本的联合密度函数看作在
给定下,关于
的函数。于是我们定义
似然函数(likelihood function)为:
由此可见,似然函数与联合密度函数完全相等,只是把原本是参数的 换成了自变量;把原来是自变量的
换成了参数。为了运算方便,通常把似然函数取对数,将乘积转换为求和:
最大似然估计法(Maximum Likelihood Estimation,MLE or ML)来源于一个简单而深刻的想法:给定样本取值后,样本最有可能来自于参数 为何值的总体。换言之,寻找
使得观察到样本数据的可能性最大,于是我们的目标是最大化
对数似然函数(Loglikelihood Function,LLF):
说人话,也就是MLE是“存在即真理”的方法论。既然我现在观察到
出现了,所以参数
也应该尽可能让
出现的概率最大。
想到学概率论的一个例子:A和B一起射箭,A和B是否射中应该服从一个两点分布,分别设A和B射中的概率为
和
。现在观察到A的射箭结果为
而B的为
。于是我们可以从A和B射箭的结果中反推A和B射中的概率为0和0.2。在这个的例子中:
- A和B射中的概率就是这个两点分布的参数
![]()
- 射箭结果就是
![]()
之所以是0和0.2,是因为他们是让已经观察到的结果出现的概率最大的参数。
数学上,我们通常把最大似然估计量 写成:
假设存在唯一内点解,那么无约束极值问题的一阶条件可以写成:
此一阶条件要求LLF的梯度向量(gradient) 为
。这实际上是
个位置参数
和
各方程构成的方程组。该梯度向量也被称为
得分函数(score function)或得分向量(score vector)。 本身是
的函数,从而也是一个随机变量。记真实的参数为
,那么我们有:
命题1 得分函数的期望为 。如果似然函数正确(correctly specified),则
证明1:如果似然函数正确,
因为似然函数
是概率密度函数,所以
的积分为1,即:
为了引入LLF,把上面的积分写成:
两边对求导,有:
也就是:
由于似然函数正确,于是在处,
就是真实的概率密度函数。于是令上式
,就有:
中间的等号用了期望的定义:,其中
为概率密度函数。
证毕。
进一步,可以把得分函数 写成:
其中, 为第
个观测值对得分函数的贡献。
6.2 线性回归模型的MLE
假设线性回归模型为:
为了使用MLE,首先要对扰动线做一些假设(球形扰动项): ,于是被解释变量的条件分布为
,于是其条件概率密度函数为:
用 和
代入,取对数,于是LLF为:
极大似然估计就是要求 和
使得
最大。由于
只出现在第三项,于是
要使得
最小,这正正好是OLS的目标函数
,于是:
下一步就是求解 ,此时LLF变为
集中对数似然函数(concentrated log likelihood function):
对 求导,有:
于是可以求解:
于是我们发现,MLE对回归系数 的估计与OLS是一致的,不过对扰动项方差
的估计则不同(受制于自由度的问题),不过这个问题在大样本下消失。另外,由于我们知道
是
的无偏估计,从而
对
是有偏估计。
6.3 MLE的数值解
如果模型存在非线性,MLE通常没有解析解,只能寻找数值解(numerical solution),不过这部分不是我们的重点,可以自己翻看教材。
实际上Matlab、Python、R之类的都提供了非线性求解器,所以这不需要我们操心
6.4 信息矩阵与无偏估计的最小方差
为了研究MLE的大样本性质,定义信息矩阵(information matrix)为对数似然函数的黑塞矩阵之期望值的负数,即:
在一维情形下, 就是LLF的二阶导数的负数。由于LLF为凹函数,所以其二阶导数为负数,于是一维情形下的信息“矩阵”为正。更一般地, 就是LLF在 空间的高维曲率(curvature),取期望以后的 其实就是表示平均曲率(对 平均)。
在求解 时,如果LLF曲率大、很陡峭,就比较容易分辨 的位置;如果LLF曲率小、很平坦,就很难分辨 的位置,如图6.3。更极端地,如果LLF是完全平坦的,那么MLE没有唯一解。

信息矩阵涉及二阶偏导数,不易计算,所以通常把它表达为一阶偏导数的乘积的形式:
命题2 在 ,信息矩阵等式(information matrix equality)成立:
证明2:信息矩阵等式
从证明1我们已经知道:
该方程两边继续对求导,有:
移项,然后令,那么就有:
于是,根据期望的定义,就有:
证毕。
其实证明1和证明2的思路都挺简单的,最关键的技巧是从LF写成
的形式以凑出LLF。然后都是求导(或者二阶导),交换积分号和求导符号,移项,把LLF重新写成LF的形式,用期望的定义,即可证出来。
命题3** 在 ,信息矩阵
就是得分函数的协方差矩阵
。
证明3: 得分函数的方差为信息矩阵
证毕。
在统计学中有一个著名的结论:假设 是对真实参数
的任意无偏估计,那么在一定的正则条件(regularity conditions)下,
的方差不会小于
,即
。其中
被称为
克莱默-劳下限(Cramer-Rao Lower Bound)。因此,无偏估计所能达到的最小方差与信息矩阵(即LLF的平均曲率)有关——曲率 越大,则
越小,那么无偏估计可能达到的方差就越小。
证明*:Cramer-Rao Lower Bound
为简单期间,只证明一维情形。由于
是对真实参数
的任意无偏估计,于是:
将上式两边同时对求导可得:
于是:
证毕。
可以证明,在古典线性回归模型中,根据信息矩阵的定义:
其中, 。由于
,于是
均达到了无偏估计的最小方差。
命题4 在高斯-马尔可夫定理中,如果加上扰动项为正态分布的假定,那么OLS是达到了最佳无偏估计而非仅仅最佳线性无偏估计