高级计量经济学 9:大样本OLS(中)
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。
仅供学习参考,请勿转载,侵删!
目录
-
5 大样本OLS
-
5.4 统计量的大样本性质
- 5.4.1 均方误差
- 5.4.2 一致估计量
- 5.4.3 渐近正态分布与渐近方差
- 5.4.4 渐近有效
- 5.5 渐近分布的公式技巧
-
5.6 随机过程
- 5.6.1 严格平稳过程
- 5.6.2 弱平稳过程/白噪声
- 5.6.3 渐近独立
- 5.6.4 渐近独立定理
- 5.6.5 鞅序列和鞅差分定理
-
5.4 统计量的大样本性质
5 大样本OLS
5.4 统计量的大样本性质
5.4.1 均方误差
假设 是一维参数
的估计量。我们希望
抽样误差
(sampling error) 尽可能地小,即
偏离真实值
越近越好。可是误差有正有负,为了防止他们相互抵消,于是我们可以考虑用误差平方(square error)
作为度量,所以引入
均方误差
的概念:
定义1:以估计量 来估计参数
,则其
均方误差
(Mean Square Error,MSE)为:
在理想的情况下,一个最优的估计量应该在所有的估计量中具有最小的MSE。另外,我们不希望 系统地高估或低估
,即没有
系统误差
,于是我们可以定义:
定义2:以估计量 来估计参数
,则其
偏差
为
定义3:如果偏差 ,就称
为
无偏估计量
性质1:MSE可以分解为方差和偏差平方和,即:
证明(与教材的思路不同):性质1
由于,
,对比我们上面的式子,发现仅差一个
项。所以考虑加一个又减一个:
证毕。
同理,在向量的情况下也会有相同的结论:
这里就不证明了。
5.4.2 一致估计量
定义4:如果 ,则估计量
是参数
的
一致估计量
(consistent estimator)
一致性(consistency)意味着,当样本容量
足够大时,
依概率收敛到真实参数
。这是对估计量最基本、最重要的要求。在大样本中,无偏性不再重要,取而代之的是一致性。
5.4.3 渐近正态分布与渐近方差
定义5:如果 ,其中
为半正定矩阵,则称
为
渐近正态分布
(asymptotically normally distributed),而称 为
渐近方差
(asymptotic variance),记为 ,实际上是正态分布的协方差矩阵。
直观上,可以近似地认为
。由于
收敛到一个非退化分布,所以
收敛到
的速度与
发散到
的速度相当。所以称前者为
收敛
5.4.4 渐近有效
假设 与
都是
的渐近正态估计量,如果
是一个半正定矩阵,则称设 比
更
渐近有效
。说白了就是,谁的方差小,谁更厉害、谁更有效。
5.5 渐近分布的公式技巧
下面介绍推导渐近分布的常用技巧,主要涉及依概率收敛和依分布收敛的交叉运算,统称 Slutsky Theorem。下面的代数符号都可以是随机变量或随机向量
5.5.1 技巧1
在极限处, 退化为常数
,所以
在极限处仅仅是将随机变量
平移
个单位。
5.5.2 技巧2
在极限处, 退化为常数
,而
变成一个的渐近分布
,从而
5.5.3 技巧3
对随机向量 和随机矩阵
,如果
可以左乘
那么就有:
特别地,如果 ,那么
。这是因为正态分布的线性组合仍是正态分布,而且
5.5.4 技巧4
对随机向量 和随机矩阵
,如果
可以左乘
,而且
存在,那么就有:
5.6 随机过程
随机序列 有一个好听的名字,叫
随机过程
(stochastic process)。如果下标 是时间
,那么也称为
时间序列
(time series)
5.6.1 严格平稳过程
定义6:如果对任意 个时期的时间集合
,随机过程
满足对于
都有:
那么就说随机过程 是一个
严格平稳过程
。
说人话,就是
的联合分布只依赖于
的相对距离。把这个相对距离在时间的长河上随便平移,这个联合分布是不变的
再说人话,平稳序列可以从信息的角度理解。如果一个序列是平稳的,那么在
时刻我们获取了
的分布(信息),就应该可以预测出在
时刻的
分布(信息)。
能够预测出
时刻
的信息,在数学上也就是说我们需要让
有限。如果
,那么我们就不可能预测出
的信息。或者说,完全没有把握能预测出
,因为假设检验的基础就是看方差的大小:如果
,那么
值恒为
所以其实我们可以通过
是否有限的角度去判断一个序列是否平稳(当然这不是证明手段,只是一个理解的手段)
例如:
- 如果随机过程
,那么它是一个严平稳过程(每一个
的方差都是有限且一样的)
- 如果随机过程
,那么它是一个严平稳过程(每一个
的方差都是0)
我们要重点考察一阶自回归过程(first order autoregression, ):
是不是一个严平稳过程。
性质2:如果 那么
是一个严平稳过程,如果
,那么就不是。
1 如果 ,那么可以迭代:
所以 时,
,其中
。从而方差越来越大以至于无穷。从信息的角度看,就是某时刻
获得了
的信息,但是由于方差在会越来越大(噪声的干扰越来越严重),所以我们无法预测
时候
的取值。这时候我们说
是一个
随机游走
过程。
2 如果 ,那么可以计算:
这是一个一阶线性差分方程。由于 ,所以
会收敛:
可以严格证明,这时候的 是一个严平稳过程。
5.6.2 弱平稳过程/白噪声过程
有时候,我们仅仅要求随机过程的期望、方差或协方差是否稳定,并不要求它的分布也稳定。这时候就引入了弱平稳过程
(weak stationary process)的概念(也叫协方差平稳过程
,covariance stationary process):
定义7:如果对随机过程 ,如果:
-
不依赖于
-
仅依赖于
(只依赖于相对位置
,与绝对位置
无关)
那么就说随机过程 是一个
弱平稳过程
。
显然,若平稳过程的期望与方差均为常数( )
定义8:如果一个弱平稳过程 满足
且
,那么就称
是一个
白噪声过程
(white noise process)
白噪声过程不一定
,也不一定是严平稳过程。它只是一种期望为0,不同期之间的噪声不相关的性质比较好的噪声
严平稳一定保证弱平稳,反之则不然。因为严平稳要求整个分布是平稳的(任意阶矩不随时间变化),但弱平稳只要求到二阶矩平稳(如期望、方差、协方差等不随时间而变)
关于矩,其实就是一个分布的特征。可以用
的角度去理解:
- 对任意函数
,泰勒展开的思想就是用 多项式函数
去逼近
,而多项式前面的系数(高阶导数)就是
的某些特征(如斜率、曲率)。如果
与
的所有特征都相同(展开
项后,所有高阶导数都相同),那么我们就可以说
和
无异
- 同样地,对任意分布
,我们可以用另外一个分布
去逼近它,只要满足
和
的所有特征(如期望、方差)都相同就可以了。分布的特征是矩,所以要用
逼近
,只需要保证他们的任意阶矩相同就可以了
弱平稳过程只要求二阶矩平稳,为什么是二阶呢?用上面的思想,其实就是我在研究问题的时候,只研究任意分布函数的二阶近似,类似于我们只研究任意函数的
。
也就是说,只要它的二阶近似不变(一阶矩和二阶矩),我就认为这个序列是一个平稳的。
5.6.3 渐近独立
然而,仅仅是严格平稳过程(相当于同分布)也不足以应用大数定律和中心极限定理(没有独立),因为他们都要求独立同分布,即序列中各个变量还需要相互独立。
显然,相互独立的假定对大多数经济变量来说还是太强了,比如去年的通货膨胀显然会影响今年的通货膨胀。不过,我们可以确定的是100年前的通货膨胀与今天的通货膨胀可以近似地认为是相互独立的,这称为渐近独立
(ergodic)。
换言之,如果随机过程没有长记忆(long memory),或者没有长期的路径依赖(path dependence)我们就说这个随机过程是渐近独立
。
定义9:对于任意两个有界函数 与
,都有:
那么就说随机过程 是一个渐进独立过程。
直观来说,渐近独立意味着只要两个随机变量相距的足够远,就可以认为他们相互独立。
上面的定义参考了
和
相互独立的定义:
同样地我们要重点考察 的
过程:
可以用数学归纳法证明:
于是, 时,有
。从而
过程是渐近独立的。
5.6.4 渐近独立定理(放宽大数定律)
渐近独立定理(Ergodic Theorem)假设 是渐近独立的严平稳过程,且
,那么样本均值
是总体均值
的一致估计,即:
这个定理的意义在于,对比大数定律的要求随机变量
,即:
- 独立
- 同分布
渐近独立定理把独立的条件放宽为渐近独立。
性质3:如果 是渐近独立的严平稳过程,那么对于任何连续函数
,那么
,也是渐近独立的严平稳过程
将性质3结合定义9,意味着如果
是渐近独立的严平稳过程,那么其任何
总体钜
(population moment)都可以用其对应的
样本矩
(sample moment)来一致估计:
其思路是:
5.6.5 鞅差分序列定理(放宽中心极限定理)
但严平稳和渐近独立这两个条件还不足以使用中心极限定理,因为还缺一个条件,即鞅差分序列。
定义9:如果随机过程 满足
,那么就称为
鞅
(martingale)
例如,随机游走过程就是鞅,因为:
定义10:如果随机过程 满足
,那么就称为
鞅差分序列
(Martingale Difference Sequence,MDS)
显然,鞅差分序列意味着 独立于它的所有过去值,从而
。而且使用迭代期望定律,我们还知道:
为什么叫鞅差分序列呢,因为鞅的一阶差分就是鞅差分序列,
证明:假设
是鞅过程,定义其差分为
,
,
。那么对
,条件期望:
这是因为和
包含同样的信息。于是:
由于,是鞅过程,根据定义有
,所以:
即是一个鞅差分序列
证毕。
有了鞅差分序列,就可以运用中心极限定理了:
鞅差分序列的中心极限定理(Central Limit Theorem for Ergodic Stationary MDS):假设 为渐近独立的严平稳的鞅差分随机向量过程,其协方差为
,那么:
普通的中心极限定理仅适用于 的情形,而这个定理只需要随机变量满足:
- 渐近独立
- 严平稳过程
- 鞅差分序列
就可以使用了。