高级计量经济学 9:大样本OLS(中)

高级计量经济学 9:大样本OLS(中)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。

仅供学习参考,请勿转载,侵删!


目录

  • 5 大样本OLS
    • 5.4 统计量的大样本性质
      • 5.4.1 均方误差
      • 5.4.2 一致估计量
      • 5.4.3 渐近正态分布与渐近方差
      • 5.4.4 渐近有效
    • 5.5 渐近分布的公式技巧
    • 5.6 随机过程
      • 5.6.1 严格平稳过程
      • 5.6.2 弱平稳过程/白噪声
      • 5.6.3 渐近独立
      • 5.6.4 渐近独立定理
      • 5.6.5 鞅序列和鞅差分定理

\S \text{ 第 5 章 } \S

\text{大样本OLS}


5 大样本OLS

5.4 统计量的大样本性质

5.4.1 均方误差

假设 \hat \beta 是一维参数 \beta 的估计量。我们希望抽样误差(sampling error) (\hat \beta - \beta) 尽可能地小,即 \hat \beta 偏离真实值 \beta 越近越好。可是误差有正有负,为了防止他们相互抵消,于是我们可以考虑用误差平方(square error) (\hat \beta - \beta)^2 作为度量,所以引入均方误差的概念:

定义1:以估计量 \hat \beta 来估计参数 \beta ,则其均方误差(Mean Square Error,MSE)为:
{\rm MSE}(\hat\beta) \equiv {\rm E}\left[\left(\hat\beta-\beta\right)^2\right]
在理想的情况下,一个最优的估计量应该在所有的估计量中具有最小的MSE。另外,我们不希望 \hat \beta 系统地高估或低估 \beta ,即没有系统误差,于是我们可以定义:

定义2:以估计量 \hat\beta 来估计参数 \beta ,则其偏差{\rm Bias}(\hat \beta)\equiv {\rm E}\left(\hat\beta\right)-\beta

定义3:如果偏差 {\rm Bias}\left(\hat\beta\right)=0 ,就称 \hat \beta无偏估计量

性质1:MSE可以分解为方差和偏差平方和,即:
{\rm MSE}\left(\hat\beta\right) = {\rm Var}\left(\hat\beta\right) + \left[{\rm Bias}\left(\hat\beta\right)\right]^2

证明(与教材的思路不同):性质1
\begin{split} {\rm MSE}(\hat\beta) &\equiv {\rm E}\left[\left(\hat\beta-\beta\right)^2\right]\\ &={\rm E}\left[\left(\hat\beta\right)^2-2\hat\beta\beta + \beta^2 \right]\\ &= {\rm E}\left[\left(\hat\beta\right)^2\right] - 2{\rm E}\left[\hat\beta\beta\right]+{\rm E}\left[\beta^2\right]\\\end{split}
由于 {\rm Var}\left(\hat\beta\right)={\rm E}\left[\left(\hat\beta\right)^2\right]-{\rm E}\left[\hat\beta\right]^2{\rm Bias}(\hat \beta)\equiv {\rm E}\left(\hat\beta\right)-\beta ,对比我们上面的式子,发现仅差一个 {\rm E}\left[\hat\beta\right]^2项。所以考虑加一个又减一个:
\begin{split} 原式&={\rm E}\left[\left(\hat\beta\right)^2\right] - 2{\rm E}\left[\hat\beta\beta\right]+{\rm E}\left[\beta^2\right] + {\rm E}\left[\hat\beta\right]^2 - {\rm E}\left[\hat\beta\right]^2\\ &=\left\{ {\rm E}\left[\left(\hat\beta\right)^2\right] - {\rm E}\left[\hat\beta\right]^2 \right\} + \left\{ {\rm E}\left[\hat\beta\right]^2 - 2{\rm E}\left[\hat\beta\beta\right] +{\rm E}\left[\beta^2\right]\right\}\\ &={\rm Var}\left(\hat\beta\right) + \left[{\rm Bias}\left(\hat\beta\right)\right]^2\end{split}

证毕

同理,在向量的情况下也会有相同的结论:
{\rm MSE}\left(\hat{\pmb\beta}\right) ={\rm Var}\left(\hat{\pmb\beta}\right) + \left[{\rm Bias}\left(\hat{\pmb\beta}\right)\right] \cdot \left[{\rm Bias}\left(\hat{\pmb\beta}\right)\right]^\prime
这里就不证明了。

5.4.2 一致估计量

定义4:如果 \mathop{\rm plim}\limits_{n\to\infty} \hat{\pmb \beta}_n = \pmb \beta ,则估计量 \hat{\pmb \beta}_n 是参数 \pmb \beta一致估计量(consistent estimator)

一致性(consistency)意味着,当样本容量 n 足够大时, \hat{\pmb \beta}_n 依概率收敛到真实参数 \pmb\beta 。这是对估计量最基本、最重要的要求。在大样本中,无偏性不再重要,取而代之的是一致性

5.4.3 渐近正态分布与渐近方差

定义5:如果 \sqrt{n}\left(\hat{\pmb \beta}_n-\pmb\beta\right) \stackrel{d}{\longrightarrow}N(0,\pmb\Sigma) ,其中 \pmb\Sigma 为半正定矩阵,则称 \hat{\pmb \beta}_n渐近正态分布(asymptotically normally distributed),而称 \pmb\Sigma渐近方差(asymptotic variance),记为 {\rm Avar}\left(\hat{\pmb \beta}_n\right) ,实际上是正态分布的协方差矩阵。

直观上,可以近似地认为 \hat{\pmb \beta}_n\stackrel{d}{\longrightarrow}N(\pmb\beta,\pmb\Sigma/n) 。由于 \sqrt{n}\left(\hat{\pmb \beta}_n-\pmb\beta\right) 收敛到一个非退化分布,所以 \left(\hat{\pmb \beta}_n-\pmb\beta\right) 收敛到 \pmb0 的速度与 \sqrt{n} 发散到 \infty 的速度相当。所以称前者为 \sqrt{n} 收敛

5.4.4 渐近有效

假设 \hat{\pmb \beta}_n\tilde{\pmb \beta}_n 都是 \pmb \beta 的渐近正态估计量,如果
{\rm Avar}\left(\tilde{\pmb \beta}_n\right) - {\rm Avar}\left(\hat{\pmb \beta}_n\right)
是一个半正定矩阵,则称设 \hat{\pmb \beta}_n\tilde{\pmb \beta}_n渐近有效说白了就是,谁的方差小,谁更厉害、谁更有效


5.5 渐近分布的公式技巧

下面介绍推导渐近分布的常用技巧,主要涉及依概率收敛依分布收敛的交叉运算,统称 Slutsky Theorem。下面的代数符号都可以是随机变量或随机向量

5.5.1 技巧1

x_n \stackrel{d}{\longrightarrow} x, y_n \stackrel{p}{\longrightarrow} a \Rightarrow x_n+y_n \stackrel{d}{\longrightarrow} x+a

在极限处, y_n 退化为常数 a ,所以 x_n+y_n 在极限处仅仅是将随机变量 x 平移 a 个单位。

5.5.2 技巧2

x_n \stackrel{d}{\longrightarrow} x, y_n \stackrel{p}{\longrightarrow} 0 \Rightarrow x_ny_n \stackrel{p}{\longrightarrow} 0

在极限处, y_n 退化为常数 0 ,而 x_n 变成一个的渐近分布 x ,从而 x \cdot 0=0

5.5.3 技巧3

对随机向量 \pmb x_n 和随机矩阵 \pmb A_n ,如果 \pmb A_n 可以左乘 \pmb x 那么就有:
\pmb x_n\stackrel{d}{\longrightarrow} \pmb x, \pmb A_n \stackrel{p}{\longrightarrow} \pmb A \Rightarrow \pmb A_n \pmb x_n \stackrel{d}{\longrightarrow} \pmb A\pmb x
特别地,如果 \pmb x \sim N(\pmb 0,\pmb\Sigma) ,那么 \pmb A_n \pmb x_n \stackrel{d}{\longrightarrow} N(\pmb 0,\pmb{A\Sigma A^\prime}) 。这是因为正态分布的线性组合仍是正态分布,而且 {\rm Var}\left(\pmb A \pmb x\right) = \pmb A {\rm Var}\left(\pmb x\right)\pmb A^\prime = \pmb{A\Sigma A^\prime}

5.5.4 技巧4

对随机向量 \pmb x_n 和随机矩阵 \pmb A_n ,如果 \pmb A_n 可以左乘 \pmb x ,而且 \pmb A^{-1} 存在,那么就有:
\pmb x_n\stackrel{d}{\longrightarrow} \pmb x, \pmb A_n \stackrel{p}{\longrightarrow} \pmb A \Rightarrow \pmb{x_n^\prime A_n^{-1}x_n} \stackrel{d}{\longrightarrow} \pmb{x^\prime A^{-1}x}


5.6 随机过程

随机序列 \{x_n\}_{n=1}^\infty 有一个好听的名字,叫随机过程(stochastic process)。如果下标 n 是时间 t ,那么也称为时间序列(time series)

5.6.1 严格平稳过程

定义6:如果对任意 m 个时期的时间集合 \{t_1,\cdots,t_m\} ,随机过程 \{x_{t_1},\cdots,x_{t_m}\} 满足对于 \forall k \in {\rm N} 都有:
\{x_{t_1},\cdots,x_{t_m}\} 的联合分布 = \{x_{t_1+k},\cdots,x_{t_m+k}\} 的联合分布
那么就说随机过程 \{x_n\}_{n=1}^\infty 是一个严格平稳过程

说人话,就是 \{x_{t_1},\cdots,x_{t_m}\} 的联合分布只依赖于 \{t_1,\cdots,t_m\} 的相对距离。把这个相对距离在时间的长河上随便平移,这个联合分布是不变的

再说人话,平稳序列可以从信息的角度理解。如果一个序列是平稳的,那么在 t=0 时刻我们获取了 x_0 的分布(信息),就应该可以预测出在 t=\infty 时刻的 x_\infty 分布(信息)。

能够预测出 t=\infty 时刻 x_\infty 的信息,在数学上也就是说我们需要让 {\rm Var}(x_\infty) 有限。如果 {\rm Var}(x_\infty) \to \infty ,那么我们就不可能预测出 x_\infty 的信息。或者说,完全没有把握能预测出 x_\infty ,因为假设检验的基础就是看方差的大小:如果 {\rm Var}(x_\infty) \to \infty ,那么 p 值恒为 1

所以其实我们可以通过 {\rm Var}(x_\infty) 是否有限的角度去判断一个序列是否平稳(当然这不是证明手段,只是一个理解的手段)

例如:

  • 如果随机过程 \{x_n\}_{n=1}^\infty \rm i.i.d ,那么它是一个严平稳过程(每一个 x_n 的方差都是有限且一样的)
  • 如果随机过程 \{x_n\}_{n=1}^\infty = {x_1,x_1,\cdots,x_1} ,那么它是一个严平稳过程(每一个 x_n 的方差都是0

我们要重点考察一阶自回归过程(first order autoregression,\rm AR(1) ):
y_t = \rho y_{t-1} + \varepsilon_t, \quad {\rm Cov}(y_{t-1},\varepsilon_t)=0, \quad \varepsilon_t \in {\rm i.i.d.}
是不是一个严平稳过程。

性质2:如果 |\rho|<1 那么 \{y_t\} 是一个严平稳过程,如果 \rho = 1 ,那么就不是。

1 如果 \rho = 1 ,那么可以迭代:
y_t = y_0 + \varepsilon_1+ \varepsilon_2+\cdots+ \varepsilon_t
所以 t\to\infty 时,{\rm Var}(y_t) = t\sigma^2 \to \infty ,其中 \sigma^2 = {\rm Var}(\varepsilon_t) 。从而方差越来越大以至于无穷。从信息的角度看,就是某时刻 t 获得了 y_t 的信息,但是由于方差在会越来越大(噪声的干扰越来越严重),所以我们无法预测 y_\infty 时候 y 的取值。这时候我们说 \{y_t\} 是一个随机游走过程。

2 如果 |\rho|<1 ,那么可以计算:
{\rm Var}(y_t) = \rho^2{\rm Var}(y_{t-1})+\sigma^2
这是一个一阶线性差分方程。由于 \rho^2<1 ,所以 {\rm Var}(y_t) 会收敛:
\begin{split} {\rm Var}(y) &= \rho^2{\rm Var}(y)+\sigma^2\\ (1-\rho^2){\rm Var}(y)&=\sigma^2\\ {\rm Var}(y)&=\frac{\sigma^2}{1-\rho^2}\end{split}
可以严格证明,这时候的 \{y_t\} 是一个严平稳过程。

5.6.2 弱平稳过程/白噪声过程

有时候,我们仅仅要求随机过程的期望方差或协方差是否稳定,并不要求它的分布也稳定。这时候就引入了弱平稳过程(weak stationary process)的概念(也叫协方差平稳过程,covariance stationary process):

定义7:如果对随机过程 \{x_n\}_{n=1}^\infty ,如果:

  • {\rm E}(x_t) 不依赖于 t
  • {\rm Cov}(x_t,x_{t+k}) 仅依赖于 k (只依赖于相对位置 k,与绝对位置 t 无关)

那么就说随机过程 \{x_n\}_{n=1}^\infty 是一个弱平稳过程

显然,若平稳过程的期望与方差均为常数({\rm Var}(x_t)={\rm Cov}(x_t,x_{t+0})=常数

定义8:如果一个弱平稳过程 \{x_n\}_{n=1}^\infty 满足 {\rm E}(x_t)=0\forall k\neq 0: {\rm Cov}(x_t,x_{t+k})=0 ,那么就称 \{x_n\}_{n=1}^\infty 是一个白噪声过程(white noise process)

白噪声过程不一定 \rm i.i.d. ,也不一定是严平稳过程。它只是一种期望为0,不同期之间的噪声不相关性质比较好的噪声

严平稳一定保证弱平稳,反之则不然。因为严平稳要求整个分布是平稳的(任意阶矩不随时间变化),但弱平稳只要求到二阶矩平稳(如期望、方差、协方差等不随时间而变)

关于,其实就是一个分布的特征。可以用 \rm Taylor 展开 的角度去理解:

  • 对任意函数 f(x) ,泰勒展开的思想就是用 多项式函数 g(x) 去逼近 f(x) ,而多项式前面的系数(高阶导数)就是 f(x) 的某些特征(如斜率、曲率)。如果 g(x)f(x) 的所有特征都相同(展开 \infty 项后,所有高阶导数都相同),那么我们就可以说 g(x)f(x) 无异
  • 同样地,对任意分布 F(x) ,我们可以用另外一个分布 G(x) 去逼近它,只要满足 G(x)F(x) 的所有特征(如期望、方差)都相同就可以了。分布的特征是,所以要用 G(x) 逼近 F(x),只需要保证他们的任意阶矩相同就可以了

弱平稳过程只要求二阶矩平稳,为什么是二阶呢?用上面的思想,其实就是我在研究问题的时候,只研究任意分布函数的二阶近似,类似于我们只研究任意函数的 二阶\rm Taylor 展开

也就是说,只要它的二阶近似不变(一阶矩和二阶矩),我就认为这个序列是一个平稳的

5.6.3 渐近独立

然而,仅仅是严格平稳过程(相当于同分布)也不足以应用大数定律和中心极限定理(没有独立),因为他们都要求独立同分布,即序列中各个变量还需要相互独立。

显然,相互独立的假定对大多数经济变量来说还是太强了,比如去年的通货膨胀显然会影响今年的通货膨胀。不过,我们可以确定的是100年前的通货膨胀与今天的通货膨胀可以近似地认为是相互独立的,这称为渐近独立(ergodic)。

换言之,如果随机过程没有长记忆(long memory),或者没有长期的路径依赖(path dependence)我们就说这个随机过程是渐近独立

定义9:对于任意两个有界函数 f:{\bf R}^{k+1} \pmb \to {\bf R}g:{\bf R}^{k+1} \pmb \to {\bf R} ,都有:
\lim\limits_{n \to \infty}\Big|{\rm E}\left[ f(x_i,\cdots,x_{i+k})g(x_{i+n},\cdots,x_{i+l+n}) \right]\Big| - \Big|{\rm E}[f(x_i,\cdots,x_{i+k})]\Big|\pmb\cdot\Big|{\rm E}[g(x_{i+n},\cdots,x_{i+l+n})]\Big| = 0
那么就说随机过程 \{x_n\}_{n=1}^\infty 是一个渐进独立过程。

直观来说,渐近独立意味着只要两个随机变量相距的足够远,就可以认为他们相互独立。

上面的定义参考了 xy互独立的定义{\rm E}(xy) = {\rm E}(x){\rm E}(y)

同样地我们要重点考察 |\rho|<1\rm AR(1) 过程:
间隔为1:{\rm Cov}(y_t,y_{t-1}) = {\rm Cov}(\rho y_{t-1} + \varepsilon_t, y_{t-1}) = \rho \sigma^2

间隔为2:{\rm Cov}(y_t,y_{t-2}) = {\rm Cov}(\rho^2 y_{t-2} +\rho \varepsilon_{t-1} + \varepsilon_t, y_{t-2}) = \rho^2 \sigma^2

\pmb \cdots

可以用数学归纳法证明:
间隔为j:{\rm Cov}(y_t,y_{t-j}) = \rho^j \sigma^2
于是,j \to \infty 时,有 \lim\limits_{j \to \infty}{\rm Cov}(y_t,y_{t-j}) = \lim\limits_{j \to \infty} \rho^j \sigma^2 \to 0 。从而 \rm AR(1) 过程是渐近独立的。

5.6.4 渐近独立定理(放宽大数定律)

渐近独立定理(Ergodic Theorem)假设 \{x_n\}_{n=1}^\infty渐近独立严平稳过程,且 {\rm E}(x_1) = \mu ,那么样本均值 \bar x_n 是总体均值 {\rm E}(x_n) 的一致估计,即:
\bar x_n \equiv \frac{1}{n}\sum_{i=1}^n x_i \stackrel{p}\longrightarrow \mu

这个定理的意义在于,对比大数定律的要求随机变量 \rm i.i.d. ,即:

  • 独立
  • 同分布

渐近独立定理把独立的条件放宽为渐近独立

性质3:如果 \{x_n\}_{n=1}^\infty 是渐近独立的严平稳过程,那么对于任何连续函数 f({\pmb \cdot}) ,那么 \{f({x_n})\}_{n=1}^\infty ,也是渐近独立的严平稳过程

性质3结合定义9,意味着如果 \{x_n\}_{n=1}^\infty 是渐近独立的严平稳过程,那么其任何总体钜(population moment){\rm E}[f(x_n)] 都可以用其对应的样本矩(sample moment)来一致估计:
\frac{1}{n}\sum_{i=1}^n f(x_n)\quad是\quad{\rm E}(f(x_n))\quad的一致估计
其思路是:
\{x_n\}_{n=1}^\infty渐近独立 \stackrel{\bf性质3}\Longrightarrow \{f({x_n})\}_{n=1}^\infty 渐近独立 \stackrel{\bf定义9}\Longrightarrow \frac{1}{n}\sum_{i=1}^n f(x_n)的一致性

5.6.5 鞅差分序列定理(放宽中心极限定理)

但严平稳和渐近独立这两个条件还不足以使用中心极限定理,因为还缺一个条件,即鞅差分序列。

定义9:如果随机过程 \{x_n\}_{n=1}^\infty 满足 {\rm E}(x_i | x_{i-1},\cdots,x_1)=x_{i-1},\forall i \geqslant 2 ,那么就称为(martingale)

例如,随机游走过程就是,因为:
{\rm E}(x_t) = {\rm E}(x_{t-1} + \varepsilon) = {\rm E}(x_{t-1}) + {\rm E}( \varepsilon) = x_{t-1} + 0 =x_{t-1}

定义10:如果随机过程 \{x_n\}_{n=1}^\infty 满足 {\rm E}(x_i | x_{i-1},\cdots,x_1)=0,\forall i \geqslant 2 ,那么就称为鞅差分序列(Martingale Difference Sequence,MDS)

显然,鞅差分序列意味着 x_i 独立于它的所有过去值,从而 {\rm Cov}(x_i,x_{i-j})=0,\forall j \neq 0 。而且使用迭代期望定律,我们还知道:
{\rm E}(x_i) = {\rm E}_{x_{i-1},\cdots,x_1}(x_i | x_{i-1},\cdots,x_1)=0
为什么叫鞅差分序列呢,因为的一阶差分就是鞅差分序列

证明:假设 \{x_n\}_{n=1}^\infty 是鞅过程,定义其差分为 g_1 \equiv x_1g_i \equiv x_i - x_{i-1}\forall i \geqslant 2 。那么对 \forall i \geqslant 2 ,条件期望:
{\rm E}(g_i|g_{i-1},\cdots,g_1) = {\rm E}(g_i|x_{i-1},\cdots,x_1)
这是因为 \{x_n\}_{n=1}^\infty\{g_n\}_{n=1}^\infty 包含同样的信息。于是:
\begin{split} {\rm E}(g_i|x_{i-1},\cdots,x_1) &= {\rm E}(x_i - x_{i-1}|x_{i-1},\cdots,x_1)\\ &= {\rm E}(x_i|x_{i-1},\cdots,x_1) - {\rm E}(x_{i-1}|x_{i-1},\cdots,x_1)\\ \end{split}
由于, \{x_n\}_{n=1}^\infty 是鞅过程,根据定义有 {\rm E}(x_i|x_{i-1},\cdots,x_1) = x_i ,所以:
\begin{split} {\rm E}(g_i|g_{i-1},\cdots,g_1) &= {\rm E}(x_i|x_{i-1},\cdots,x_1) - {\rm E}(x_{i-1}|x_{i-1},\cdots,x_1)\\ &=x_{i-1} - x_{i-1} = 0 \end{split}
\{g_n\}_{n=1}^\infty 是一个鞅差分序列

证毕

有了鞅差分序列,就可以运用中心极限定理了:

鞅差分序列的中心极限定理(Central Limit Theorem for Ergodic Stationary MDS):假设 \{\pmb g_n\}_{n=1}^\infty渐近独立严平稳鞅差分随机向量过程,其协方差为 {\rm Cov}(\pmb g_i)={\rm E}(\pmb g_i \pmb g_i^\prime) = \pmb \Sigma ,那么:
\bar{\pmb g} \equiv \frac{1}{n}\sum_{i=1}^n \pmb g_i \Rightarrow \sqrt{n}\bar{\pmb g} \stackrel{d}\longrightarrow N(\pmb 0, \pmb \Sigma)
普通的中心极限定理仅适用于 \rm i.i.d 的情形,而这个定理只需要随机变量满足:

  • 渐近独立
  • 严平稳过程
  • 鞅差分序列

就可以使用了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。