高级计量经济学 5:小样本OLS(中)

高级计量经济学 5:小样本OLS(中)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。

仅供学习参考,请勿转载,侵删!


本文目录

  • 3 小样本OLS
  • 3.3 OLS的几何解释
    • 3.4 拟合优度
      • 3.4.1 R^2\bar{R^2}
      • 3.4.2 R^2_{UC}
    • 3.5 OLS的小样本性质
      • 3.5.1 线性性
      • 3.5.2 无偏性
      • 3.5.3 估计量 \pmb b 的方差为 \sigma^2({\bf X}^\prime{\bf X})^{-1}
      • 3.5.4 高斯-马尔可夫定理
      • 3.5.5 扰动项的方差的无偏估计是 s^2
  • 本文小结

\S \text{ 第 3 章 } \S

\text{小样本OLS}


3 小样本OLS

3.3 OLS的几何解释

利用OLS的正交性,可以给OLS估计量最直观的几何解释。

由于 \pmb{\hat y} \equiv {\bf X}\pmb b = {\bf X} \left({\bf X}^\prime {\bf X}\right)^{-1} {\bf X}^\prime \pmb y \equiv \pmb P \pmb y ,于是我们定义投影矩阵(projection matrix)为:
\pmb P = {\bf X} \left({\bf X}^\prime {\bf X}\right)^{-1}{\bf X}^\prime
因为向量 \pmb P 左乘任何向量就可以得到该向量在超平面 \bf X 上的投影(相当于是从 \pmb y\pmb{\hat y} 的映射)。另外,还可以定义消灭矩阵(annihilator matrix)\pmb M 满足:
\pmb e = \pmb y - \pmb{\hat y} = \pmb y - \pmb P \pmb y = ({\bf I}-\pmb P)\pmb y = \pmb M \pmb y
因为用 \pmb M 左乘任何向量,都会得到该向量对超平面 \bf X 投影后的残差向量。对于 \pmb P\pmb M ,可以证明有如下性质:

  • \pmb P {\bf X} = {\bf X}
  • \pmb {Pe=0}
  • \pmb{M} {\bf X}=\pmb 0
  • \pmb P^\prime = \pmb P, \pmb M^\prime = \pmb M
  • \pmb P^2 = \pmb P, \pmb M^2 = \pmb M

利用消灭矩阵对性质,可以把残差写成总体扰动项 \pmb \varepsilon 的函数:
\pmb e=\pmb M \pmb y=\pmb M({\bf X} \pmb \beta+\pmb \varepsilon)=\underbrace{\pmb M {\bf X}}_{= \pmb 0} \pmb \beta+\pmb M \pmb \varepsilon=\pmb M \pmb \varepsilon
进一步地,可以把残差平方和也写成总体扰动项 \pmb \varepsilon 的函数:
\text{SSR} = \pmb{e^\prime e} = \pmb \varepsilon^\prime \pmb M \pmb \varepsilon


3.4 拟合优度

3.4.1 R^2\bar{R^2}

如果有常数项,则可以将被解释变量的离差平方和 \sum_{i=1}^n(y_i-\bar{y})^2 分解为:
\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n} e_{i}^{2}
上面的分解表明,导致被解释变量 y_i 偏离其样本均值 \bar{y} 的因素可以分为两个部分:

  • 由模型解释的部分 \sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}
  • 无法由模型解释的残差部分 \sum_{i=1}^{n} e_{i}^{2}

这个平方和公式成立的前提正是 OLS的正交性

于是可以定义拟合优度(goodness of fit)为 R^2
0 \leqslant R^{2} \equiv \frac{\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}=1-\frac{\sum_{i=1}^{n} e_{i}^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}} \leqslant 1
拟合优度 R^2 也可以称为可决系数(coefficient of determination)。可以证明,在有常数项的情况下,拟合优度等于被解释变量 y_i 与拟合值 \hat{y_i} 之间相关系数的平方,即:
R^2 = \left[ \text{Corr}(y_i,\hat y_i) \right]^2
显然,R^2 越大,拟合程度越好。然而,由于增加解释变量的时候, R^2 至少不会减少,但模型变得冗杂了,于是需要对太多的解释变量进行惩罚,定义矫正的拟合优度(adjusted R^2 )为 \bar{R^2}
\bar{R}^{2}=1-\frac{\sum_{i=1}^{n} e_{i}^{2} /(n-K)}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2} /(n-1)}
\bar{R^2} 的缺点是它可以是负数。不论是 R^2 还是 \bar{R^2} ,都只是反映了拟合程度的好坏,除此以为没有太多的意义。评估一个回归方程是否显著,最关键的还是看 F 检验

3.4.2 R^2_{UC}

如果模型没有常数项,则不可以执行上述的分解,但仍可以将被解释变量的平方和进行分解:
\sum_{i=1}^{n} y_{i}^{2}=\pmb y^{\prime}\pmb y=(\pmb {\hat{y}}+\pmb e)^{\prime}(\pmb {\hat{y}}+\pmb e)=\pmb {\hat{y}}^{\prime} \pmb {\hat{y}}+2 \underbrace{ \pmb {\hat{y}}^{\prime}\pmb e^{\prime}}_{=\pmb 0}+\pmb e^\prime \pmb e=\sum_{i=1}^{2} \hat{y}_{i}^{2}+\sum_{i=1}^{2} e_{i}^{2}
这时候应该使用**非中心 R^2 **,即 R^2_{UC}
R_{UC}^{2}=\frac{\pmb{\hat{y}}^{\prime} \pmb{\hat{y}}}{\pmb y^{\prime}\pmb y}=1-\frac{\pmb e^{\prime} \pmb e}{\pmb y^{\prime}\pmb y}


3.5 OLS的小样本性质

3.5.1 线性性

OLS估计量 \pmb b = ({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime \pmb y 是观测值 \pmb y 的线性组合

3.5.2 无偏性

\pmb b 不会系统的高估或低估 \pmb \beta{\rm E}(\hat{\pmb b}|{\bf X}) = \pmb \beta

证明:OLS估计量 \pmb b 的无偏性(与书上的证明方法不同)
\begin{split} {\rm E}(\hat{\pmb b}|{\bf X}) &= {\rm E}(({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime \pmb y|{\bf X}) \\ &={\rm E}(({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime ({\bf X} \pmb \beta + \pmb \varepsilon)|{\bf X}) \\ &={\rm E}(\pmb \beta + (({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime) \pmb \varepsilon|{\bf X}) \\ &={\rm E}(\pmb \beta) + {\rm E}((({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime) \pmb \varepsilon|{\bf X}) \end{split}
由于这个是 \bf X 的条件期望,所以在右边一项中, \bf X 可以作为常数被提出来,那么:
{\rm E}((({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime) \pmb \varepsilon|{\bf X}) = (({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime)\underbrace{{\rm E}( \pmb \varepsilon|{\bf X})}_{严格外生性} = 0
\pmb \beta 是一个常数,所以 {\rm E}(\pmb \beta) = \pmb \beta ,那么:
{\rm E}(\hat{\pmb b}|{\bf X}) = \pmb \beta
证毕

那么,我们也会有 {\rm E}(\hat{\pmb b}|{\bf X}) 的无条件期望 {\rm E}(\hat{\pmb b}) 也为 \pmb \beta

证明{\rm E}(\hat{\pmb b}) = \pmb \beta,用迭代期望定律
{\rm E}(\pmb b) = {\rm E}_{\bf X}{\rm E}(\pmb b| {\bf X}) = {\rm E}_{\bf X}(\pmb \beta) = \pmb \beta
证毕

为了方便,在后面的研究中我们会记 \pmb b - \pmb \beta =({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime \equiv A

3.5.3 估计量 \pmb b 的方差为 \sigma^2({\bf X}^\prime{\bf X})^{-1}

估计量 \pmb b 的方差为 \text{Var}(\pmb b|{\bf X})=\sigma^2({\bf X}^\prime{\bf X})^{-1}

证明\text{Var}(\pmb b|{\bf X})=\sigma^2({\bf X}^\prime{\bf X})^{-1}
\begin{split} \text{Var}(\pmb b|{\bf X}) &= \text{Var}(\pmb b - \pmb \beta|{\bf X})\\ &=\text{Var}(A\pmb \varepsilon|{\bf X}) \end{split}
在给定 \bf X 的条件下, A 是常数(因为它是 \bf X 的函数),可以提出来。使用夹心公式:
原式 = \text{Var}(A\pmb \varepsilon|{\bf X}) = A \text{Var}(\pmb \varepsilon|{\bf X}) A^\prime

使用球型扰动假设:
原式 = A \text{Var}(\pmb \varepsilon|{\bf X}) A^\prime = A \sigma^2 {\bf I} A^\prime
其中,\sigma 是常数,可以提出来则:
原式 = A \sigma^2 {\bf I} A^\prime = \sigma^2 AA^\prime
代入 A \equiv ({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime,马上就有:
\text{Var}(\pmb b|{\bf X})=\sigma^2({\bf X}^\prime{\bf X})^{-1}
证毕

3.5.4 高斯-马尔可夫定理

“高斯-马尔可夫定理”(Gauss-Markov Theorem):最小二乘法是最佳的线性无偏估计(Best Linear Unbiased Estimator,BLUE),即所有线性无偏估计中,最小二乘法的方差最小

证明:所有线性无偏估计中,最小二乘法的方差最小

假设 \hat{\pmb \beta} 为任意线性无偏估计,我们要证明的是:
\text{Var}(\hat{\pmb \beta}|{\bf X}) \geqslant \text{Var}(\pmb b|{\bf X}) \Rightarrow \left[\text{Var}(\hat{\pmb \beta}|{\bf X}) - \text{Var}(\pmb b|{\bf X})\right] 半正定
由于 \hat{\pmb \beta}线性估计,可以假设 \hat{\pmb \beta} = C_{K \times n} \pmb y 。由于 \pmb b = A\pmb y ,于是可以定义 D \equiv C - A ,那么:
\hat{\pmb \beta} = C\pmb y = (D+A)\pmb y = D\pmb y + A\pmb y = D({\bf X}\pmb \beta+\pmb \varepsilon) + \pmb b = D{\bf X}\pmb \beta + D\pmb \varepsilon + \pmb b
由于 \hat{\pmb \beta}无偏估计,所以有:
\pmb \beta = {\rm E}(\hat{\pmb \beta}|{\bf X}) = {\rm E}(D{\bf X}\pmb \beta + D\pmb \varepsilon + \pmb b|{\bf X}) = D{\bf X}\pmb \beta + D{\rm E}(\pmb \varepsilon|{\bf X}) + {\rm E}(\pmb b|{\bf X})
由于外生性,{\rm E}(\pmb \varepsilon|{\bf X})=0,而我们已经知道 {\rm E}(\pmb b|{\bf X})=\pmb \beta ,于是:
\pmb \beta = D{\bf X}\pmb \beta + D{\rm E}(\pmb \varepsilon|{\bf X}) + {\rm E}(\pmb b|{\bf X}) = D{\bf X}\pmb \beta + \pmb \beta
所以,为了满足无偏,必然有 D{\bf X}\pmb =0 ,于是 \hat{\pmb \beta} = \underbrace{D{\bf X}}_{=\pmb 0}\pmb \beta + D\pmb \varepsilon + \pmb b = D\pmb \varepsilon + \pmb b

那么我们可以计算抽样的误差为:
\hat{\pmb \beta} - \pmb \beta =D\pmb \varepsilon + (\pmb b - \pmb\beta) = D\pmb \varepsilon + A \pmb \varepsilon = (D+A)\pmb \varepsilon
于是可以计算方差 \text{Var}(\hat{\pmb \beta}|{\bf X}) 为:
\begin{split} \text{Var}(\hat{\pmb \beta}|{\bf X}) =\text{Var}(\hat{\pmb \beta} - \pmb \beta|{\bf X}) &= \text{Var}\left[(D+A) \pmb \varepsilon|{\bf X}\right]\\ 夹心公式&=(D+A)\text{Var}\left[\pmb \varepsilon|{\bf X}\right](D+A)^\prime\\ 球形扰动假设&=\sigma^2(D+A)(D^\prime+A^\prime)\\ &=\sigma^2(DD^\prime + \underbrace{DA^\prime}_{=\pmb 0} + \underbrace{AD^\prime}_{=\pmb 0} + AA^\prime)\\ &=\sigma^2[DD^\prime+({\bf X}^\prime {\bf X})^{-1} ] \end{split}
于是,我们有:
\text{Var}(\hat{\pmb \beta}|{\bf X}) - \text{Var}(\pmb b|{\bf X}) =\sigma^2[DD^\prime+({\bf X}^\prime {\bf X})^{-1} ] - \sigma^2({\bf X}^\prime {\bf X})^{-1} = \sigma^2 DD^\prime
由于 DD^\prime 半正定,所以高斯-马尔可夫定理成立。

证毕

证明DD^\prime 半正定。对任意 m\times n 维矩阵 D ,对任意 m 维列向量 X ,有:
X^\prime (D D^\prime) X = X^\prime D D^\prime X = (D^\prime X)^\prime (D^\prime X)=向量内积 \geqslant 0
所以 DD^\prime 半正定

证毕

3.5.5 扰动项的方差的无偏估计是 s^2

样本方差是无偏估计,即 {\rm E}(s^2|{\bf X}) = \sigma^2

证明的思路是直接展开 s^2 ,运用3.3节的概念,我们有:
{\rm E}(s^2|{\bf X}) = {\rm E}\left(\frac{\pmb e^\prime \pmb e}{n-K}\Bigg|{\bf X}\right) = \frac{1}{n-K}{\rm E}(\pmb \varepsilon^\prime \pmb M \pmb \varepsilon|{\bf X})
所以只需要证明:{\rm E}(\pmb \varepsilon^\prime \pmb M \pmb \varepsilon|{\bf X}) = (n-K)\sigma^2 就可以了。证明过程我们会用到的概念。

定义:任意方阵(trace)就是主对角线上的元素之和,记为 \text{trace}(A)

性质:迹的运算具有线性性,即:

  • \text{trace}(A+B)=\text{trace}(B+A)
  • \text{trace}(k \cdot A)=k\cdot\text{trace}(A)
  • \text{trace}(AB)=\text{trace}(BA)
  • 对一个标量 A\text{teace}(A)=A

证明:方差的无偏估计是 s^2
\begin{split} {\rm E}(\pmb \varepsilon^\prime \pmb M \pmb \varepsilon|{\bf X}) &= {\rm E}[\text{trace}(\pmb \varepsilon^\prime \pmb M \pmb \varepsilon)|{\bf X}]\\ &= {\rm E}[\text{trace}( \pmb M \pmb \varepsilon \pmb \varepsilon^\prime)|{\bf X}] \\ &=\text{trace}[{\rm E}( \pmb M \pmb \varepsilon \pmb \varepsilon^\prime)|{\bf X})] \\ &=\text{trace}[M\sigma^2{\bf I}] \\ &=\sigma^2 \text{trace}(M) \end{split}
接下来我们计证明 \text{trace}(M) = n-K 即可:
\begin{split} \text{trace}(M) &= \text{trace}[{\bf I} - {\bf X} \left({\bf X}^\prime {\bf X}\right)^{-1} {\bf X}^\prime]\\ &= \text{trace}({\bf I}) - \text{trace}[ \left({\bf X}^\prime {\bf X}\right)^{-1} {\bf X}^\prime{\bf X}]\\ &= \text{trace}({\bf I}^n) - \text{trace}[{\bf I}^K]\\ &=n - K \end{split}
其中, {\bf X}^\prime {\bf X} 是一个 K \times K 矩阵。所以,
{\rm E}(s^2|{\bf X}) = {\rm E}\left(\frac{\pmb e^\prime \pmb e}{n-K}\Bigg|{\bf X}\right) = \frac{1}{n-K}{\rm E}(\pmb \varepsilon^\prime \pmb M \pmb \varepsilon|{\bf X}) = \frac{n-K}{n-K} \sigma^2 = \sigma^2

证毕


本文小结

  1. 投影矩阵

P = {\bf X} \left({\bf X}^\prime {\bf X}\right)^{-1}{\bf X}^\prime

  1. 消灭矩阵

M = {\bf I}-P = {\bf I} -{\bf X} \left({\bf X}^\prime {\bf X}\right)^{-1}{\bf X}^\prime

  1. 残差写成总体扰动项 \pmb \varepsilon 的函数

\pmb e = M \pmb\varepsilon

  1. 残差平方和写成总体扰动项 \pmb \varepsilon 的函数

\text{SSR} =\pmb \varepsilon^\prime M \pmb \varepsilon

  1. 小样本OLS的线性性

\pmb b = ({\bf X}^\prime{\bf X})^{-1}{\bf X}^\prime \pmb y

  1. 小样本OLS的无偏性

{\rm E}(\hat{\pmb b}|{\bf X}) = \pmb \beta

  1. 小样本OLS估计量 \pmb b 的方差

\text{Var}(\pmb b|{\bf X})=\sigma^2({\bf X}^\prime{\bf X})^{-1}

  1. 高斯-马尔可夫定理(BLUE)

    假设任意一个线性无偏估计量,证明最小二乘法估计量的方差最小

  2. 扰动项的方差的无偏估计
    {\rm E}(s^2|{\bf X}) = \sigma^2

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。