高级计量经济学 1：绪论、微积分、线性代数

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括代码和正文）做了修改。

仅供学习参考，请勿转载，侵删！

本文目录：

1 绪论
- 1.1 什么是计量经济学
- 1.2 经济数据的特点与类型
2 数学工具
- 2.1 微积分
  - 2.1.1 导数
  - 2.1.2 一元最优化
  - 2.1.3 偏导数
  - 2.1.4 多元最优化
  - 2.1.5 积分
- 2.2 线性代数*
  - 2.2.1 矩阵
  - 2.2.2 方阵、对称阵、单位阵
  - 2.2.3 转置
  - 2.2.4 向量、内积
  - 2.2.5 矩阵的加法
  - 2.2.6 矩阵的数乘
  - 2.2.7 矩阵的乘法
  - 2.2.8 线性方程组
  - 2.2.9 逆
  - 2.2.0 秩、线性无关
  - 2.2.11 二次型、(半)正定

$\S \text{ 第 1 章 } \S$

$\text{绪论}$

1 绪论

1.1 什么是计量经济学

“计量经济学”，Econometrics，也叫“经济计量学”。就是运用概率统计的方法对经济变量之间的（因果）关系进行定量分析的科学。由于实验数据的缺乏，计量经济学常常不足以确定经济变量之间的因果关系。

学习计量经济学的时候很有必要时时以“因果关系”作为思考的框架与指引。计量分析必须建立在经济理论的基础上进行。

考虑一个例子，考虑决定教育投资回报率的因素：
$\ln W_i = \alpha + \beta S_i + \varepsilon_i$
其中：

$\ln W$ 为工资收入的自然对数，为“被解释变量”
$S$ 为受教育年限，为“解释变量“
$\varepsilon$ 为随机扰动项

如果直接对这个模型进行回归，效果必然不错。但是，影响工资的因素还可能包含其他诸如个人能力等等因素，能力厉害的人通常选择接受更多的教育，所以教育的高回报其实包含了对能力的回报。

另外，影响工资收入的因素还有更多，所以我们还需要引入更多的控制变量，采用多元回归的方法，才能够比较准确地估计我们感兴趣的参数 $\beta$ ，这就相当于冲淡单一变量的效应。另外，现实中总存在某些无法观测到变量，即存在遗漏变量，而这些遗漏变量统统被纳入随机扰动项 $\varepsilon_i$ 中去了。

1.2 经济数据的特点与类型

由于经济学无法像自然科学意义做控制实验，所以经济数据一般不是实验数据，而是自然发生的观测数据。由于个人行为的随机性，所以经济变量原则上都是随机变量。所以，在本教材（笔记）中，所有变量都是随机的，即便是非随机的常数也可以被看作是退化的随机变量。

经济数据按照其性质，可以分为：

横截面数据（cross-sectional data）：多个经济体的变量在同一时点上的取值
时间序列数据（time series data）：某个经济体的变量在不同时点上的取值
面板数据（panel data）：多个经济个体的变量在不同时点上的取值

$\S \text{ 第 2 章 } \S$

$\text{数学工具}$

2 数学工具

2.1 微积分

2.1.1 导数

对于一元函数 $y=f(x)$ ，一阶导数（first derivative）定义为：
$\frac{d y}{d x} \equiv f^{\prime}(x) \equiv \lim _{\Delta x \rightarrow 0} \frac{\Delta y}{\Delta x} \equiv \lim _{\Delta x \rightarrow 0} \frac{f(x+\Delta x)-f(x)}{\Delta x}$
可以定义 $f^\prime(x)$ 的导数为二阶导数：
$\frac{d^{2} y}{d x^{2}} \equiv f^{\prime \prime}(x) \equiv \frac{d\left(\frac{d y}{d x}\right)}{d x} \equiv\left[f^{\prime}(x)\right]^{\prime}$
直观上，二阶导数表示切线的斜率的变化速度，即曲线 $f(x)$ 的弯曲程度，也称为曲率。

2.1.2 一元最优化

计量中常见的两种估计方法为最小二乘法与极大似然估计，二者都是最优化问题（optimization）。前者为最小化问题（minimization），后者为最大化问题（maximization）。

考虑无约束一元最大化问题：
$\max_x f(x)$
则一阶条件， $\text{F.O.C.}$ （First Order Condition）为：
$f^\prime(x^\star)=0$
除了一阶条件外，还需要满足二阶条件：
$\left\{ \begin{align} f^{\prime\prime}(x^\star) \leq 0, \quad \text{最大化问题}\\ f^{\prime\prime}(x^\star) \geq 0, \quad \text{最小化问题} \end{align} \right.$
一般满足一阶条件以后还必须看看二阶条件。

2.1.3 偏导数

对于多元函数 $y = f(x_1,\cdots,x_n)$ ，定义 $y$ 对于 $x_i$ 的偏导数（partial derivative）为：
$\frac{\partial y}{\partial x_{1}} \equiv \frac{\partial f\left(x_{1}, x_{2}, \cdots, x_{n}\right)}{\partial x_{1}} \equiv \lim _{\Delta x_{i} \rightarrow 0} \frac{f\left(x_{1}+\Delta x_{1}, x_{2}, \cdots, x_{n}\right)}{\Delta x_{1}}$
在计算 $y$ 对于 $x_i$ 的偏导数时，只要把 ${x_j},j \ne j$ 当成常数即可。在经济学中，偏导数代表边际效应。

2.1.4 多元优化

考虑无约束多元最大化问题：
$\max _{\rm x} f(\rm \pmb x) \equiv f\left(x_{1}, x_{2}, \cdots, x_{n}\right)$
其中， ${\mathbf x} \equiv (x_1,\cdots, x_n)$ ，那么一节条件要求在最优值 ${\mathbf x}^\star$ 处，所有偏导数为0:
$\frac{\partial f\left(\mathbf{x}^{*}\right)}{\partial x_{1}}=\frac{\partial f\left(\mathbf{x}^{*}\right)}{\partial x_{2}}=\cdots=\frac{\partial f\left(\mathbf{x}^{*}\right)}{\partial x_{n}}=0$
此一节条件要求在最优值 ${\mathbf x}^\star$ 处，曲面 $f({\mathbf x})$ 在各个方向的切线斜率都为0。

2.1.5 积分

考虑连续函数 $y=f(x)$ 在区间 $[a,b]$ 上的面积。将区间划分成 $n$ 等分，即 $[a,x_1],(x_1,x_2],\dots,(x_{n-1},b]$ ，每个区间的长度为 $\Delta x \equiv \frac{b-a}{n}$ 从每个区间 $(x_{i-1},x_i]\quad(i=1,\cdots,n)$ 中任取一点 $\xi_i$ ，则此面积近似为：
$\sum_{i=1}^{n} f\left(\xi_{i}\right) \Delta x_{0}$
不断细分这些区间，让 $n \to \infty$ ，可得此面积精确值，即函数 $f(x )$ 在区间 $[a,b]$ 上的定积分为：
$\int_a^b f(x)dx \equiv \lim_{n \to \infty} \sum_{i=1}^n f(\xi_i) \Delta x$
在极限处，将 $\Delta x$ 记为 $dx$ ，将求和符号 $\sum$ 记为 $\int$ 。积分的实质就是求和。

2.2 线性代数

2.2.1 矩阵

将 $m \times n$ 个实数排列成如下的矩形数阵，
${\mathbf A} \equiv \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right]$
则称 $\mathbf A$ 为 $m\times n$ 矩阵（matrix）。而且：

$\mathbf A$ 中元素 $a_{ij}$ 表示矩阵 $\mathrm A$ 的第 $i$ 行、第 $j$ 列元素
矩阵 $\mathbf A$ 有时候也记为 ${\mathbf A}_{m \times n}$ ，以强调矩阵的维度
如果 $\forall i,j,\quad a_{ij}=0$ ，那么称 $\mathbf A$ 为零矩阵，记为 $\mathbf 0$
$\mathbf 0$ 在矩阵运算中的作用，相当于实数 $0$ 在标量运算中的作用

2.2.2 方阵、对称阵、单位阵

如果 $m=n$ ，则称 $\mathbf A$ 为 $n$ 阶方阵（square matrix），即：
${\mathbf A} \equiv \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{matrix} \right]$
而且：

称 $a_{ii}$ 为主对角线上的元素
称 $a_{ij}, i\ne j$ 为非主对角线上的元素
如果满足 $\forall i,j =1,\cdots,n: a_{ij}=a_{ji}$ ，那么就称 $\mathbf A$ 为方阵

如果 $\mathbf A$ 为方阵且非主对角线上的元素均为0，那么就称 $\mathbf A$ 为对角矩阵：
${\mathbf A} \equiv \left[ \begin{matrix} a_{11} & 0 & \cdots & 0\\ 0 & a_{22} & \cdots & 0\\ \vdots & \vdots & \vdots & \vdots\\ 0 & 0 & \cdots & a_{nn} \end{matrix} \right]$
更有甚者，如果对角矩阵 $\mathbf A$ 主对角线上的元素 上的元素均为 $1$ ，那么称为单位矩阵，记为：
${\mathbf I} \equiv {\mathbf I_n} \equiv \left[ \begin{matrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{matrix} \right]$
${\mathbf I}$ 在矩阵运算中的作用，相当于实数 $1$ 在标量运算中的作用。

2.2.3 转置

如果将矩阵 ${\mathbf A}=(a_{ij})_{m\times n}$ 的行与列交换，就得到了其转置矩阵，记为 ${\mathbf A}^\prime$ ，其维度为 $n\times m$ 。

如果 ${\mathbf A}$ 为对称矩阵，那么： $\mathbf A^\prime = \mathbf A$
$(\mathbf A^\prime)^\prime \equiv \mathbf A$

2.2.4 向量、内积

向量是矩阵的特例，对矩阵 $\mathbf A_{m\times n}$ ，如果：

$m=1$ ，称为行向量（row vector）
$n=1$ ，称为列向量（column vector）

如无意外，本教材所有向量都是列向量。考察 $n$ 维向量 $\mathbf a=(a1\,\cdots\,a_n)^\prime$ 和 $\mathbf b=(b1\,\cdots\,b_n)^\prime$ ，定义向量 $\mathbf a$ 和向量 $\mathbf b$ 的内积（或点积）为：
$\mathbf a^\prime \mathbf b \equiv [a_1\,a_2\,\cdots\,a_n]\left[ \begin{matrix} b_1\\ b_2\\ \vdots \\ b_n \end{matrix} \right] \equiv a_1b_1 + a_2b_2 + \cdots + a_nb_n = \sum_{i=1}^n a_ib_i$
任何形如 $\sum\limits_{i=1}^n a_ib_i$ 都可以写成向量内积 $\mathbf a^\prime \mathbf b$ 的形式。例如平方和 $\sum\limits_{i=1}^n a_i^2$ 就可以写成：
$\mathbf a^\prime \mathbf a = \sum\limits_{i=1}^n a_i^2$

2.2.5 矩阵的加法

如果两个矩阵维度相同，就可以相加。只需要将对位的元素加起来就可以了：
$\mathbf{A + B} \equiv (a_{ij})_{m \times n} + (b_{ij})_{m \times n} \equiv (a_{ij} + b_{ij})_{m \times n}$
矩阵加法满足以下性质：

$\mathbf{A +0 = A}$ ：加上 $\mathbf 0$ 不变
$\mathbf{A + B = B + A}$ ：交换律
$\mathbf{(A + B) + C= A + (B+C)}$ ：结合律
$\mathbf{(A + B)^\prime = A^\prime + B^\prime}$ ：加法转置

2.2.6 矩阵的数乘

矩阵 $\mathbf{A } = (a_{ij})_{m \times n}$ 与实数 $k$ 数乘（scalar multiplication）定义为此实数 $k$ 乘以任何 $(a_{ij})$ ：
$k\mathbf A \equiv k(a_{ij})_{m \times n} \equiv (k \cdot a_{ij})_{m \times n}$

2.2.7 矩阵的乘法

如果 $\mathbf A$ 的列数和 $\mathbf B$ 的行数相同，则可以定义矩阵的乘法： $\mathbf{A \times B} \equiv \mathbf {AB}$ 为：
$\mathbf{(AB)}_{ij} \equiv [a_{i1}\,a_{i2}\,\cdots\,a_{in}]\left[ \begin{matrix} b_{1j}\\ b_{2j}\\ \vdots \\ b_{nj} \end{matrix} \right] \equiv \sum_{k=1}^n a_{ik}b_{kj}$
也即 $\mathbf {AB}$ 是 $\mathbf A$ 第 $i$ 行与 $\mathbf B$ 第 $j$ 列的内积有以下性质：

一般来说： $\mathbf {AB} \ne \mathbf {BA}$ ，所以要区分左乘和右乘
$\mathbf {IA=A,\,\, AI=A}$ ：乘以 $\mathbf I$ 不变
$\mathbf {(AB)C} = \mathbf {A(BC)}$ ：结合律
$\mathbf {A(B+C)} = \mathbf {AB+AC}$ ：分配律
$\mathbf {(AB)^\prime} = \mathbf {B^\prime A^\prime, \, (ABC)^\prime = C^\prime B^\prime A^\prime}$ ：乘法转置

2.2.8 线性方程组

考虑 $n$ 个方程， $n$ 个未知数构成的线性方程组：
$\left\{ \begin{align} &a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1\\ &a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2\\ &\dots \\ &a_{n1}x_1 + a_{n2}x_2 + \cdots + a_{nn}x_n = b_1\\ \end{align} \right.$
其中， $(x_1 \, x_2 \, \cdots \, x_n)$ 为未知数。根据2.2.7的乘法定义，我们记：
$\underbrace{ \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{matrix} \right]}_\mathbf{A} \underbrace{\left[ \begin{matrix} x_1\\ x_2\\ \vdots \\ x_n \end{matrix} \right]}_\mathbf{x} = \underbrace{\left[ \begin{matrix} b_1\\ b_2\\ \vdots \\ b_n \end{matrix} \right]}_\mathbf{b}$
则上述方程可以简便地写成 $\mathbf{Ax=b}$ ，如果 $\mathbf A$ 可逆，则可以求解：
$\mathbf{x = A^{-1}b}$

2.2.9 逆

对于 $n$ 阶方阵 $\mathbf A$ ，如果存在 $n$ 阶方阵 $\mathbf B$ 使得满足 $\mathbf{AB=BA=I}$ ，那么就说 $\mathbf A$ 是可逆矩阵（invertible matrix）或非退化矩阵（nonsingular matrix），而 $\mathbf B$ 是 $\mathbf A$ 的逆矩阵，记 $\mathbf A^{-1}$ ，则：

$\mathbf{(A^{-1})^{-1}=A}$ ：逆的逆是自己
$\mathbf{\det(A) \equiv |A| }\ne 0$ ：非奇异
$\mathbf A^{-1}$ 是唯一的
$\mathbf{(A^{\prime})^{-1}=(A^{-1})^\prime}$ ：求逆和转置可以交换次序
$\mathbf{(AB)^{-1} = B^{-1}A^{-1}, \quad (ABC)^{-1}=C^{-1}B^{-1}A^{-1}}$ ：求逆乘积

2.2.10 秩、线性无关

一个关于秩的不严谨定义：一个向量组可以表达的信息的最高维度。

矩阵 $\mathbf A$ 的秩为 $\text{rank}(\textbf A)=n$ 的数学意义是一组向量能最多够表达 $n$ 维空间的信息。

比如，考虑 $n$ 维列向量 $\mathbf a_1$ 和 $\mathbf a_2$ ，如果正巧 $\mathbf a_1$ 是 $\mathbf a_2$ 的固定倍数，那么在向量组 $\mathbf{\{a_1, a_2\}}$ 中，真正含有信息的其实只是一个向量，即这个向量组至多能够表达1个维度的信息。

更一般地，对 $K$ 个 $n$ 维向量组 $\mathbf{\{a_1, a_2, \cdots,} \mathbf{a}_K \mathbf\}$ 如果存在 $c_1, c_2, \cdots,c_K$ 不全为0，使得：
$\sum_{i=1}^K c_i \mathbf{a}_i = 0$
那么就说向量组 $\mathbf{\{a_1, a_2, \cdots,} \mathbf{a}_K \mathbf\}$ 线性相关（linearly dependent）。说白了就是，这 $K$ 向量所包含的信息实际上不足以表达一个 $K$ 维的空间。或者说，有一些向量是多余的，因为它可以被其他向量表达出来。反过来，如果有如下逻辑关系：
$\sum_{i=1}^K c_i \mathbf{a}_i = 0 \Longrightarrow c_1=c_2=\cdots=c_K=0$
那么就说向量组 $\mathbf{\{a_1, a_2, \cdots,} \mathbf{a}_K \mathbf\}$ 线性无关（linear independent）。也就是说，这 $K$ 个向量没有一个多余，它们谁也不能替代谁，从而在一起可以表达一个 $K$ 维空间的信息。

对于 $m\times n$ 矩阵 $\mathbf A$ ，可以将其 $n$ 个列向量看成是一个向量组，称此向量组的秩为矩阵 $\mathbf A$ 的列秩；同理可以定义行秩。需要知道，矩阵的列秩和行秩必然相等，统称为矩阵的秩。

2.2.11 二次型、(半)正定*（重点！）

对于 $n$ 维列向量 $\mathbf x = [x_1 \, x_2 \, \cdots \, x_n]^\prime$ ，如何度量它与 $\mathbf 0$ 的距离呢？最简单的方法就是欧几里得距离（Euclidean distance），即内积：
$x_1^2 + x_2^2 + \cdots + x_n^2 = [x1 \: x2 \: \cdots \: x_n] \left[ \begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right] = \mathbf{x^\prime x}$
为了后面看的更加清楚，写成：
$[x1 \: x2 \: \cdots \: x_n] \left[ \begin{matrix} 1 & 0 & \dots & 0\\ 0 & 1 & \dots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right] = \mathbf{x^\prime I x}$
在这里， $\mathbf I$ 相当于给每一个 $x_i^2$ 相同的权重。如果允许不同的权重，就可以使用任意的一个对称矩阵 $\mathbf A$ ，构成如下的二次型（quadratic form）：
$f(x_1,\cdots,x_n)=[x1 \: x2 \: \cdots \: x_n] \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{12} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{1n} & a_{2n} & \cdots & a_{nn} \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right] = \mathbf{x^\prime A x} = \sum_{i=1}^n \sum_{j=1}^n a_{ij}x_ix_j$
那么这个函数 $f$ 就称为一个二次型。说白了二次型就是一个二次齐次的多项式函数，对称矩阵 $\mathbf A$ 的功能就是给给定每个二次型 $x_ix_j$ 前面的系数 $a_{ij}$ ，或者说给定它们一个在计算距离（如果需要除以 $\sum_{i=1}^n \sum_{j=1}^n a_{ij}$ 求平均距离的话）时的权重。

对任意一个二次齐次的多项式函数（现在开始我们叫二次型），都可以写成 $\mathbf{x^\prime A x}$ 的形式，这是显然的，因为 $\sum_{i=1}^n \sum_{j=1}^n a_{ij}x_ix_j$ 遍历了所有 $x_ix_j$ 的组合。

问题是，距离一定要是正的嘛，我们如何确定函数 $f$ 这个二次齐次的多项式函数（叫二次型！！！）一定是一个正数呢？于是就有了正定矩阵的定义：

如果对称矩阵 $\mathbf A$ 必然满足使得二次型 $f$ 必正，就说 $\mathbf A$ 是一个正定矩阵
如果对称矩阵 $\mathbf A$ 必然满足使得二次型 $f$ 必非负，那么称 $\mathbf A$ 是一个半正定矩阵
同理还有负定矩阵和半负定矩阵

性质：如果对称矩阵 $\mathbf A$ 正定，则该矩阵可以通过线性变换转换为一个主对角线上元素全部为正数的对角矩阵 $\mathbf B$ ；则这些对角线元素正好是对称矩阵 $\mathbf A$ 的特征值，故正定矩阵一定可逆。

更进一步，如果 $\mathbf A$ 通过线性变换变成 $\mathbf B$ ，就会使得多项式函数只保留 $x_i^2$ ，而不存在 $x_ix_j$ 这样的交叉项，那么 $f(·) = \sum_{i=1}^n a_{ii}x_i^2$ 必然为正！

回到权重的问题。既然对称矩阵 $\mathbf A$ 的功能是给二次型一个权重，那么计量上什么时候会用到这个呢？

计量上经常使用形如
$\mathbf{x^\prime [Var(x)]^{-1}x}$
这样的二次型。其中， $\mathbf x$ 是 $n$ 维随机变量，而 $\mathbf{[Var(x)]^{-1}}$ 是其协方差矩阵的逆（相当于做分母）。这个二次型的直观含义是，将 $\mathbf x$ 到 $\mathbf 0$ 的距离标准化，以避免 $\mathbf x$ 收到单位的影响，而且标准化后的距离用“标准差距离”衡量。比如我们会说” $\mathbf x$ 偏离 $\mathbf 0$ 的距离足足有3个标准差“，这对假设检验至关重要！

高级计量经济学 1：绪论、微积分、线性代数

高级计量经济学 1：绪论、微积分、线性代数

高级计量经济学 1：绪论、微积分、线性代数

1 绪论

1.1 什么是计量经济学

1.2 经济数据的特点与类型

2 数学工具

2.1 微积分

2.1.1 导数

2.1.2 一元最优化

2.1.3 偏导数

2.1.4 多元优化

2.1.5 积分

2.2 线性代数

2.2.1 矩阵

2.2.2 方阵、对称阵、单位阵

2.2.3 转置

2.2.4 向量、内积

2.2.5 矩阵的加法

2.2.6 矩阵的数乘

2.2.7 矩阵的乘法

2.2.8 线性方程组

2.2.9 逆

2.2.10 秩、线性无关

2.2.11 二次型、(半)正定*（重点！）

相关阅读更多精彩内容

友情链接更多精彩内容