ESL 3: Linear Methods for Regression

一个线性回归模型假设回归函数 E(Y|X) 对于输入 X 是线性的。
它的优势在于:

  • 简单
  • 能够表示每个输入对输出的影响
  • 输入可以进行变换
  • 他们有时候比复杂的方法更精准,尤其是在样本数量少、低信噪比或者稀疏矩阵的情形。

3.2 Linear Regression Models and Least Squares

p 维线性回归模型形式如下:

f(X) = \beta_0 + \sum_{j=1}^p X_j \beta_j

我们需要估计一组参数 \beta,使残差平方和(Residual Sum of Squares)最小:

\begin{align} \text{RSS}(\boldsymbol{\beta}) &= (\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )^T(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} ) \\ &= \boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{y}^T\boldsymbol{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{y} + \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta} \end{align}

其中,\boldsymbol{X} 是一个 N \times (p+1) 矩阵,\boldsymbol{y}N \times 1 观测值。

\beta 求导可以得到:

\frac{\partial \text{RSS}(\beta)}{\partial \beta} = -2 \boldsymbol{X}^T\boldsymbol{y} + 2\boldsymbol{X}^T\boldsymbol{X} \boldsymbol{\beta}

由于二阶导数正定,令一阶导数为 0 向量,得出极值点(即估计值):

\hat{\beta}= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

\hat{\boldsymbol{y}} = \boldsymbol{X} \hat{\beta} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

我们称 \boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 为估计矩阵("hat" matrix),它满足对称性和幂等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

\boldsymbol{X} 中某些列线性相关(即非满秩矩阵)时,(\boldsymbol{X}^T\boldsymbol{X}) 是奇异矩阵,它只能求广义逆矩阵,不止一个解。因此,我们需要将冗余的输入剔除掉,大部分求解软件都实现了这个功能。

估计参数的统计特性

为了确定估计的参数 \boldsymbol{\hat{\beta}} 的统计特性,我们假设:

  • 每个观测值 y_i 相互独立
  • y_i有固定的噪声 \varepsilon \sim N(0, \sigma^2)

那么估计值 \hat{\beta} 的方差为:

\text{Var}(\hat{\beta}) = (\boldsymbol{X}^T\boldsymbol{X})^{-1} \sigma^2

where :

\hat{\sigma}^2 = \frac{\text{RSS}}{N-p-1}= \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

证明

N 个 y 的观测值可以表示为:

\boldsymbol{y} = \boldsymbol{X}\beta + \boldsymbol{\varepsilon}

其中 \boldsymbol{\varepsilon}N \times 1 的噪声。因此有:
\begin{align} \hat{\beta} &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} \\ &= \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon} \end{align}

无偏性(期望值为 \beta):
E(\hat{\beta}) = \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}) = \beta

协方差矩阵(注意是\beta \beta^T 而非 \beta^T \beta,是一个矩阵):

\begin{align} \text{Var}(\hat{\beta}) &= E[(\beta - \hat{\beta})(\beta - \hat{\beta})^T] \\ &=E[(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T\boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}] \\ &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T) \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T \boldsymbol{I} \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1} \end{align}

可以得到:

\hat{\beta} \sim N(\beta, \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1})

下面来确定 \sigma^2

我们可以通过观测值 y 和预测值 \hat{y} 的差来得到噪声 \varepsilon

\begin{align} \boldsymbol{y - \hat{y}} &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} -\boldsymbol{X}\hat{\beta} \\ &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} - \boldsymbol{X}(\beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}) \\ &= (\boldsymbol{I -H} )\boldsymbol{\varepsilon} \end{align}

\begin{align} \sum_{i=1}^N(y_i - \hat{y_i})^2 &= (\boldsymbol{y - \hat{y}})^T (\boldsymbol{y - \hat{y}}) \\ &= \boldsymbol{\varepsilon}^T(\boldsymbol{I - H}) \boldsymbol{\varepsilon} \\ &= \sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} \end{align}

其期望值为:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= E[\sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} ] \\ &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \end{align}

由于 \varepsilon_i, \varepsilon_j 是独立的,当 i \neq j 时:
\text{Cov}(\varepsilon_i, \varepsilon_j) = E(\varepsilon_i \varepsilon_j) - E(\varepsilon_i)E(\varepsilon_j) = 0

因此:
\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \\ &= N\sigma^2 - E(\sum_{i=1}^{N}\varepsilon_i^2H_{ii}) \\ &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \end{align}

这里再利用公式:
\text{trace}(ABC) = \text{trace}(CAB)

得到:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X(X^TX)^{-1}X^T})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X^TX(X^TX)^{-1}}_{(p+1) \times (p+1)})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{I}_{(p+1) \times (p+1)})] \\ &= \sigma^2(N - p -1) \end{align}

因此,对 \sigma^2 的无偏估计就是:

\hat{\sigma}^2 = \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

模型误差的统计特性

由于我们对第 i 个样本的噪声 \varepsilon_i 无偏估计就是 \hat{\varepsilon_i} = y_i - \hat{y_i},我们计算其方差:

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}(\boldsymbol{y} - \hat{\boldsymbol{y}}) \\ &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \end{align}

由于 D(AX) = AD(X)A^T

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \\ &= (\boldsymbol{I} - \boldsymbol{H}) \text{Var}(\boldsymbol{\varepsilon}) (\boldsymbol{I} - \boldsymbol{H}) \end{align}

由于 \varepsilon \sim N(0, \sigma^2),因此:

\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{I}_{N \times N}

\boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 满足对称性和幂等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

因此有结论:

\text{Var}(\hat{\boldsymbol{\varepsilon}}) = \sigma^2 (\boldsymbol{I} - \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T)

显著性分析

当我们判断哪些参数可以忽略以降低模型复杂度时,我们可以使用 F-statistic 进行显著性分析。假设我们将 \beta 维度从 p_1 + 1 降低到 p_0 + 1

F = \frac{(\text{RSS}_0 - \text{RSS}_1) / (p_1 - p_0)}{\text{RSS}_1 / (N- p_1 -1)}

F-statistic 描述了每个被忽略的参数对 RSS 的平均贡献,用 \hat{\sigma}^2 进行了 normalize。

p_1 - p_0 =1 即仅去掉一个参数时(假设 \beta_j = 0),该公式可以简化为对应的 z-score 的平方,其中 z-score 为:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

证明

这个证明同时也是习题 3.1

Ex. 3.1 Show that the F statistic (3.13) for dropping a single coefficient from a model is equal to the square of the corresponding z-score (3.12).

实际上我们需要证明,在去掉模型的第 j 个参数后:

\text{RSS}_0 - \text{RSS}_1 = \frac{\hat{\beta}_j^2}{v_j}

上式中唯一未知的就是 \text{RSS}_0,它实质上是求一个带约束的优化问题:

\begin{align} \min_{\beta \in \mathbb{R}^{(p+1) \times 1}} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) \\ \text{s.t.} ~\beta_j = 0 \end{align}

我们可以用拉格朗日乘子法来解决。

L(\beta, \lambda) = (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) + \lambda e_j^T \beta

\beta 求导,并令导数为 0,有:

\frac{\partial L(\beta, \lambda)}{\partial \beta} = - 2\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda e_j = 0

解出:

\begin{align} \beta_0 &= (\textbf{X}^T\textbf{X})^{-1} \textbf{X}^T\textbf{y} - \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}- \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \end{align}

等式两边乘以 e_j^T,并带入\beta_j = 0,有:
\begin{align} e_j^T\beta_0 = 0 &= e_j^T \hat{\beta} + \frac{\lambda}{2} e_j^T(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}_j + \frac{\lambda}{2}v_j \end{align}

因此有:
\lambda = - \frac{2\hat{\beta}_j}{v_j}

带入可得:
\begin{align} \text{RSS}_0 &= (\textbf{y} - \textbf{X}\beta_0)^T(\textbf{y}-\textbf{X}\beta_0) \\ &= (\textbf{y} - \textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)^T(\textbf{y}-\textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j) \\ &= \text{RSS}_1 + \frac{\lambda}{2} [e_j^T(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) + (\textbf{y} - \textbf{X}\hat{\beta})^T \textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)] \\ &~~~~ + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\hat{\beta}_j^2}{v_j} \end{align}

其中,中间项可以消去的原因是:

\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) = \textbf{X}^T[\textbf{y} - \textbf{X}(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T\textbf{y}] = 0

直观理解,\textbf{X}\textbf{y} - \textbf{X}\hat{\beta} 是正交的,因为 \textbf{X}\hat{\beta} 正是 \textbf{y}\textbf{X} 所在平面上的投影。

3.2.2 The Gauss–Markov Theorem

最小二乘法得出的 \beta 在所有线性无偏估计中均方误差最小。当然,如果我们愿意为了进一步减小误差引入一点 bias,完全可能找到一个更小均方误差的有偏估计。

the least squares estimates of the parameters β have the smallest variance among all linear unbiased estimates

现在我们来证明这个结论。对于线性估计:
\boldsymbol{y} = \boldsymbol{X}\beta
\boldsymbol{y} 中的每一个元素都可以看作 \boldsymbol{X} 中的一行与向量 \beta 的线性组合。

无偏性

那么,针对无偏性,我们需要证明最小二乘法估计出的 \hat{\beta} 满足:

E(\alpha^T \hat{\beta}) = \alpha^T\beta

其中 \alpha 是任意向量。

\begin{align} E(\alpha^T \hat{\beta}) &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}) \\ &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{X} \beta) \\ &= \alpha^T \beta \end{align}

均方误差最小

Gauss–Markov theorem 指出,如果还存在其他线性估计 c^T \boldsymbol{y} 满足:
E(c^T \boldsymbol{y}) = \alpha^T\beta
那么必然有:

\text{Var}(\alpha^T \hat{\beta}) \leq \text{Var}(c^T \boldsymbol{y})

证明:

TBD

3.3 Subset Selection

最小二乘法的两个主要问题:

  • 预测精度。虽然它是无偏的,但是方差很大。如果我们忽略一部分模型参数,虽然会变成有偏估计,但是可能会极大提高精度。
  • 可解释性(即模型复杂度)。当模型参数很多时,我们想去确定一小部分具有最大影响的模型参数,为此我们愿意牺牲一部分无关紧要的参数。

因此,我们需要选取变量子集,即“model selection”。

3.3.1 Best-Subset Selection

最佳子集是指从所有具有 k (k <= p) 个变量的子集中,RSS 最小的那个。

当然,最简单的方式就是从遍历所有的组合。这样做的复杂度是 2^p,只适用于小规模的问题。

3.3.2 Forward- and Backward-Stepwise Selection

“前向逐步选择”是一种贪心算法。它按顺序加入最能提高拟合度的参数。它虽然不一定找到最优解,但是它优势在于:

  • 运算量小。当维度 p >= 40 时,几乎无法算出最优解。但是依旧可以用 forward stepwise selection (即使维度 p 大于样本数 N)。
  • 方差小。最优子集方差比 forward stepwise selection 大,虽然后者可能会有一定的 bias。
Subset selection

那么如何选择“最能提高拟合度“的参数呢?我们在之前“显著性分析”中已经证明了,去掉一个参数对残差的影响为其 z-score 的平方。那么,我们直接从 z-score 最大的参数开始依次加入即可。第 j 个参数的 z-score 可以由于下式计算:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

“后向逐步选择” 与 “前向逐步选择“相反。它从全集开始,依次去掉最无关紧要的变量(z-score 最小的)。它只能用于样本数 N 大于维度 p 的情形。

3.4 Shrinkage Methods

Subset selection 确实可以帮我们简化模型,并且还可能降低误差。但是,因为它是一个离散的过程(参数要么被丢弃要么被保留,没有中间状态),它通常具有较大的方差。Shrinkage methods 更加连续,因此具有更好的性能。

3.4.1 Ridge Regression

Ridge Regression 通过给参数数量增加一个惩罚项来降低模型复杂度。它的优化目标:

\hat{\beta} = \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2

这里的 \lambda 控制模型“缩小”的程度,\lambda 越大,得到的模型复杂度越低。

值得注意的是,惩罚项中不包含常数项 \beta_0,否则模型不稳定。当选取 y_i = y_i + c 时,预测值 \hat{y}_i 的变化量不是 c

与经典的 Linear Regression 不同,Ridge Regression 要求输入 \textbf{X}, \textbf{y} 是经过了中心化 (centering) 的。并且,这里的模型参数 \betap 维而不是 p+1 维的。

下面我们来证明这一点。

\beta_0 由于不含 \lambda,可以单独优化。我们先对 \beta_0 求导,并令导数为0:

\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j) = 0

得到:
\beta_0 = \frac{1}{N}(\sum_{i=1}^N y_i - \sum_{i=1}^N \sum_{j=1}^{p} x_{ij}\beta_j)

\overline{x_j} = \frac{1}{N} \sum_{i=1}^N x_{ij},有:

\beta_0 = \frac{1}{N}\sum_{i=1}^N y_i - \sum_{j=1}^{p} \overline{x_{j}} \beta_j

我们以下的变形主要是为了将优化目标函数写成矩阵乘法形式,以进行运算。

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \\ &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p \overline{x_j}\beta_j - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \end{align}

现在我们令:

\begin{align} \beta_0^c &= \beta_0 + \sum_{j=1}^p \overline{x_j}\beta_j =\frac{1}{N} \sum_{i=1}^N y_{i} \\ \beta_j^c&= \beta_j & (j>=1) \end{align}

可以得出:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i - \beta_0^c - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j^c)^2 + \lambda \sum_{j=1}^p {\beta_j^c}^2 \end{align}

我们再令:

\begin{align} y_i^c &= y_i - \beta_0^c = y_i - \frac{1}{N} \sum_{i=1}^N y_i \\ x_{ij}^c&= x_{ij} - \overline{x_j} & (j >=1) \end{align}

有:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i^c - \sum_{j=1}^p (x_{ij}^c \beta_j^c)^2) + \lambda \sum_{j=1}^p {\beta_j^c}^2 \\ &=\mathop{\arg \min}_{\beta} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y} - \textbf{X}\beta) + \lambda(\beta^T\beta) \end{align}

其中,\textbf{X}, \textbf{y}, \beta 都经过了中心化,并且是 p 维的。

该式对 \beta 求导并令导数为 0,有:

-\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda \beta = 0

解得:

\beta = (\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y}

我们看到,即使 \textbf{X}^T\textbf{X} 是非满秩的,由于多加了一个 \lambda \textbf{I},它仍是一个可逆矩阵。这也是 ridge regression 的另一个优势。

Ridge Regression and SVD

奇异值分解 (singular value decomposition, SVD) 将一个矩阵分解为三个矩阵的乘积:

\textbf{X}_{N \times p} = \textbf{U}_{N \times N} \mathbf{\Sigma}_{N \times p} \textbf{V}^T_{p \times p}

其中:

  • \textbf{U}_{N \times N} 是一个单位正交矩阵,在 \mathbb{R}^{N \times N} 空间。它代表了旋转(rotation)
  • \mathbf{\Sigma}_{N \times p} 是一个对角矩阵,但是不一定是方阵。它代表拉伸(scaling)
  • \textbf{V}^T_{p \times p} 是一个单位正交矩阵,在 \mathbb{R}^{p \times p} 空间。它代表旋转(rotation)

对于普通的线性回归,有:

\begin{align} \hat{y} = \textbf{H}y &= \textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^Ty \\ &= \textbf{U}\mathbf{\Sigma}\textbf{V}^T(\textbf{V}\mathbf{\Sigma}^T\mathbf{\Sigma}\textbf{V}^T)^{-1} \textbf{V}\mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\mathbf{\Sigma} (\mathbf{\Sigma}^T\mathbf{\Sigma})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\textbf{U}^T y \end{align}

而对于 ridge regression,有:

\begin{align} \hat{y} &= \textbf{X}(\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y} \\ &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \end{align}

假设 SVD 分解的奇异值为 \sigma_1, \sigma_2, ... , \sigma_p,我们有:

\begin{align} \hat{y} &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \sum_{j=1}^p \textbf{u}_j \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \textbf{u}_j^T \textbf{y} \end{align}

其中 \textbf{u}_j 表示矩阵 \textbf{U} 的第 j 列。

因此,从直观意义上理解,ridge regression 相比普通的 regression 就是对 \textbf{U} 的每一列附加了一个系数 \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \leq 1。这个系数与该列对应的奇异值相关。而我们在 SVD 定义中知道 \sigma_j 代表了在 \textbf{u}_j 方向的缩放系数。显然,\frac{\sigma_j^2}{\sigma_j^2 + \lambda}\sigma_j 越小时,shrinkage 越大。因此,直观理解,ridge regression 会倾向于忽略输入 \textbf{X} 方差较小的方向。

the small singular values correspond to directions in the column space of X having small variance, and ridge regression shrinks these directions the most.

这是个比较合理的假设,一般情况下,我们对于样本中几乎一样的输入参数并不是很关心.

Reference

  1. ESL solution
  2. ESL Chinese
  3. Simple Linear Regression
  4. Proofs involving ordinary least squares
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容