线性回归学习笔记

线性回归 Linear Regression

一. 最小二乘法及其集合意义

1.1 问题展示

1.2 数据集的矩阵表示

D = {(x_1, y_1), ..., (x_i, y_i)}
X_i \in R^p, Y \in R, i = 1 ... N
X = (x_1 x_2 ... x_n)^T = \begin{pmatrix} x_1^T \\\\ x_2^T \\\\ ... \\\\x_N^T \end{pmatrix} = \begin{pmatrix} x_11 & x_12 & ... & x_1p \\\\ x_21 & x_22 & ... & x_2p \\\\ ... & ... & ... & ... \\\\ x_N1 & x_N2 & ... & x_Np \end{pmatrix}
Y = \begin{pmatrix} y_1 \\\\ y_2 \\\\ ... \\\\ y_N \end{pmatrix}

1.3 最小二乘估计

L(\omega) = \sum_{i = 1}^N \parallel\omega^Tx_i - y_i \parallel^2 = \sum_{i = 1}^N (\omega^Tx_i - y_i)^2 \\\\ = (\omega^Tx_1 - y_1 \omega^Tx_2 - y_2 ... \omega^Tx_N - y_N) \begin{pmatrix}\omega^Tx_1 - y_1 \\\\ \omega^Tx_2 - y_2 \\\\ ... \\\\ \omega^Tx_N - y_N \end{pmatrix} \\\\ = \omega^T(x_1 x_2 ... x_N) - (y_1 y_2 ... y_N) \\\\ = (\omega^TX^T - Y^T)(\omega - Y)
L(\omega) = (\omega^TX^T - Y^T)(X\omega - Y) \\\\ = \omega^TX^TX\omega - \omega^TX^TY - Y^TX\omega + Y^TY
由于四项均为一维数值,且中间两项的矩阵形式互逆,因此中间两项数值相等,可以约去为
L(\omega) = \omega^TX^TX\omega - 2\omega^TX^TY + Y^TY
因此可得,
\hat{w} = argmin L(\omega)
\frac{\alpha L(\omega)}{\alpha\omega} = 2 X^TX\omega - 2X^TY = 0
最终求得
\hat{\omega} = (X^TX)^-1X^TY
其中(X^TX)^-1X^T称为X的伪逆,可直接通过编程套件求出

1.4 p维子空间的视角

加入我们以这样的视角来看f(\omega)
f(\omega) = \omega^Tx = x^T\beta
那么每个x是一个(1 x p) 的向量,整个X^T矩阵则可以看作是一个p维的子空间(p x N).
Y则可以看作是在这个p维空间之外的一个向量. 这是因为f(x^T\beta)是关于x^T的线性组合,一定也位于这个p维子空间内。而由于噪声和不确定性的存在,Y不可能与某一个任何一个f(x^T\beta)完全重合,因此一定在该子空间外部。
此时最优化的目标就是最小化噪声和不确定性,即最小化Y与子空间的距离,那么所求的\hat{\beta}一定位于Y在该平面的投影上(这里的这名目前还不是很清晰), 那么Y在平面上的法向量为X^T(Y - X\beta). 由于法向量一定垂直于任何一维,最终可以得到
X^T(Y - X\beta) = 0
最终得
\hat{\beta} = (X^TX)^-1X^TY
因此从几何角度来看是一样的。

二. 最小二乘法的概率视角

2.1 定义噪声

设噪声为
\epsilon \sim N(0, \sigma^2)
则实际的y值可理解为\hat{y}加上噪声,即
y = f(\omega) + \epsilon
其中
f(\omega) = \omega^Tx
由于\epsilon服从正态分布,我们可以认为关于\epsilon的线性变换也服从正太分布,即
y\vert x,\omega \sim N(\omega^Tx, \sigma^2)
因此可得概率密度函数
P(y \vert x; \omega) = \frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}

2.2 极大似然估计

由上节的概率密度函数,可得Y的似然函数
L(\omega) = logP(Y\vert X; W) \\\\ = log\prod_{i=1}^NP(y_i\vert x_i; \omega) \\\\ = \sum_{i=1}^NlogP(y_i\vert x_i; \omega) = \sum_{i=1}^Nlog (\frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}) \\\\ = \sum_{i=1}^N(log\frac{1}{\sqrt{2} \sigma} - \frac{1}{2\sigma^2} (y_i - \omega^Tx_i)^2)
因此可以根据极大似然法求得\omega的最优解
\hat{\omega} = argmax_{\omega} L(\omega)
经化简可得
\hat{\omega} = argmin_{\omega}(y_i - \omega^Tx_i)
与最小二乘法一致,因此得证

2.3 结论

最小二乘估计等价于噪声为高斯分布的极大似然估计
LSE \Leftrightarrow MLE \ (noise \ is \ Gaussian)

三. 线性回归的正则化

3.1 引入正则化的原因

\hat{\omega} = (X^TX)^-1X^TY
其中(X^TX)^-1 部分在很多情况下是不可逆的,往往是因为不满足N >> p。本质上还是样本数据相对于维度太少。
从计算上讲是不可求逆,从现象上将式过拟合
因此需要引入正则化

3.2 正则化的基本框架

argmin_{\omega} L(\omega) + \lambda P(\omega)
第一项为损失函数,第二项为惩罚项

3.3 lasso正则化

3.4 ridge正则化

P(\omega) = \omega^T \omega
J(\omega) = \sum_{i = i}^N \parallel \omega^Tx_i - y_i \parallel^2 + \lambda \omega^T \omega
采用矩阵形式化简,得
\hat{\omega} = argmin_{\omega} J(\omega)
经化简和求导,得
\hat{w} = (X^TX + \lambda I)^-1X^TY
由于X^TX是一个半正定矩阵,它加上一个对角矩阵就一定是一个正定矩阵,因此一定可求逆。
X^TX + \lambda I的数学形式看,L2正则化又名“权值衰减正则化”

四. L2正则化的概率视角

4.1 前提假设

由上文所述,标准LSE等同于噪音为Gaussian的MLE,因此已知
y\vert x,\omega \sim N(\omega^Tx, \sigma^2)
P(y \vert x; \omega) = \frac{1}{\sqrt{2} \sigma} \exp^{\frac{(y - \omega^Tx)^2}{2\sigma^2}}
这里我们假设\omega的也服从正态分布
\omega \sim N(0, \sigma^2)
因此可知
P(\omega) = \frac{1}{\sqrt{2}\sigma^2} \exp {- \frac{\parallel \omega \parallel^2}{2\sigma^2}}

4.2 贝叶斯视角

P(\omega \vert Y) = frac{P(y \vert \omega) p(\omega)}{p(y)}
其中分子两项已经在上文求出
因此根据最大后验概率估计(MAP)
\hat{\omega} = argmax_{\omega} P(\omega \vert Y) \\\\ = argmax_{\omega}P(y \vert \omega) P(\omega)
带入化简,得
\hat{\omega}_{map} = argmin\sum_{i = 1}^N(y_i -\omega^Tx_i)^2 + \frac{\sigma^2}{\sigma_0^2}\parallel \omega \parallel^2
与L2正则化后的J(\omega)一致,因此得证

4.3 结论

L2正则化后的LSE \Leftrightarrow MAP (noise is GD, prior is GD)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容