线性模型

什么是线性模型？ The target value is expected to be a linear combination of the features.
$\hat{y}(w,x)=w_0+w_1x_1+...+w_px_p$
特征不仅要线性组合，还必须是目标值等于线性组合的特征！机器学习中绝大部分特征都是线性组合，但目标值不一定等于线性组合的特征。
在任何时候，当看到线性二字指的就是加减乘除运算，非线性指的是n次方（n>1）、开方、取对数等。
sklearn中，coef_= $w=(w_1,...,w_p)$ ，intercept_= $w_0$

一、普通最小二乘回归（Ordinary Least Squares）

线性回归 = 最小二乘回归 = 普通最小二乘回归

什么是线性回归？
线性回归就是找到一组 $w=(w_1,...,w_n)$ 使得观测目标值 $y$ 和预测目标值 $\hat{y}$ 之间的残差平方和最小！即 $\min \limits_{w}||Xw-y||_2^2$

注意：
矩阵大写，向量小写。 $X$ 是(n_samples,p_features)的矩阵； $w$ 是(p_features,1)的列向量； $y$ 是(n_samples,1)的列向量。
当说系数（coefficient ）指的是 $w=(w_1,...,w_p)$ 不包括 $w_0$ ； $w_0$ 的引入给所有样本增加了值为1的列，即 $x_0=1$ 。

线性回归的假设前提：线性回归的系数估计需要各特征之间是互相独立的。
多重共线性（Multicollinearity）是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性，多重是指一个自变量可能与多个其他自变量之间存在相关关系。如一件商品的销售数量可能与当地的人均收入和当地人口数这两个其他因素存在相关关系。在研究社会、经济问题时，因为问题本身的复杂性，设计的因素很多。在建立回归模型时，往往由于研究者认识水平的局限性，很难在众多因素中找到一组互不相关，又对因变量 y 产生主要影响的变量，不可避免地出现所选自变量出现多重相关关系的情形。

多重共线性对线性回归模型的影响？
1、会造成回归系数，截距系数的估计非常不稳定（即高方差），即整个模型是不稳定。
这种不稳定的具体表现是：很可能回归系数原来正，但因为共线性而变为负。这对于一些自变量的可解释性来讲可能是致命的，因为得到错误系数无法解释正常发生的现象。举个简单的例子说明下：比如我有一个二元线性回归模型，自变量是x1和x2，如果我们画图大家可以很自然的想象出一个三维（三轴）坐标系。假如x1和x2之间没有多重共线性，那么这个模型就是一个确定了的超平面。但假如x1和x2有很强的多重共线性，那么这个模型就近似是一个直线向量，而以这个直线所拟合出来的平面是无数个的（穿过一条直线的平面是不固定的）。这也就造成了回归系数的不确定性，以及模型无法稳定。

2、增加模型解释难度；
如果特征之间存在多重共线性（multicollinearity），会使矩阵 $X$ 变得近似奇异， $X$ 近似奇异意味着 $X$ 的行列式 $|X|$ 近似为0；进而 $\min \limits_{w}||Xw-y||_2^2$ 对观测目标值 $y$ 的随机误差高度敏感，从而产生高方差的 $w$ 。

如何诊断多重共线性？
最简单直接的就是计算各自变量之间的相关系数，并进行显著性检验。
如果出现以下情况，可能存在多重共线性：
（1）模型中各对自变量之间显著性相关。皮尔逊相关系数
（2）当模型线性关系（F检验）显著时，几乎所有回归系数的t检验不显著。
（3）回归系数的正负号与预期的相反。
（4）方差膨胀因子（VIF）检测，一般认为VIF大于10，则存在严重的多重共线性。

如何解决多重共线性？
1、提前筛选变量---删除共线变量：利用相关检验来或变量聚类的方法。
在风控的评分卡模型中，一般的思想是去掉多重共线性变量，理由是增加模型稳定性，但是相对模型的预测能力来说真的是去掉了就一定好吗，如果是完全共线性的当然是需要删除的，但现实中其实特征变量之间并不是完全共线性的，所以删除有可能会导致预测的信息源减少而导致预测能力下降，其实删除只是一种处理方法，当比如 A、B两个特征共线性，那么到底选择删除哪一个也有一些方法，比如通过启发式逐个把特征加入模型看模型效果。
2、降维：有监督降维（LDA）和无监督降维（PCA）、偏最小二乘回归（PLS）
3、加正则项：Lasso回归（可以实现变量筛选），Ridge回归。
4、子集选择：包括逐步回归和最优子集法。因为该方法是贪婪算法，理论上大部分情况有效，实际中需要结合第一种方法。

二、Lasso回归

$\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2^2+α|w|_1 =\min \limits_{w}\frac{1}{2n_{samples } }\sqrt{\sum_i^n(x_i w-y)^2}+α\sum_j^p|w_j|$

$Xw-y$ 得到的是(n_sample,1)的列向量，
怎么求一个向量的L1范数？所有元素绝对值之和！
怎么求一个向量的L2范数？求每个元素的平方和再开根号！

1、产生稀疏解，即 $w$ 更偏向为0，有效减少特征数，所以有筛选特征的功能；
2、Lasso and its variants are fundamental to the field of compressed sensing

三、多任务Lasso回归

$\min \limits_{w} \frac{1}{2n_{samples} }||XW-Y||_{Fro} ^2+α||w||_{21}$
$X$ shape=(num_sample,num_features)
$W$ shape=(num_features,num_tasks)
$Y$ shape=(num_sample,num_tasks)
Fro表示the Frobenius norm，简称F-范数，是一种矩阵范数。矩阵A的F-范数为矩阵A各元素平方和再开根号： $||A||_{Fro}=\sqrt{\sum_{ij}a_{ij}^2}=\sqrt{\sum_i\sum_ja_{ij}^2}$ ，其中，i表示行索引，j表示列索引；就是求矩阵A每行元素平方和，各行结果之和再开根号。
$||A||_{21}=\sum_i\sqrt{\sum_ja_{ij}^2}$ ，其中，i表示行索引，j表示列索引；就是求矩阵A每行元素平方和再开根号，各行结果之和。

什么是多任务，这里的任务是啥？
任务就是回归任务，多任务就是多次回归。一次回归得到的是(num_features,1)的列向量，多次回归任务得到的是(num_features,num_tasks)的矩阵。num_tasks怎么确定？应用场景？有待学习！

四、Ridge回归

$\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2^2+α||w||_2^2$
1、更容易产生不为0，但接近与0的 $w$ ;
2、more robust to collinearity；

五、Elastic-Net

$\min \limits_{w}\frac{1}{2n_{samples} }||Xw-y||_2 ^2+ αρ||w||_1+\frac{α(1-ρ)}{2}||w||_2^2$

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,366评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,521评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,689评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,925评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,942评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,727评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,447评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,349评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,820评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,990评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,127评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,812评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,471评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,017评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,142评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,388评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,066评论 2赞 355