线性模型:对于每个i有:
排成一个矩阵的形式:
其中
直接解就得到:
=====
这里有几个问题:1,不可逆的话就只能取广义逆
2,如果不可逆,那么求出来的w还是无偏估计,但是会有大的方差(这样的话有时候估计出来的w就会很大。)
3,X有共线性的时候,也是不可逆
=====
解决方案:考虑加入显示正则项:
R的选择是两方面决定的:1,本身参数应该有的统计特征。
2,应当减少参数的复杂度。
=====
岭回归:可以有闭合解。小方差估计,但是有偏差。
=====
LASSO:可以有稀疏解,但是不闭合。是一个很好的变量选择的方法。一般在d远大于n的时候很好用。这时候最多选择出n个非零的元。
用ISTA解决LASSO:通常我们的梯度下降公式可以用下面的方法得到:
如果我们把上面的式子写的更加一般:
那么就相当于是把原来的要优化的f+g函数,的f在xt二次展开了,二次用一个东西近似。
在LASSO中我们让
=====
为什么LASSO更容易得到稀疏解:
看这张图。norm边界和等高线的交点应该是最优解,在二维中尚看不清楚,但是在多维中,l1的边界,是很多角的,所以等高线会先碰到角上。这也就是为什么会有稀疏解。
=====
正则化路迹(lambda逐渐增大,估算的参数结果)可以检查共线性程度(岭回归),如果很接近0且稳定,或者震荡着趋于0,这样的特征可以去掉。
LASSO和岭回归的分别:
左边是LASSO,可以看到虽然两张图。随着lambda变大,这些回归系数都趋近0.但是趋近于0的速度不同(LASSO),所以LASSO可以用来变量选择。
=====
两个变种:
弹性LASSO
LASSO的缺点就是,有时候两个特征都很重要,但是因为相关性强烈,就被LASSO剔除了其中一个。而我们希望都能保留:
Group LASSO
有时候变量是一组一组的,一组一组地保留或者丢弃。