向量的范数定义:
1.向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。
2.向量的范数是一个函数||x||, 满足:
非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。
常用的向量的范数:
*L1范数: ||x|| 为x向量各个元素绝对值之和。
*L2范数: ||x||为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数
*Lp范数: ||x||为x向量各个元素绝对值p次方和的1/p次方
L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。
L∞范数: ||x||为x向量各个元素绝对值最大那个元素的绝对值,如下:
椭球向量范数: ||x||A = sqrt[T(x)Ax], T(x)代表x的转置。定义矩阵C 为M个模式向量的协方差矩阵, 设C’是其逆矩阵,则Mahalanobis距离定义为||x||C’ = sqrt[T(x)C’x], 这是一个关于C’的椭球向量范数。
模型空间的限制
使用L1,L2范式建立模型时,损失函数可以写成如下形式:
可以说成是将模型空间限制在w的某个范围内,如下图所示,在(w1,w2)空间上可以画出目标函数的等高线,约束条件则是平面上半径为C的一个norm ball,等高线与norm ball首次相交的地方就是最优解。
通过对比可以看出,L1-ball和L2-ball的不同在于L1在和每个坐标轴相交的地方都有”角“出现,与目标函数相交的地方也是在角的位置。角的位置就容易产生稀疏性,例如图中的交点处w1=0。L2就没有这样的性质,因为没有角,相交的位置有稀疏性的概率就非常低,从直观上解释了为什么L1能够产生稀疏性而L2就不行。
总结一下就是:L1范式会趋向于产生较少的特征,在特征选择时很有用;L2会选择更多特征,但对应权值接近零。