机器学习-SVR-2020-02-05

RECAP:

Soft SVM经过变换,可以和Logistic Regression联系起来。并且,通过w表示z的方法,将L2-Regulated Logistic Regression 转化成为Kernel Logistic Regression。

那么,普通的linear Regression呢?

L2 Regularized Linear Model

Eaug=\frac{\lambda }{N} w^Tw +Ein=\frac{\lambda }{N} w^Tw+ \frac{1 }{N}\sum err(y_n,w^Tz)

线性回归的err为

err(y_n,w^Tz)=(y_n-w^Tz)^2

最佳解w=\sum\beta _nz_n

带入Eaug

由于K是半正定,所以\beta 并不全是0,是dense的

比较Linear 和Kernel Linear Regression

Linear是在一维的,训练集w是有d个,效率比较高;而Kernel是在多维的,非常灵活,而训练集有N^N^N个这么多,因此效率比较低。

体现在实物上面就是,在Kernel Linear Regress的SV要比Soft SVM的SV多很多。

如何得到像标准SVM那样,sparse的\beta呢?

构造Tube Regression 

假设边界的宽度是2\varepsilon ,有些点落在边界之内,但是不算是violation;只有落在边界之外的点,算是violation,并收\xi

那么\xi =max(|s-y|-\ \epsilon ,0)

Tube 和Squared Regression的区别

首先Tube是有宽度的,但是平常的Regress 没有宽度。其次,从err来看,在S越来越大时,squared regress增长要超过tube。因此squared regression受到Noise的影响要高于tube。因此建议使用tube代替squared来进行计算

为了方便,将err带入上式

min \space \frac{1}{2} w^Tw+C\sum max(|w^Tz+b-y_n|-\varepsilon ,0)

按照soft SVM,引入\xi

min \space \frac{1}{2} w^Tw+C\sum  \xi

s.t | y_n-w^Tz-b|\leq \xi+\varepsilon \xi\geq 0

将绝对值展开,并将\xi展开成\xi上线 和 \xi下限

min \space \frac{1}{2} w^Tw+C\sum  (\hat{\xi} +\check{\xi} )

-\check{\xi} -\varepsilon \leq y_n-w^Tz-b\leq \hat{\xi}+\varepsilon\hat{\xi}\geq 0;\check{\xi} \geq 0

构造拉格朗日公式:

当样本点在tube之内时,\hat{\xi}=0;\check{\xi} =0| y_n-w^Tz-b|\leq \varepsilon

=>y_n-w^Tz-b+\check{\xi}+\varepsilon\neq 0w^Tz+b-y_n+\hat{\xi}+\varepsilon\neq 0

=>\hat{\alpha}=0; \check{\alpha}=0

=>\beta _n=\hat{\alpha}- \check{\alpha} =0

如果样本点不在tube之内时,那么\beta _n\neq 0

这样,可以看到构造出来的\beta  就有很多0,是sparse的

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容