机器学习-Noise-2019-11-13

在之前的介绍中,机器学习是在100%输入正确的情况下,可以进行学习,得到Eout和Ein有近似。以及VC bound和VC dimension。

但是在任何输入都会有偏差,这也叫Noise。也就是在一定X的输入情况下,一定概率的会出现正确或者错误的输出。

这时,有2个问题:

           1. 在有Noise的情况下,VC bound是否适用

           2. 在有Noise的情况下,是否还能学习

首先:1. 在有Noise的情况下,X是iid的,因此Y也是iid的,相互不影响,因此,在一定X的情况下,

(x,y)就 iid P(x,y)。

P(x,y) 就从原来的P(x, f(x)=y);变成了2部分

在看过的资料中,Noise 污染了原有的判断,使得原有的 P[f(x)=y]=1,变成了P[Y|X]=0.7

Target Distribution P(X)=ideal Mini target f(x) + Noise

因此这时,机器学习的目标就变成了,对mini target的判断。

即:wrt P(x)出现的情况下,P(Y|X)的概率。

这时,由于需要判断P(x),因此需要遍历所有的X。做法:每抽一个X,得到Y,看f(x)是否预测正确。看这种方法叫Pointwise

对Ein的判断,由于需要遍历所有的X,使用Pointwise的方法,并且每一个X出现的概率不变,

是P(x)=1/N,而某一个点出现的 P(Y|X)=P(x)*P(y=/x) 。所有X出现的Ein

err 就叫 point wise measure。Ein就变成了所有这些点的平均。

对于Eout的判断,则是当x服从某概率的情况P下,预测=/实际 的概率

两种不同的ERR衡量方法

一种叫classification。因此用预测=/实际 来表示,用绝对值

一种叫回归分析,用预测=/实际的远近,来表示。用square 

因此,演算法最后变成了这样:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容