机器学习-Noise-2019-11-13

在之前的介绍中，机器学习是在100%输入正确的情况下，可以进行学习，得到Eout和Ein有近似。以及VC bound和VC dimension。

但是在任何输入都会有偏差，这也叫Noise。也就是在一定X的输入情况下，一定概率的会出现正确或者错误的输出。

这时，有2个问题：

1. 在有Noise的情况下，VC bound是否适用

2. 在有Noise的情况下，是否还能学习

首先：1. 在有Noise的情况下，X是iid的，因此Y也是iid的，相互不影响，因此，在一定X的情况下，

（x,y）就 iid P(x,y)。

P(x,y) 就从原来的P(x, f(x)=y)；变成了2部分

在看过的资料中，Noise 污染了原有的判断，使得原有的 P[f(x)=y]=1，变成了P[Y|X]=0.7

Target Distribution P(X)=ideal Mini target f(x) + Noise

因此这时，机器学习的目标就变成了，对mini target的判断。

即：wrt P(x)出现的情况下，P(Y|X)的概率。

这时，由于需要判断P(x)，因此需要遍历所有的X。做法：每抽一个X，得到Y，看f(x)是否预测正确。看这种方法叫Pointwise。

对Ein的判断，由于需要遍历所有的X，使用Pointwise的方法，并且每一个X出现的概率不变，

是P(x)=1/N，而某一个点出现的 P(Y|X)=P(x)*P(y=/x) 。所有X出现的Ein

err 就叫 point wise measure。Ein就变成了所有这些点的平均。

对于Eout的判断，则是当x服从某概率的情况P下，预测=/实际的概率

两种不同的ERR衡量方法

一种叫classification。因此用预测=/实际来表示，用绝对值

一种叫回归分析，用预测=/实际的远近，来表示。用square

因此，演算法最后变成了这样：

最后编辑于：2019.11.18 12:00:42

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。