在之前的介绍中,机器学习是在100%输入正确的情况下,可以进行学习,得到Eout和Ein有近似。以及VC bound和VC dimension。
但是在任何输入都会有偏差,这也叫Noise。也就是在一定X的输入情况下,一定概率的会出现正确或者错误的输出。
这时,有2个问题:
1. 在有Noise的情况下,VC bound是否适用
2. 在有Noise的情况下,是否还能学习
首先:1. 在有Noise的情况下,X是iid的,因此Y也是iid的,相互不影响,因此,在一定X的情况下,
(x,y)就 iid P(x,y)。
P(x,y) 就从原来的P(x, f(x)=y);变成了2部分
在看过的资料中,Noise 污染了原有的判断,使得原有的 P[f(x)=y]=1,变成了P[Y|X]=0.7
Target Distribution P(X)=ideal Mini target f(x) + Noise

因此这时,机器学习的目标就变成了,对mini target的判断。
即:wrt P(x)出现的情况下,P(Y|X)的概率。
这时,由于需要判断P(x),因此需要遍历所有的X。做法:每抽一个X,得到Y,看f(x)是否预测正确。看这种方法叫Pointwise。
对Ein的判断,由于需要遍历所有的X,使用Pointwise的方法,并且每一个X出现的概率不变,
是P(x)=1/N,而某一个点出现的 P(Y|X)=P(x)*P(y=/x) 。所有X出现的Ein

err 就叫 point wise measure。Ein就变成了所有这些点的平均。
对于Eout的判断,则是当x服从某概率的情况P下,预测=/实际 的概率

两种不同的ERR衡量方法
一种叫classification。因此用预测=/实际 来表示,用绝对值
一种叫回归分析,用预测=/实际的远近,来表示。用square


因此,演算法最后变成了这样:
