现在我们想这么一个问题:如下图所示,一个罐子里有很多弹珠,但是我们并不知道橙色的弹珠有多少,也不知道绿色的弹珠有多少。
假设bin内橙色弹珠的可能性为
从bin内随机取出一个样本,假设样本内橙色弹珠的可能性为
那么
我们先看一个公式:Hoeffding's Inequality
Hoeffding's Inequality
in big sample(N large),
the statement '' is probably approximately correct(PAC)
Hoeffding不等式对于所有的
Connection to Learning
将bin内的弹珠求颜色可能性问题对比于机器学习:
那么当
现在我们用
for any fixed h,in big 'data' (N large),
Note:if '' and 'is small'''is small''with respect to
然而,以上所述在真实环境下也真成立吗?
Connection to Real Learning
如果在某个数据集上,、相差很大,那么这个数据集就是一个BAD Data。
那么对于M个假设(hypothesis),
也就是说,
当某个learning algorithm
那么,Learning Flow如下图所示: