一、限界函数
若的断点为,即个数据点不能被给shatter,那么个数据点也不能被给shatter,即也是的断点。如果给定的样本数是大于等于的,易得,且随着的增大,其小得越来越多。
当断点为时,记最大可能的成长函数为bound函数,记为,其只和、有关。
注意比较,发现bound函数比起成长函数消除了。如果无断点,自然没有什么事;如果断点为,那么是给定下,在上可能的最大假设类数;是不限下,在上可能的最大假设类数。,只和样本数和断点有关。注意这里的要求有相同的。
通过数学归纳法可证得:实际被所框住。
既然成长函数的上限被的多项式给框住,易得,如果断点存在的话,成长函数是多项式型的,证明了上一节的猜想。
二、VC边界
再看保证和的不等式,可以证得:
证明如下:
- 用和训练集同样大小的测试集上的表现替代整体输入空间上的表现,认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大;
这里做了2件事:
一是用有限的训练集+有限的测试集替代了无限的输入空间,将无限的变为数量为的有限数据集;
二是用完美划分该有限数据集的模式代替了完美划分整个输入空间的模式。这一步实际是进行了松弛操作,因为的数量多于。
- 用有限类数替代无限;
- 使用不放回的霍夫丁不等式。
对应于在取小球实验里不放回地抽取,取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。因为 the inequalities also hold when the have been obtained using sampling without replacement; in this case the random variables are not independent anymore.(来自维基百科)
最终得到VC bound:
所以,2维感知器算法在训练集上学习到的泛化到整个输入空间上是概率近似可行的。
那3维及以上维数的感知器算法呢?