PAC-learning

PAD-learnable的定义:

P(Rs(h(x))>=ϵ)<=δ

* 存在对应的其中是样本的数量，代表样本的分布代表样本空间

* 存在对应的Dm,其中,m是样本的数量，D代表样本的分布.Dm代表样本空间.

如何理解: 用概率学的理论解释, 就是R(x) （错误样本）可以控制在一定的概率范围内. 在m 个样本中随机取m * epsilon 次，至少有一次错误的可能性小于delta.

c(x): 规则定义空间,需要学习的空间

h(x): 假设空间, 学习到的空间

将c(x) 具象化: 如果是一个矩形区域，落在矩形区域内的点为1，否则为0. 可以推导得出该c(x) 是否是PAC-learning可学习的，以及在什么情况下可学习.

假设R1(x)为h(x) 假设空间， R(x)为定义空间，ri(x) 为h(x) 外且在c(x)内的4个矩形内的点.

也就是说：所有的样本都掉入了误差区域。

因为误差区域又是一个矩形c(x), 可以通过嵌套的方式得出：P(R(ri))>=ϵ

4(1-ϵm/4)^m<=4exp(−ϵm/4)[较常用的不等式]

最终可以得出结论: 如果要保证PAC-learning: 需要满足:

m>=4/ϵlog(δ/4)

这也揭示了机器学习达到一定的性能, 需要的样本量与定义空间之间的关系.

另一个例子:

如果c(x) 不是矩形区域，而是圆形区域会怎样呢，这是本书的练习题，可以证明为PAC-learning的，满足

m>=1/ϵlog(δ)

证明如下:

假设R(x)为定义空间, R1(x)为假设空间h(x), r(x) 为R1(x) 外且在R(x) 内的r(x)环形内的点.

P(Rs(R(x))>=ϵ)=P(R1(x)∩r1=Φ)=P(r1)

由于r1为环形区域,面积小于圆形区域.

有P(r1)<(1−ϵ)m<=exp(−mϵ) 故有:m>=1/ϵlog(δ)

下面讨论c(x)定义空间的学习边界.

有限边界定义空间

何为有限边界，可以这么理解, 就是有N个函数定义的规则空间. 前提，N个规则空间都是满足PAC-learning的.

比如有N个矩形，N个圆, c(x) 可以用N个函数定义出来. 这里我们用|H|表示函数的数量. 那么，满足什么条件，就可以 PAC-learning，条件是:

m>=1/ϵ(log|H|+log1/δ)

根据公式看一下，样本空间的大小取决于这定义空间有多复杂(|H|), 以及需要多高的准确率(epsilon越小，准确率越高), 可以假设，当|H|无限大时, PAC-learning就不可达到了.

证明方法就是这|H|个规则空间的叠加.

c(x)的表示

本书中用一个例子展示出一个concept集的表示对于学习的重要性。这里列举了K-CNF 库克公式的例子.

怎么理解K-CNF公式呢？先给出K-CNF的定义:

假设concept可以由k组表示得到，u0−k. 那么就可以写成∪u0−k.

对于一个单独的，又可以表示为ui,1∩...∩ui,nk.

每个ui都有一组单独的特征组合.

因此就有K−CNF的公式:

如果假设ui,ni 又是一组新的bool表达式而不是数值，那么有点树模型的感觉：

有k颗数，取每棵树的最大值. 而每颗数都有n个分支，所有满足n个分支的，就满足concept集合.