PAD-learnable的 定义:
P(Rs(h(x))>=ϵ)<=δ
* 存在对应的其中是样本的数量,代表样本的分布代表样本空间
* 存在对应的Dm,其中,m是样本的数量,D代表样本的分布.Dm代表样本空间.
如何理解: 用概率学的理论解释, 就是R(x) (错误样本)可以控制在一定的概率范围内. 在m 个样本中随机取m * epsilon 次,至少有一次错误的可能性小于delta.
c(x): 规则定义空间,需要学习的空间
h(x): 假设空间, 学习到的空间
将c(x) 具象化: 如果是一个矩形区域,落在矩形区域内的点为1,否则为0. 可以推导得出该c(x) 是否是PAC-learning可学习的,以及在什么情况下可学习.
假设R1(x)为h(x) 假设空间, R(x)为定义空间,ri(x) 为h(x) 外且在c(x)内的4个矩形内的点.
也就是说:所有的样本都掉入了误差区域。
因为误差区域又是一个矩形c(x), 可以通过嵌套的方式得出:P(R(ri))>=ϵ
4(1-ϵm/4)^m<=4exp(−ϵm/4)[较常用的不等式]
最终可以得出结论: 如果要保证PAC-learning: 需要满足:
m>=4/ϵlog(δ/4)
这也揭示了机器学习达到一定的性能, 需要的样本量与定义空间之间的关系.
另一个例子:
如果c(x) 不是矩形区域,而是圆形区域会怎样呢,这是本书的练习题,可以证明为PAC-learning的,满足
m>=1/ϵlog(δ)
证明如下:
假设R(x)为定义空间, R1(x)为假设空间h(x), r(x) 为R1(x) 外且在R(x) 内的r(x)环形内的点.
P(Rs(R(x))>=ϵ)=P(R1(x)∩r1=Φ)=P(r1)
由于r1为环形区域,面积小于圆形区域.
有P(r1)<(1−ϵ)m<=exp(−mϵ) 故有:m>=1/ϵlog(δ)
下面讨论c(x)定义空间的学习边界.
有限边界定义空间
何为有限边界,可以这么理解, 就是有N个函数定义的规则空间. 前提,N个规则空间都是满足PAC-learning的.
比如有N个矩形,N个圆, c(x) 可以用N个函数定义出来. 这里我们用|H|表示函数的数量. 那么,满足什么条件,就可以 PAC-learning,条件是:
m>=1/ϵ(log|H|+log1/δ)
根据公式看一下,样本空间的大小取决于这定义空间有多复杂(|H|), 以及需要多高的准确率(epsilon越小,准确率越高), 可以假设,当|H|无限大时, PAC-learning就不可达到了.
证明方法就是这|H|个规则空间的叠加.
c(x)的表示
本书中用一个例子展示出一个concept集的表示对于学习的重要性。这里列举了K-CNF 库克公式的例子.
怎么理解K-CNF公式呢?先给出K-CNF的定义:
假设concept可以由k组表示得到,u0−k. 那么就可以写成∪u0−k.
对于一个单独的,又可以表示为ui,1∩...∩ui,nk.
每个ui都有一组单独的特征组合.
因此就有K−CNF的公式:
如果假设ui,ni 又是一组新的bool表达式而不是数值,那么有点树模型的感觉:
有k颗数,取每棵树的最大值. 而每颗数都有n个分支,所有满足n个分支的,就满足concept集合.