PAC概率近似正确学习模型

  • 《Understanding Machine Learning-From Theory to Algorithms》
  • 第二章,最后一段关于predictor 失败的分析

一个upper bound的推导和理解

有了精度参数\epsilon, 我们就可以定义失败的假设 L_{(D,f)}(h_S)>\epsilon. 我们有m个训练样本(x_1,...,x_m),是通过采样产生的,组成了样本集合S。不同人/时间,采样的结果是不一样的,就有不同的样本集合,比如有S_1, S_2, ...,S_N. 这些样本集合有多大概率产生失败的predictor呢?记训练实例集为S|x=(x_1,...,x_m). 我们关心的是下面概率的上界。

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\}) #m-组实例采样中 导致失败预测器的 概率。

怎么算这个上界 upper bound?

  1. 引入bad hypothesis set的集合
    \mathcal{H}_B =\{h\in \mathcal{H}:L_{(D,f)}(h)>\epsilon\}.
  2. 从bad hypothesis出发,定义数据误导集
    M=\{S|x:\exists h \in \mathcal{H}_B,L_S(h)=0 \}
    也就是误导集是依赖bad hypothesis的,不同的h_B会有不同的误导集,整个误导集是所有bad hypothesis的并集。
  3. 回到关注的问题中的集合\{S|x:L_{(D,f)}(h_S)>\epsilon\}, 这个集合等价于:
    \{S|x:L_{(D,f)}(h)>\epsilon,L_S(h)=0\},继续等价于:
    \{S|x:h \in \mathcal{H}_B,L_S(h)=0\},子集关系就出来了:
    \{S|x:L_{(D,f)}(h_S)>\epsilon\}\subseteq M, 这个集合只是误导集的子集而已。
  4. 概率不等关系也就出来了:
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq D^m(M)
  5. 从第2点中可以看出M还是个并集。M = \mathop{\cup}_{h\in\mathcal{H}_B}\{S|x:L_S(h)=0\}。利用联合界的方式缩放:
    D^m(M)\leq\mathop{\Sigma}_{h\in\mathcal{H}_B} D^m(\{S|x:L_S(h)=0\}).
  6. 固定某个"bad"假设,展开:
    D^m(\{S|x:L_S(h)=0\})=D^m(\{S|x:\forall i, h(x_i)=f(x_i)\})=\mathop{\Pi}_{i=1}^m D(\{x_i: h(x_i)=f(x_i)\})
  7. 对于每个sample, D(\{x_i: h(x_i)=f(x_i)\})=1-L_{(D,f)}(h)\leq 1-\epsilon\leq e^{-\epsilon}, 注意第6步中使用的bad hypothesis, 所以不等式成立。
  8. 所以整个的上界upper bound
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}
    说明:
  • 假设空间很小|\mathcal{H}|=1, 训练样本量m只需要很少;但是由于实际问题的复杂性,|\mathcal{H}|必须要很大(比如深度学习)。为了控制这个upper bound, 就必然要求大的m,大数据量。
  • 精度参数\epsilon是一个要求指标,精度需求越高,\epsilon越小,实现相同的upper bound, 就需要更大的m,数据量和精度有关系。通过数据增强提高分类精度,这个公式也可以看出端倪。
  • 算法理论分析的牛逼之处在于:给定少量的假设条件,就能够分析出关键配置对性能影响关系。

推论2.3

假设 m\geq \frac{log(|\mathcal{H}|/\delta)}{\epsilon}

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}\leq \delta

说明:在m足够大的时候,在独立同分布的样本集S上,最少以1-\delta的大概率保证h_S有效,即 L_{(D,f)}(h_S)\leq \epsilon.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容