第十二章 计算学习理论

基础知识

计算学习理论是机器学习的理论基础,其目的是分析学习任务的困难本质,并根据分析结果指导算法设计。例如:在什么条件下可进行有效的学习,需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证。
其对于机器学习,极具重要性。
给定数据集 D={x,y}, 假设所有样本x \in \mathcal{X} y \in \mathcal{Y}独立同分布,并服从分布\mathcal{D}.
h\mathcal{X \rightarrow Y}的映射,则泛化误差为:

在 上的经验误差为:

由于独立同分布,经验误差的期望等于泛化误差,对于经验误差的上限,记作。
如果h在数据集D上经验误差为0, 则称二者一致, 否则称为不一致,我们通过”不合”来度量两个映射之间的差别:

推导中常用到的不等式:
1、Jensen不等式:
2、Hoeffding不等式:对个随机变量, , 则对任意,于是有:
3、McDiramid不等式:对任意,函数满足:
则对任意 有:

PAC学习

PAC理论(Probably Approximately Correct)是学习理论中最基本的理论。
一些定义:
1、概念:令\cal c表示“概念”,它代表从样本空间 \cal X 到标记空间 \cal Y 的映射,若有对任何样例(x,y)C(x)=y,则称c为目标概念, 所有目标概念的集合称为概念类\mathcal{C}
2、假设空间:设\mathcal{L}为学习算法, 其能表示的所有可能概念的集合称为假设空间,以\mathcal{H}表示,由于\mathcal{H},\mathcal{C}通常不同, 所以对于h\in \mathcal{H}我们不确定其是否为目标概念,则称之为假设(hypothesis);
3、可分的:若假设空间存在至少一个目标概念, 则称该问题对算法\mathcal{L}可分,一致, 否则即为不可分,不一致。
显然,我们希望学习算法学到的h尽可能接近c,即希望以较大的概率学习到误差满足预设上限的模型,也就是“概率”“近似正确”的含义。
有了上面的概念,给定置信度\delta,误差参数\epsilon,我们定义:

  • PAC辨识: 对0\lt \epsilon, \delta \lt 1, 所有c\in \mathcal{C}和分布\mathcal{D}, 若存在学习算法\mathcal{L}, 其输出的假设h\in \mathcal{H} 满足:


    其中1- {\delta}可以理解为一种置信度。

  • PAC可学习:在PAC辨识的基础上,令m表示从分布\cal D中独立同分布采样得到的样例数目,0\lt \epsilon, \delta \lt 1,对所有分布\cal D,若存在学习算法\mathcal{L}和多项式函数poly(·,·,·,·),使得对于任何m \le poly(1/\epsilon,1/\delta,size(x),size(c)),\mathcal{L}能从假设空间中PAC辨识概念类,则称概念类对于假设空间来说是PAC可学习的

  • PAC学习算法:若学习算法\mathcal{L}使概念类\cal C为PAC可学习的,且算法的运行时间也是多项式函数poly(1/\epsilon,1/\delta,size(x),size(c)),则称概念类是高效PAC可学习的,也称算法为概念类的PAC学习算法。

  • 样本复杂度:满足PAC学习算法\mathcal{L}所需的m \leq poly(1/\epsilon,1/\delta,size(x),size(c))中最小的m,称为学习算法的样本复杂度。
    简单地概括一下上述的四个概念:
    1、若算法足够优秀,使得误差大概率下足够小,那么目标概念类对于算法来说是PAC可辨识的;
    2、若采样数目大于一定阈值,概念类一定能被算法PAC辨识,那么概念类对于算法来说是PAC可学习的;
    3、若算法的时间复杂度也在一定范围内(多项式函数poly),算法就是概念类的PAC学习算法;
    4、PAC学习算法所需的最小样本数m被称为算法的样本复杂度。

显然PAC学习给出了一个抽象地刻画机器学习能力的框架,基于此框架能对很多重要的问题进行讨论,例如研究任务再什么样条件下可学得较好的模型?某算法在怎样的条件下可进行有效学习?需要多少训练样例才能获得较好的模型?$

PAC学习的一个关键因素是假设空间\cal H的复杂程度,于是我们将对\cal |H|是否有限进行讨论。

有限假设空间

可分情况

可分情形意味着目标概念\cal c属于假设空间\cal H,给定包含m个样例的训练集D,其中一个简单的学习策略:D中的样例标记都是由概念类赋予的,且c存在于H中,那么任何在D中出现的标记错误的假设肯定不是目标概念c.


由此可知,有限假设空间都是PAC可学习的,所需样例数目如上式,输出假设h的泛化误差随样例数目的增多而收敛至0,收敛速率为 .

不可分情况

此时目标概念、cal c不在假设空间中,我们可以证明:P(|E(h) - \hat{E}(h)|)\le \sqrt{\frac{ln|\mathcal{H}|+ln(2/\delta)}{2m}}\le 1-\delta
从上式看出,我们可以学得一个泛化误差最小的假设。如此我们将PAC学习推广到c\notin \mathcal{H}的情况,即不可知PAC可学习。

VC维

在现实任务中,我们通常面临的都是无限假设空间,于是我们常用的工具便是假设空间的VC维。
在介绍VC维之前,先来了解几个概念:
1、增长函数:表示假设空间H对m个示例所能赋予标记的最大可能结果数n的映射关系。增长函数能够体现假设空间的表达能力和复杂度, 有定理如下:
P(|E(h) - \hat{E}(h)|\gt \epsilon)\le4\Pi_{\mathcal{H}}(2m)exp(-\frac{m\epsilon^2}{8})
2、对分:对于二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为对D的一种对分。
3、打散:若假设空间能够实现示例集D上的所有对分,即对于m个示例的样本集D的增长函数等于2^m,则称示例集D能被假设空间H打散。

有了以上的概念,便可以开始讨论VC维了,假设空间的VC维是能被假设空间H打散的最大示例集的大小:
VC(\mathcal{H})=max \{ m: \Pi_{\mathcal{H}}=2^m\},其中VC(H)=d表示存在大小为d的示例集能被打散,但不代表所有大小为d的示例集都能被打散。于是看得出,VC维的定义和分布无关,通常我们用大小为d的示例集能被打散,而d+1的数据集不能用来计算VC维。
由上面的定义可知,VC维与增长函数有密切联系,以下给出了二者之间的定量关系:\Pi_{\mathcal{H}}\le\sum_{i=0}^dC^i_m.
于是计算出增长函数的上界:\Pi_{\mathcal{H}}\le (\frac{e\times m}{d}^d).
然后得到基于VC维的泛化误差:P(|E(h) -\hat{E}(h)|\le \sqrt{\frac{8dln\frac{2em}{d} + 8ln\frac{4}{\delta}}{m}}) \ge 1-\delta.
于是我们可以得出以下定理:

任何VC维有限的假设空间\cal H都是(不可知)PAC可学习的。

计算VC维的两个例子:

Rademacher复杂度

基于 VC 维的泛化误差界是分布无关、数据独立的,也就是说对于任意的数据分布都成立。但就是因为没有考虑到数据本身,基于VC维得到的泛化误差界通常比较松散,对于那些与学习问题的典型问题情况相差甚远的较坏分布来说尤其如此。
Rademacher复杂度是另一种刻画假设空间复杂度的途径,与 VC 维不同,它在一定程度上考虑了数据分布。

  • 机器学习算法的性能体现在其泛化误差足够小,但是现实中泛化误差往往求不得,一般用经验误差来进行近似。
  • 考虑噪音对假设空间性能影响,用Rademacher复杂度计算引入Rademacher随机变量来代替训练样本中的标记,以0.5概率为-1,0.5概率为+1.
  • 在一个确定的训练集上,经验Rademacher复杂度其实计算的是假设空间与随机噪音相关性的期望,期望值越大,则假设空间与随机噪音拟合得越好,即也说明假设空间越复杂。
  • 假设训练集样本自分布D,则Rademacher复杂度是f分布D上的经验Rademacher复杂度的期望。
  • 于是通过Rademacher复杂度,我们可以计算出基于Rademacher复杂度的泛化误差界。

稳定性

算法稳定性考察的是算法在输入发生变化时,输出是否也会跟着发生变化。
给定D是来自分布\cal D的独立同分布示例,对于假设空间\cal H,和学习算法\mathcal{L},且令\mathfrak{L}_ D\in \mathcal{H}表示基于训练集从假设空间中学到的假设。考虑D的以下变化:

  • D^{\backslash i}表示移除第i个样本后的集合

  • D^{i}表示替换D中第i个样例得到的集合

定义损失函数:
1、泛化损失\ell ( \mathfrak { L } , \mathcal { D } ) = \mathbb { E } _ { \boldsymbol { x } \in \mathcal { X } , \boldsymbol { z } = ( \boldsymbol { x } , y ) } \left[ \ell \left( \mathfrak { L } _ { D } , \boldsymbol { z } \right) \right]
2、经验损失\widehat { \ell } ( \mathfrak { L } , D ) = \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \ell \left( \mathfrak { L } _ { D } , \boldsymbol { z } _ { i } \right)
3、留一损失\ell _ { l o o} ( \mathfrak { L } , D ) = \frac { 1 } { m } \sum _ { i = 1 } ^ { m } \ell \left( \mathfrak { L } _ { D ^ { \backslash i } } , \boldsymbol { z } _ { i } \right)
下面定义算法的均匀稳定性:
对于任何x\in \mathcal{X}, z=(x,y),若算法\mathcal{L}满足:\left| \ell \left( \mathfrak { L } _ { D } , \boldsymbol { z } \right) - \ell \left( \mathfrak { L } _ { D ^ { | i } , \boldsymbol { z } } \right) \right| \leqslant \beta , i = 1,2 , \ldots , m.
则称学习算法关于损失函数\ell满足\beta——均匀稳定性。

稳定性分析关注的是:| \widehat { \ell } ( \mathfrak { L } , D ) - \ell ( \mathfrak { L } , \mathcal { D } ) |.
而假设空间复杂度分析关注的是:\sup _ { h \in \mathcal { H } } | \widehat { E } ( h ) - E ( h ) |.

稳定性和可学习性之间的关系:
若学习算法\mathcal{L}是ERM且稳定的,则假设空间\mathcal{H}可学习。即若学习算法符合经验风险最小化原则(ERM)且满足β-均匀稳定性,则假设空间是可学习的。
ERM指的是经验风险最小化,即学习算法输出的假设满足经验损失最小化。
稳定性与假设空间并非无关,两者通过损失函数\ell联系起来。即有稳定性通过损失函数与假设空间的可学习联系在了一起,区别在于:假设空间关注的是经验误差与泛化误差,需要考虑到所有可能的假设;而稳定性只关注当前的输出假设。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容