西瓜书 第十二章 计算学习理论

这一章全是理论知识和公式,个人感觉有点难。这一章主要介绍了计算学习理论,即如何判断一个算法能否得到目标概念类,针对一个算法得到的假设空间分为有限和无限,而有限分为两种情形为可分和不可分;无限则需要研究它的vc维或Rademacher复杂度来进行判断分析。

12.1基础知识

计算学习理论关于计算器学习的理论基础,其目的是分析学习任务的困难本质

泛化误差:学习器在整个样本空间上的误差。E(h;\mathbb{D})=P_{x\sim{\mathbb{D}}}(h(x)≠y)
经验误差:学习器在训练集上的误差。\hat{E}(h;D)={\frac{1}{m}}\sum_{i=1}^mII(h(x_i)≠y_i)
因为D是\mathbb{D}独立同分布采样,所以h 的经验误差的期望等于其泛化误差。

不合disagreement:d(h_1,h_2)=P_{x\sim{\mathbb{D}}}(h_1(x)≠h_2(x))

常用不等式

Jensen不等式
Hoeffding不等式
McDiarmid不等式

常用不等式.PNG

12.2概率近似正确(PAC)学习

基础定义

\cdot概念c:从样本空间到标记空间的映射。
\cdot目标概念:对于任何样例(x,y),c(x)=y成立的c。
\cdot概念类C:包含目标概念的集合。
\cdot假设h:学习算法得出的从样本空间到标记空间的映射。
\cdot假设空间H:学习算法包含的所有假设的集合。

算法的可分与不可分

\cdot若目标概念c∈H,则H中存在假设可以将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法L“可分的”,亦称“一致的”。
\cdot若c∉H,则H中不存在任何假设能将所有示例完全正确分开,称该问题对学习算法L“不可分的”亦称“不一致的”。

PAC辨识

对0<\epsilon\delta<1,所有c∈C和分布\mathbb{D},若存在学习算法L,其输出假设h∈H满足P(E(h)≤\epsilon)≥1-\delta,
则称学习算法L能从假设空间H中PAC辨识概念类C.

PAC可学习

将样本考虑进来,若样本数量达到某一数量时,则算法总能PAC辨识概念类,称为PAC可学习的。


PAC可学习.png
PAC学习算法

连运行时间也考虑进来,当运行时间为多项式函数poly(1/{\epsilon},1/{\delta},size(x),size(c)),则称概念类C是高效PAC学习可学习的,称L为概念类C的PAC学习算法。
【注:size(\cdot)为复杂度】

样本复杂度

满足PAC学习算法L所需的m≥poly(1/{\epsilon},1/{\delta},size(x),size(c))最小的m,称为学习算法L的样本复杂度。

12.3有限假设空间

有限假设空间:|H|中假设有限。该假设空间可能包含有目标概念称为可分情形,若假设空间没有包含目标概念则称为不可分情形。
无限假设空间:|H|中有无限个假设。该假设中一定有目标概念。

可分情形

我们要如何从假设空间中学得目标概念呢?
可以通过训练集来排除那些不符合的假设,直到只剩下一个假设时,它就是目标概念。但是实际上我们可能得到多个经验误差为0的假设。这个时候就没办法进一步区分了。所以我们需要越来越多的训练样本才能更好的区分,如果训练样本就是样本集合,那么我们就一定可以得到目标概念。

那么需要多少训练样本才可以得到目标概念有效近似呢?
对PAC学习来说,只要训练集D的规模能使学习算法L以概率1-\delta找到目标假设的\epsilon近似即可。

推导过程和结论.PNG

不可分情形

不可分情形说明假设空间中并没有目标概念,但是我们却可以找出其中泛化误差最小的假设也不失为一个好的目标,这就是不可知学习的来源。


推论定理.png

从上面的定理我们可以发现当m较大时,h的经验误差非常接近其泛化误差,所以对于有限的假设空间有:
定理.png
不可知PAC可学习

若存在学习算法L满足P(E(h)-{\min_{h'∈H}E(h')≤{\epsilon}})≥1-\delta则称假设空间H是不可知可学习的。

当学习算法的运行时间也是多项式函数poly(1/{\epsilon},1/{\delta},size(x),size(c)),则称假设空间H是高效不可知PAC可学习的。

12.4VC维

对于无限的假设空间,要先研究其可学习性,需要度量假设空间的复杂度,而度量空间复杂度的常用方法是考虑空间的VC维。

增长函数

假设h对D中示例的标记结果为:h|_D=\{(h(x_1),h(x_2),...,h(x_m))\}对所有m∈\mathbb{N},假设空间增长函数为:\prod_H(m)=\max_{\{x_1,...,x_m\}\subseteq{\chi}}|\{(h(x_1),...,h(x_m))|h∈H\}|表示假设空间H对m个示例所能赋予标记的最大可能结果数,值越大说明该假设空间的表示能力越强。

对分和打散

尽管H中有无限个假设,但其对D中示例赋予标记的可能结果是有限的。
\cdot对分:对二分类问题来说,假设对D中示例赋予标记的每种可能结果称为对D的一种对分。
\cdot打散:若假设空间H能实现示例集D上的所有对分,即{\prod}_H(m)=2^m,则称示例集D能被假设空间H“打散”。

VC维

\cdot假设空间H的VC维是能被H打散的最大示例集的大小,即VC(H)=max\{m:{\prod}_H(m)=2^m\}.
【注:并非所有的大小为d的示例集都能被假设空间打散】

\cdot增长函数的上界与假设空间的VC维有关:

引理12.2.png

通过上面的式子可以得到增长函数的上界:
若假设空间H的VC维为d,则对任意整数m≥d有

\cdot分布无关(数据独立)性:VC维的泛化误差只与样例数目m有关,收敛速率为O(\frac{1}{\sqrt{m}}),与数据分布\mathbb{D}无关。
\cdot任何VC维有限的假设空间H都是(不可知)PAC可学习的。

12.5Rademacher复杂度

基于VC维的泛化误差界是分布无关、数据独立的,也就是对任何分布都成立,所以它得到的泛化误差界比较的“松”的。
Rademacher复杂度是另一种刻画空间复杂度的途径,它在一定程度上考虑了数据分布。

Rademacher复杂度对h的经验误差进行了一点小的改变,引入了Rademacher随机变量。

Rademacher推导过程.PNG

经验Rademacher复杂度衡量了函数空间与随机噪声在集合Z中的相关性。
定义12.8.png

基于Rademacher复杂度得到的关于函数空间F的泛化误差界:
定义12.9.png

回归问题——基于Rademacher复杂度的泛化误差界
回归问题泛化误差界.png

二分类问题——基于Rademacher复杂度的泛化误差界
二分类问题的泛化误差.png

假设空间H的Rademacher复杂度与增长函数的关系:
定理12.7.png

12.6稳定性

稳定性分析可以获得宇算法有关的分析结果,主要考察算法在输入发生变化时,输出是否发生较大变化。

算法输入的变化主要有以下两种:
{\cdot}D^{\backslash{i}}表示移除D中第i个样例得到的集合。
{\cdot}D^i表示替换D中第i样例得到的集合。

关于假设L_D的几种损失

三种损失.png

算法的均匀稳定性

均匀稳定性.png
对于损失函数,若学习算法L所输出的假设满足经验损失最小化,则称为算法L满足经验风险最小化(ERM)原则,简称算法是ERM的。
【注:经验风险最小化(ERM)原则{\hat{E(h)}=\min_{h'∈H}{\hat{E(h')}}},即算法L输出的假设h为假设空间中经验误差最小的假设】

稳定性通过损失函数将学习算法和假设空间联系起来,区别在于:
\cdot假设空间关注的是经验误差与泛化误差,需要考虑到所有可能的假设:sup_{h∈H}|{\hat{E(h)}}-E(h)|;
\cdot稳定性只关心当前的输出,只要当前输出满足经验损失最小即可:|{\hat{\varrho(L,D)}}-{\varrho}(L,\mathbb{D})|
若学习算法L是ERM且稳定的,则假设空间H可学习。

参考:https://blog.csdn.net/cristianojason/article/details/79057977
https://blog.csdn.net/Julialove102123/article/details/79983545

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容