2019-03-08

ML——计算学习理论

基础知识

泛化误差:训练出的模型在除训练样本外的新样本集上的误差;

                        E(h;D)=P_{x\sim D}(h(x)\neq y)

经验误差:训练出的模型在训练集上的误差。

                 \hat{E} (h;D)=\frac{1}{m} \sum\nolimits_{i=1}^m I(h(x_i)\neq y_i)

本章后面部分将研究经验误差与泛化误差间的逼近程度,若h在数据集D上的经验误差为0,则称h与D一致,否则称其不一致。

Jensen不等式:对任意凸函数f(x),有f(Ex)\geq Ef(x)

Hoeffding不等式:若x_1,x_2,...x_m为m个独立r.v.,且满足0\leq x_i\leq 1,则对任意\epsilon >0,有

P(\frac{1}{m}\sum_{i=1}^mx_i-  \frac{1}{m}\sum_{i=1}^mE(x_i)\geq \epsilon )\leq exp(-2m\epsilon ^2)\\P(\vert  \frac{1}{m}\sum_{i=1}^mx_i-  \frac{1}{m}\sum_{i=1}^mE(x_i) \vert\geq \epsilon )\leq 2exp(-2m\epsilon ^2)

McDiarmid不等式:若x_1,x_2,...x_m为m个独立r.v.,且对任意1\leq i\leq m,函数f满足:

\mathop{\sup}_{x_1,...,x_m,x_{i}^, }\vert f(x_1,...,x_m)-f(x_1,...,x_{i-1} ,x_{i}^,,x_{i+1},...,x_m)\vert \leq c_i

则对任意\epsilon >0,有:

P(f(x_1,...,x_m)-E(f(x_1,...,x_m))\geq \epsilon )\leq exp(\frac{-2\epsilon ^2}{\sum\nolimits_{i}c_{i}^2  } )\\P(\vert   f(x_1,...,x_m)-E(f(x_1,...,x_m))\vert\geq \epsilon )\leq 2exp(\frac{-2\epsilon ^2}{\sum\nolimits_{i}c_{i}^2  } )

PAC学习

PAC:概率近似正确,以比较大的把握学得比较好的模型,即以较大的概率学得误差满足预设上限的模型;

概念c:从样本空间X到标记空间Y的映射,决定示例x的真实标记y;

目标概念c:对任何样例(x,y),有c(x)=y成立;

概念类C:所学目标概念构成的集合;

假设空间H:给定学习算法L,考虑的所有可能概念的集合;

假设h:从样本空间X到标记空间Y的映射,不确定的目标概念;

可分(一致):若目标概念c\in H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法L是“可分的”。

不可分(不一致):若c\notin H,则H中不存在假设能将所有示例完全正确分开,称该问题对学习算法L是“不可分的”。

PAC辨识:学习算法L能以较大的概率(至少1-\delta )学得目标概念c的近似(误差最多为\epsilon )。

PAC可学习:m为从分布D中独立同分布采样得到的样例数,0<\epsilon ,\delta <1,对所有分布D,若存在学习算法L和多项式函数poly(),使得对任何m\geq poly(1/\epsilon ,1/\delta ,size(x),size(c)),L能从假设空间H中PAC辨识概念类C,则称概念类C对假设空间H而言是PAC可学习的。

PAC学习算法:若学习算法L使概念C为PAC可学习的,且L的运行时间也是多项式函数poly(1/\epsilon ,1/\delta ,size(x),size(c)),则称概念类C是高效PAC可学习的,称L为概念类C的PAC学习算法。

假定学习算法L处理每个样本的时间为常数,则L的时间复杂度等价于样本复杂度。对算法时间复杂度的关心转化为对样本复杂度的关心。

样本复杂度:满足PAC学习算法L所需的m\geq poly(1/\epsilon ,1/\delta ,size(x),size(c))中最小的m,称为学习算法l的样本复杂度。

若在PAC学习中假设空间和概念类完全相同H=C,则称为“恰PAC可学习”。但实际中研究的是假设空间与概念类不同的情形。一般而言,H越大,包含目标概念的可能性越大,但从中找出具体目标概念的难度越大。\vert H \vert 有限时,称H为“有限假设空间”,否则为“无限假设空间”。

有限假设空间

可分情形

可分意味着目标概念包含在算法的假设空间中,对于目标概念,在训练集D中的经验误差一定为0。一种简单的学习策略是:不断剔除出现预测错误的假设,保留经验误差为0的假设。但由于训练规模有限,假设空间中可能有多个假设在D中经验误差为0,因此将问题转化为只要训练集D的规模能使学习算法L以概率1-\delta 找到目标假设的\epsilon 近似即可

D包含m个独立同分布采样得到的样例,对某个输出假设泛化误差大于\epsilon E(h)>\epsilon ,且在训练集上表现完美的概率,即h与D表现一致的概率为:

P((h(x_1)=y_1)\land...\land(h(x_m)=y_m) )=(1-P(h(x)\neq y))^m=(1-E(h))^m<(1-\epsilon )^m

则所有这样的假设出现的概率为:

P((h\in H:E(h)>\epsilon \land \hat{E} (h)=0 )</p><p>令上式不大于<img class=即:          \vert H \vert e^{-m\epsilon }\leq \delta

可得:                        m\geq \frac{1}{\epsilon } (ln\vert H \vert +ln\frac{1}{\delta } )

因此,有限假设空间H都是PAC可学习的,所需样例数如上式。

不可分情形

不可分指的是目标概念不存在于假设空间中,此时学习算法L无法学得目标概念c的\epsilon 近似。但当假设空间H给定时,必存在一个泛化误差最小的假设,找出此假设的\epsilon 近似亦可。由此引申出“不可知学习”。

不可知PAC可学习:令m表示从分布D中独立同分布采样得到的样例数,0<\epsilon ,\delta <1,对所有分布D,若存在学习算法L和多项式函数poly(),使得对任何m\geq poly(1/\epsilon ,1/\delta ,size(x),size(c)),L能从假设空间H中输出满足下式的假设h:

                    P(E(h)-\mathop{\min}_{h^,\in H}E(h^,)\leq \epsilon )\geq 1-\delta

则称假设空间H是不可知PAC可学习的。

由Hoeffding不等式知单个假设误差概率如下:

P(\hat{E} (h)-E(h)\geq \epsilon )\leq exp(-2m\epsilon ^2)\\
P(E(h)-\hat{E} (h)\geq \epsilon )\leq exp(-2m\epsilon ^2)\\
P(\vert E(h)-\hat{E} (h) \vert \geq \epsilon )\leq 2exp(-2m\epsilon ^2)

对于假设空间的所有假设,出现泛化误差与经验误差之差大于e的概率和为:

       \sum_{h\in H} P(\vert E(h)-\hat{E} (h) \vert > \epsilon )\leq 2\vert H \vert exp(-2m\epsilon ^2)

因此,可令不等式右边小于等于\delta ,便可求出满足泛化误差与经验误差相差小于e所需最少样本数,同时也可求出泛化误差界。

m\geq \frac{1}{2\epsilon^2 } (ln\vert H \vert +ln\frac{1}{\delta } )\\
P(\vert E(h)-\hat{E} (h) \vert \leq \sqrt{\frac{ln\vert H \vert +ln\frac{2}{\delta }}{2m} } )\geq 1-\delta

VC维

现实学习任务面临的常是无限假设空间,欲对此情形的可学习性进行研究,需度量假设空间的复杂度,此时可考虑假设空间的VC维。

给定假设空间H和示例集,H中每个假设都可对示例赋予标记,标记结果为:h|_D=\left\{(h( x_1),h( x_2),...,h( x_m)) \right\}

增长函数:对所有m\in N,假设空间的增长函数\Pi _H(m)为:

\Pi _H(m)=\mathop{\max}_{ \left\{  x_1,..x_m \right\}\subseteq  X}\vert \left\{ h(x_1),...,h(x_m))|h\in H \right\}  \vert

增长函数描述假设空间对示例所能赋予标记的最大可能结果数,比如说现在数据集有两个数据点,考虑一种二分类的情况,可以将其分类成A或者B,则可能的值有:AA、AB、BA和BB,所以这里增长函数的值为4。可能结果数越大,该假设空间的表示能力越强。可利用增长函数估计经验函数与泛化误差的关系:

对分:对二分类问题,H中的假设对示例赋予标记的每种可能结果称为对示例空间的一种对分(将示例集一分为二)。

打散:当假设空间H作用于大小为m的样本集D时,产生的对分数量为2^m,即\Pi _H(m)=2^m,称样本集D被假设空间H打散。

上图显示,二维空间中的三个点(不在一条直线上)可被平面上所有直线这个假设空间打散,此时\Pi _H(m)=8=2^3,但如下图的四个点就不能被这个假设空间打散了,此时\Pi _H(4)=14\neq 2^4

break point:对于假设空间 H 的增长函数 \Pi _H(m),从 m=1 出发逐渐增大,当增大到 k时,出现 \Pi _H(m)<2^m的情形,则说 k是该假设空间的break point。即对于任何大小为 m(m≥k) 的数据集, H都没有办法打散它。eg当假设空间 H定义为平面上所有直线时,其break point就为4。

VC维:假设空间H的VC维是能被H打散的最大示例集的大小,即:

              VC(H)=max\left\{m: \Pi _H(m)=2^m \right\}

根据此定义,有 VC(H)=k−1,其中k是H的break point。VC维反映了函数集的学习能力,VC维越大,能学到的模型越复杂。VC维的大小与学习算法无关,与数据集的具体分布无关,与求解的目标函数也无关,只与模型和假设空间有关。另外,实践中有这样一个规律:一般情况下,假设空间的VC维约等于假设自由变量的数目。


周志华《机器学习》

https://blog.csdn.net/u011826404/article/details/73351162

https://tangshusen.me/2018/12/09/vc-dimension/

http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 1. 章节主要内容 机器学习理论(computational learning theory)研究的是关于通过“计...
    闪电随笔阅读 6,127评论 0 3
  • 基于logistic模型商业银行借款企业违约概率的度量 — — 以制造业上市公司为例 随着利率市场化改革的推进、《...
    ZHDAP阅读 336评论 0 0
  • 中国劳动经济学相关研究最新进展 ———第二届中国劳动经济学前沿论坛综述 为促进中国最新劳动经济研究和动态的交流,共...
    coolbenlau阅读 562评论 0 0
  • 此时午后的阳光正好斜射在桌前与电脑上,窗子开着,有徐徐微风吹进来,刚刚从图书馆还书回来,路上买了些小夹子以及开学会...
    bu良青阅读 406评论 3 1
  • 昨晚心情特别不好,爸妈住在隔壁,而我大哭一场,郭同志就不住开导安慰我!当时只感觉自己被老妈控制,那时就想和女儿说话...
    爱之旅心理孙建芳阅读 257评论 0 0