连载 | 机器学习基石 Lec 8:Noise & Error

Tips:未进行说明的符号主要参照Lec 1 ,部分参照其他Lec.

上一节介绍了ML中非常重要的工具VC Dimension,说明了learning发生的理论保障和一些条件:当dvc有限、N足够大、Ein较低时,learning 可行。

这节将从data出发,介绍存在noise和error时会是怎样的情况?之前的理论是否可以放宽到这种情况?


Lec 8:Noise and Error

1、Noise and Probabilistic Target

之前Pocket里面有提到noise,noise来源有三点:1)来自错误标记y;2)同一个x有两个不同的y;3)x不正确; 

存在Noise的时候,VC Bound是否还有效呢? 

回顾一下小球问题,小球x~P(x),抽出小球的颜色是确定的,橘色代表 f(x)≠ h(x);绿色代表 f(x)= h(x);

现在有noise是怎么样的?小球x~P(x),不同的是当抽出小球时,小球的颜色并不是确定的,但颜色也会存在一种分布distribution,如何获得?sample!表示为 y~P(y|x);

在x~P(x),y~P(y|x)的情况下重新证明VC Bound,任然会是成立的,不给出证明。

实际上,只要训练&测试的(x,y)来自同一个P,则VC Bound可以work.

现在学习的目标不是target function,而是target distribution P(y|x),可以看做是 ideal mini-target + noise. 例如:结果给出P(1 | x)= 0.7,P(0 | x) = 0.3,自然会选择0.7那个结果,而0.3就可以看做是Noise的level.

到这里就可以看出,之前学习 f 的情况是学习target distribution的特例。

(注:"predict ideal mini-target (w.r.t. P(y|x))on often-seen inputs(w.r.t. P(x))" 这个结论感觉自己还没有理解好,所以也不知道怎么解释好,希望可以得到大家的指点 )

2、Error Measure

我们的学习目标是得到一个接近f的g,g≈f. 之前也多数在围绕这个目标讨论,什么样是接近的?前面是用Eout(g)来衡量,Eout(g)越小越好。

Eout这个衡量标准有3个注意点:out-of-sample,对未来的预测;pointwise,可以在单个data上衡量;二元分类,“对”or“错”,又叫 0/1 error.

更一般的衡量标准可以用 E(g,f)表示,在一个点上判断对错再对多个点平均, E(g,f) = averaged err(g(x),f(x)),err叫做 “Pointwise Error Measure”.  所以可以表示Ein(g)和Eout(g)为:

之后的课程中主要使用 pointwise err 作为衡量,当然实际中也存在更复杂的衡量。

Pointwise Error Measure主要有两种:0/1 err 和 squared err

~y就是g

类别型:0/1 err 是判断对错,主要用在分类,选择对应的错误概率最低的y作为结果;

数值型:squared err 是判断“距离”,主要用在回归(后续会有介绍),y是加权平均值(可以证明得到),如下图:

到这里,对learning的理解已经深入一些了,这里再附一张更详细的learning flow的图,可以和Lec 1的比较一下:

直接给出拓展:vc theory / philosophy 对大部分H和err都可以成立!

3、Error Measure in Algorithm

结合实际应用,err存在两种错误情形:false reject 和 false accept,比如设备的指纹识别,错误的拒绝了用户 和 错误的接受了攻击者。

在 0/1 err中对这两种情形的penalty(惩罚)是同等的,但是在实际中,对于不同的应用场景、不同的使用者等来说,err两种错误情形的惩罚标准应该不同。比如 超市顾客认证系统 和 CIA认证系统,不同错误产生的后果差异巨大。所以,在设计学习算法的时候,应该考虑这一点,但是……但是……通常很难确定惩罚标准,1000?5000?or?不好说惩罚多少。通常会选择一种err的 替代品 或 容易最佳化的&合理的 err^.设计合适的err^是学习算法设计中的核心部分

后面的章节会看到,不同的学习算法A的err^设计各异,各有千秋,自然可以理解这里说的意思,嘿嘿。选择一个right的err^非常重要!最后就会发现,大部分学习算法就是对err^的最佳化,最后都是数学问题。 个人觉得,理解了算法的err^设计,就差不多理解了算法的 philosophy.

4、Weighted Classification

给二元分类的err加上权重的分类称为weighted classification.

给出一个名词:cost或error或 loss matrix,表示不同错误情景的代价。下图展示了对应超市和CIA认证的cost matrix.

超市
CIA

此时Ein和Eout形式为:

VC理论对于这种理论还是适用的,那么希望Ein越小越好,带weight的Ein如何解?

1)对于PLA来说,Ein = 0,weight不影响什么;

2)对于pocket来说,需要modify一下。很简单,只需在比较Wt+1和Wt时,比较加权错误的大小?!真的这么简单吗?可是考虑一下,pocket的理论保障是对于 0/1 err,这样简单的修改也许会破坏之前的理论保障?保持怀疑。

其实有一种巧妙方法可以把 weighted Ein 变换成 0/1 Ein:把y = -1 的data 复制1000倍!嗯哼~这时error matrix就和0/1 error matrix一样,可以使用 pocket 了,但其实应该modify两点(更严谨,也很巧妙):

1)其实实现copy的时候,并不需要真的复制1000倍并存储下来,称为“virtual copy”。所以应该频繁地(1000倍)check y = -1 的data;

2)比较Wt+1和Wt时,比较加权错误的大小;

这个转化思路可以应用在很多其他的algorithms上,叫做 “reduction”。

Fun Time 值得提一下:

这个题目体现了data的unbalanced的情况,properly设置weight可以避免这种情况。

至此why部分结束,下面将主要进行各种Algorithm的介绍~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容