Regularize&&L-Paradigm(正则化&L范式)

这篇文章带你彻底搞清过拟合,正则化和Lx范式。

什么是过拟合?

我们常常在机器学习中听到正则化和L0,L1,L2范式,这些到底是什么意思,怎么用的?
其实正则化存在是为了减少过拟合的?对了,我们也经常听到欠拟合和过拟合,在说这些概念前先听一个故事:

诺贝尔奖获得者物理学家恩里科-费米有次在被问到对同僚提出的一个数学模型意见,模型和实验非常匹配,但费米对其产生了怀疑。他问模型需要设置的自由参数有多少个。答案是四个,费米说:“我的朋友约翰冯诺依曼过去常说,有四个参数,我可以模拟一头大象,而有五个参数,我能让他卷鼻子。”

看到这聪明的朋友可能知道了,过拟合就是学的特征太多,噪声也学了,拟合能力极强,就像你问到你是哪里人呢,我说地球人,这就没有意义了,因为看不到本质了,在测试集上效果往往不好,失去对未知场景预测,所以自由参数多并不一定是一个好的模型。

如何减少过拟合?

过拟合是神经网络的主要问题之一,因为bias和权重的数量巨大,我们要找到一些技术来降低过拟合的影响。

  • 当观测测试集准确率不提升时停止训练,这叫做提前截止,但是我们不知道什么时候饱和,pass掉
  • 一般来说,最好的方式是增加训练样本的量,当有了足够的训练数据就算再大的网络也不太容易过拟合,这也是不太实际的选择,数据是珍贵的资源,明白了吧,pass掉
    当然我们不用悲观,另一种可行方法就是减少网络的规模,但是大比小好吧, 最后神器粗线了,那就是Regularize(规范/正则化)。

正则化本质

多核支持向量机目标函数正则化

看到上图没,也就是对我们构造的目标函数添加了个 r(d)项,r(d)可以理解为有d的参数进行约束,或者 D 向量有d个维度。这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。同时正则化,解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。

比如我们都很熟悉的最小二乘估计和loss估计2范式严格小于后者,这在数学上可以证明,前者,他俩之间就差别了个正则项,有大神认为,这个正则项的加入,在某种意义上让估计出的(向量)参数变短了(数学上叫shrinkage),相当于某些分量细微变小进而质变导致总体程度上被压缩到0。压缩到零比如 0x,这就没有意义的特征就可以去掉,貌似是达到了减轻拟合的目的哈。

扩展阅读:Linear least squares, Lasso,ridge regression有何本质区别?

L0,L1,L2是什么东东

L0,L1,L2就是对于上面那个约束r()的选择。

  • L0范数是指向量中非0的元素的个数。我们都希望这个矩阵越稀疏越好巴不得都是0呢。

  • L1范数是指向量中各个元素绝对值之和,L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解

  • L2范数是指向量各元素的平方和然后求平方根,实现了对模型空间的限制,它的美称我们都见过,一个叫岭回归,另一个也叫 权重衰减

扩展阅读:机器学习中的范数规则化之(一)L0、L1与L2范数

为什么正则化可以减轻过拟合

除了上文我们那个本质解释,通常的说法:小的权重在某种程度上意味着更低的复杂性,也对数据给出了一种更简单却强大的因素。这满足奥卡姆剃刀原则,在实现同样效果时选择最简单那个。在规范过的网络中,更小的权重意味着网络的行为不会因为我们随便改变了一个输入而改变太大。另外我们规范并不会bias,因为大的bias不会像权重那样对神经元敏感,所以大的bias带来噪声不必担心,同时,大的bias能够让网络更加灵活,以为,大的bias让神经元更容易饱和。

还有其他的规范化方法就不说了,没有上面几个常见。开发强大的规范化技术来减轻过拟合是当前领域研究的活跃方面。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容

  • 姓名:朱睿琦 学号:15180288015 参考:http://blog.csdn.net/zouxy09 【嵌牛...
    BLASSREITER阅读 2,428评论 0 9
  • 过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。 监督机器学习问题无非就是“minimi...
    江州司马binbin阅读 1,752评论 3 5
  • 链接:1. 线性回归总结2. 正则化3. 逻辑回归4. Boosting5. Adaboost算法 一. 过拟合 ...
    SUNFC阅读 1,227评论 0 1
  • 一、正则化基础 正则化等价于结构风险最小化,就是在经验风险后面加上了表示模型复杂度的正则化项或惩罚项。 正则化的作...
    arrnos阅读 1,586评论 0 4
  • 我的诗不是梦 我写诗头脑在清醒中 我不喜欢编梦追梦再圆梦 我的诗有梦但不是梦 诗意明朗不朦胧 让人一读就懂 读我诗...
    秋AldrichB果阅读 350评论 6 11