Regularization term简述

因在做文本分类,最近重新研究了下Regularization term也就是规则项(正则项)的一些应用,与在实际工业相关的结合,搞了篇综述,方便以后回顾一下。

机器学习中,认为有监督的机器学习简单来说就是在规则化参数的同时,使得误差最小化。其中规则化参数目的为了防止模型过拟合,而最小化误差的目的在于让模型拟合成我们需要的训练数据。

然而在真实数据中,当参数更多时,模型复杂度增高,数据变容易出现过拟合的情况。过拟合很简单的解释就是训练样本的误差很小,而测试样本误差较大。因此我们训练模型的目的是保证模型“简单”基础上最小化误差,使得模型具有良好的泛化能力,而使得模型变得简单,就是通过规则化实现的。

以模型一般化为例:

其中为了衡量预测输出与真实输出之间的误差,我们拟合函数要求loss function项最少,而后半部分为了防止过拟合,并且使得模型更为简单。

前半部分loss function一般来说当为square loss时采用最小二乘法求解,当为Hinge loss时可看做svm模型,当为exp-loss时可以当做boosting模型,当为log-loss时可当做logistic模型。

规则项的作用可以简单整理成两大方面:

1,同上文叙述为了使得模型变得简单,

2,约束模型的特征,将人的先验知识融入的模型中,强行让模型具有一系列功能,比如洗属性,平滑,变量选择一致性等等等。

规则化符合奥卡姆剃刀原理,也与loss function加入规则化的初衷相似。


规则项的选择

规则化函数的选择一般为模型复杂的单调递增函数,模型越复杂,规则化的值就越大,比如规则化可以是模型参数向量的范数,一般对于参数“w”的约束不同,效果也不同。

采用模型参数向量的范数最直接反映了规则项的两大作用:简单,使其具有性质。

一般来说,规则项的选择聚集在零范数,一范数,二范数等等,一般paper采用了很多以L1,L2范数作为基准的研究(也就是一范数,二范数),在工业上L1,L2的应用也十分普遍,在硕士研究期间参与到新的规则项L1/2的研究中,L1/2在生物信息相关数据同样证明的自己独特的效果。

在读paper期间一直认为关于正则项的效果分类应该是在L0-L2期间,效果逐渐递减,也就是逼近L0时效果应该最好,其中为作为就基础的也就是L1,L2模型。后来一些E-Net,MCP,SCAD,Adaptive lasso等等方法都是基于L1,L2模型的改进,这些改进方法也一直很多学者在研究。


L1范数

先提L0范数,意思就是指向量中的非0的元素的个数,如果我们用L0范数规则化一个参数矩阵,我们是希望w的大部分元素都为0,也就是使其具有稀疏性。L1范数是指向量中的各个元素绝对值之和。

然后目前在大部分paper中,稀疏矩阵大量情况下都是通过L1规则化来实现。不采用L0的最主要原因就是L0规则化算子难以求得最优化求解,而L1范数是L0范数的最优凸近似,而且比L0更加容易求解。

L1方法的优点:
1)特征选择:
   一般来说,输入的大部分元素特征都是和最终输出Y时没有关系或者不提供任何信息的,在最小化目标函数的时候考虑输入的一些额外特征(全部特征),虽然可以获得更好的训练误差,但是在预测新样本时,这些没用的信息反而会被考虑,从而干扰了对正确输出的预测,稀疏规则化会去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。

2)可解释性:
   也就是对于特征提取方面,以之前的研究为例,从10000个基因数据中(特征),选出500个特征,即认为这500个特征对于某些基因问题的重要性远大于其它基因特征。


L2范数:

L2范数是指向量个元素的平方和然后平方根,让L2范数的规则项最小,可以使得w的每个元素都很小,很接近于0但是与L1范数不同,它不会让它等于0而是接近与0,而越小的参数说明模型越简单。

L2范数优点:

1)从理论
L2可以防止过拟合,提升模型的泛化能力

2)从算法角度


L1/2规则项

研究生期间一直做这个研究,顾名思义模型与L1、L2类同。至于为什么在L0-L1之间选择L1/2作为代表,根据文献理论, L1/2规则项具有无偏性、稀疏性及Oracle等优良理论性质。给出一种重赋权迭代算法,将求解L_(1/2)正则子转化为一系列 L_1正则化子迭代求解。与经典的L0正则子相比,L1/2正则子更容易求解,而与当今流行的L1正则子相比,L1/2正则子产生更稀疏的解。

对于在生物方面的相关应用已经有多篇文章证明L1/2在实际中的应用可行,相比于之前的理论大大提升。应用的例子:

Application of L1/2 regularization logistic method in heart disease diagnosis. Bio-Medical Materials and Engineering, 24: 3447-3454, 2014.

L1/2的有点与L1类似,特别是在特征选择能力方面更强。


在实际工业化文本应用中,现实数据并没有实验数据的准确性,在“BOW模型+分类”的前提下,多次试验也无法证明变量选择能力强的归则化算子预测结果好,稳定性更强。更稀疏的解在“输入数据并不完美”的情况下,显示预测的准确率反而降低,数据清洗同样是重要研究课题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容