机器学习理解

本次记录内容包括但不限于:
○ 监督学习与非监督学习
○ 监督学习
○ 监督学习的理解
○ 模型简单的理解
○ 规则项理解
○ L0与L1正则
○ L2正则
○λ选取

机器学习是什么

机器学习就是计算机根据大量数据通过计算获得某种可以被增进的表现(譬如是某种特征规律啥的)。再形式化一点说机器学习就是通过数据,利用学习算法(learning algorithm)从假设集合(hypothesis set)中去挑选一个和实际目标函数最接近的假设的过程。

监督学习与非监督学习

监督学习是有标签的训练,且训练前我们对最终的输出是有预期的;
非监督学习是无标签的学习,训练前我们无法产生一个预期,例如对西瓜进行聚类,最后聚类为多少类是需要尝试的,同时聚类之后也没有一个很好的衡量标准来衡量你聚成k类的好坏。

监督学习

1、监督学习的理解
监督机器学习问题无非就是“minimize your error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。我们的目的并不仅仅是使得训练误差最小,而是需要在测试集上表现良好,因此,我们需要在保证模型简单的基础上最小化训练误差。
2、模型简单的理解
模型简单就是通过规则函数来进行约束,不仅约束了模型参数的范围及复杂度,同时约束我们模型的特性,什么叫能够约束模型特性呢?我们常常在加入规则项时是有一定先验知识作为前提的,也就是认为的加入一些人们的先验知识使得模型往我们想要的方向训练。这种先验对于我们进行统计机器学习是十分有用的,人们的先验使得我们会少走很多弯路。
3、规则项理解
规则项是保证模型遵循奥卡姆剃刀原理的一种手段
○ 从贝叶斯角度来看,规则化项对应于模型的先验概率,例如L1和L2正则,其实都是贝叶斯学派的产物。
○从经验风险角度来看,经验风险被定义为平均损失函数,也就是单纯的损失函数,而结构化风险被定义为:损失函数+正则项,也就是说,正则化项是结构风险最小化策略的体现。

那么现在我们来看一下广义的机器学习目标函数:


其实机器学习全部的目标函数几乎一模一样,无非就是变换损失函数项或是规则化项。

既然规则化项是为了约束模型的复杂度,那么一般情况下,正则化项都被设计为复杂度的单调递增函数,例如参数向量的范数。

L0正则与L1正则

L0正则指的是W向量中非0元素的个数,L0正则项的目的就是为了参数集合大多为0,使得W变得稀疏,那么L0与L1有什么区别和联系呢?
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”。

L1为何会产生稀疏权值?

  1. 贝叶斯解释
    任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。
    实质上,L1的先验是拉普拉斯先验,而拉普拉斯分布的特性使得参数容易取到0.

  2. 数学解释
    首先来看看L1和L2的梯度(导数的反方向):


    不失一般性,我们假定:wi等于不为0的某个正的浮点数,学习速率η 为0.5
    L1的权值更新公式为wi= wi- η * 1 = wi- 0.5 * 1,也就是说权值每次更新都固定减少一个特定的值(比如0.5),那么经过若干次迭代之后,权值就有可能减少到0。
    L2的权值更新公式为wi= wi- η * wi= wi- 0.5 * wi,也就是说权值每次都等于上一次的1/2,那么,虽然权值不断变小,但是因为每次都等于上一次的一半,所以很快会收敛到较小的值但不为0。

  3. 为什么不用L0而用L1?
    很显然一点是,L0不是一个凸函数,而L1可以作为L0的一个最优凸近似,因此可以与损失函数一起进行优化算法。

  4. 为什么需要稀疏?

  • 特征选择
    也就是自动去掉某些无贡献的特征,将其权重置为0
  • 可解释性
    在某些特定任务中,我们的特征维度可能高达上千,例如预测某种病的概率,其相关特征可能高达1000维,通过正则项的筛选,可能最后只有几项是对疾病预测起到很大作用的特征,这样筛选出来的特征对于医生来讲是具有参考性和可解释性的。

L2正则

L2正则化是指权值向量w中各个元素的平方和然后再求平方根。其被称为“权值衰减”

  1. 为什么都说L2可以防止过拟合?
    我们的目标是使得结构化风险函数最小,当然这会使得L2正则项的w参数很小,但是不会为0,这是与L1有所区别的,L2正则先验是参数服从正态分布,因此很大概率取到0值附近,这样依赖,参数空间被约束,模型相对变得简单,各项参数较小,多项式分量也就不会因此有很大的影响,从而在一定程度上避免了过拟合。(越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象。)
  2. L2的好处
  • 学习角度
    □ 防止过拟合,提升模型泛化能力
  • 优化计算角度
    □ 让我们的优化求解变得稳定和快速,原因如下:
    □ 有助于处理condition number不好情况下的矩阵求逆困难问题。

condition number指的是在优化算法过程中,条件数=函数梯度最大变化速度 / 梯度最小变化速度,其实也就是反应了目标函数在整个特征空间内的优化速度。如果条件数大,那么就表示在有些地方目标函数优化地快,有些地方慢,很不规律,从而很难用当前的梯度去比较准确地预测最优点所在的位置。换句话说,宏观层面上condition number衡量了当输入发生微小变化时,输出会发生多大变化,也就是系统对外界变化的敏感度。

那么对于一个优化问题来说,主要两大难题就是 1)局部最优,2)ill-condition问题。病态条件问题就是condition number过大。

实际中的condition number:
如果我样本数远小于特征维度,此时矩阵无法求逆,那么w就没法计算出来,更确切地说w会有无穷解,此时的模型就是不可信的。


但是加上L2之后,上式变为下面的情况:

总的来说,优化算法的收敛速度受condition number影响,若条件数小,则表示上届小,那么收敛就快。

正则化参数λ

λ是用来调和损失函数和正则化项的,λ越大表示模型训练更看重规则项。我么希望模型既能看重损失项,来拟合好我们的训练集,同时又能够有约束的特征在里面。

我们再训练之前,可以大概计算一下此时的loss值是多大,正则化值是多大,然后针对他们的比例来设置λ,进而缩小我们的搜索空间;

此外,还可采用交叉验证的方法,将数据分成几份,一部分训练,一部分测试,然后选不同的λ值在一个训练集上训练多个模型,然后取测试集测试,取其中表现最好模型对应的λ来作为最终取值。

转载注明:https://www.jianshu.com/p/76706c2bbac2

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353