机器学习入门(四):常用优化算法-梯度下降法

凸函数

什么叫做凸函数?这个有一套严格的数学定义:某个向量空间的凸子集(区间)上的实值函数,如果在其定义域上的任意两点 ,有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y),则称其为该区间上的凸函数

注意:此处说得凸函数对应英语中的 Convex Function。在有些数学教材中(例如同济大学高等数学教材),把这种函数称为指凹函数,而把 Concave Function 称为凸函数,与我们的定义正好相反。

另外,也有些教材会把凸定义为上凸,凹定义为下凸。如果遇到一定要搞清楚具体“凸函数”这个词指的是什么。

将这一定义用一元函数的形式,在二维坐标轴里表现出来,是这样的:

enter image description here

直观的理解,就是二维空间中的一条曲线,有个“弯儿”冲下,那个弯儿里面的最低点,就是该函数在自变量取值区间内的最小值。

如果自变量取值区间是整个实数域的话,那么可以想象这条曲线所有向下的弯儿里面有一个低到最低的,叫全局最小,而其他的弯儿,就叫做局部最小。

enter image description here

这是二维的情况。

如果自变量本身是二维的(二元函数),则凸函数在三维空间中的图像是这样的:

enter image description here

同样有个“弯儿”,只不过这个弯儿不再是一段曲线,而是成了一个碗状的曲面,“碗底儿”就是区域内的极值点。在三维空间中,我们要找的最小值就是最深的那个碗底儿(如果不止一个的话)。

梯度下降法

既然已经知道了学习的目标就是最小化目标函数的取值,而目标函数又是凸函数,那么学习的目标自然转化成了寻找某个凸函数的最小值。

注意:判定一个给定函数是否是凸函数是一件比较复杂的事情,我们在此不多讲。

因为本课都是讲解经典机器学习模型,所以,前人的工作已经保证我们用到的目标函数都是凸函数。如果未来在应用中构建自己的目标函数,那么千万记得在直接应用任何优化算法之前,应该先确定它是凸函数。

最常用的一种方法,叫做梯度下降法

这种方法从直观来看,非常容易理解。我们还是先以一元函数为例。假设我们的目标函数是一个一元凸函数。

这个函数本身我们已经知道了,那么只要给定一个自变量的取值,就一定能够得到相应的因变量的取值。

那么我们可以采用如下步骤来获得其最小值:

enter image description here
  1. 随机取一个自变量的值 x0;
  2. 对应该自变量算出对应点的因变量值:f( x0);
  3. 计算 f( x0) 处目标函数 f(x) 的导数;
  4. 从 f( x0) 开始,沿着该处目标函数导数的反方向,按一个指定的步长 α,向前“走一步”,走到的位置对应自变量取值为 x1;
  5. 继续重复2-4,直至退出迭代(达到指定迭代次数,或 f(x) 近似收敛到最优解)。

直观的看起来,就像上图演示的那样,在 J(w) 曲线上任取一点,放上一个没有体积的“小球”,然后让这个小球沿着该处曲线的切线方向“跨步”,每一步的步长就是 α,一直跨到最低点位置。

对应三维的情况,可以想像在一个很大的碗的内壁上放上一个小球,每次,我们都沿着当时所在点的切线方向(此处的切线方向是一个二维向量)向前走一步,直到走到碗底为止。

梯度下降的超参数

上面讲了梯度下降法,其中的 α,又叫做步长,它决定了为了找到最小值点而尝试在目标函数上前进的步伐到底走多大。

步长是算法自己学习不出来的,它必须由外界指定

这种算法不能学习,需要人为设定的参数,就叫做超参数

步长参数 α 是梯度下降算法中非常重要的超参数。这个参数设置的大小如果不合适,很可能导致最终无法找到最小值点。

比如下左图就是因为步幅太大,几个迭代后反而取值越来越大。改成右侧那样的小步伐就可以顺利找到最低点了。

enter image description here

不过大步伐也不是没有优点。步伐越大,每一次前进得越多。步伐太小,虽然不容易“跨过”极值点,但需要的迭代次数也多,相应需要的运算时间也就越多。

为了平衡大小步伐的优缺点,也可以在一开始的时候先大步走,当所到达点斜率逐渐下降——函数梯度下降的趋势越来越缓和——以后,逐步调整,缩小步伐。比如下图这样:

enter image description here

梯度下降的难点

那是不是只要步伐合适,就一定能找到最小值点呢?也不一定。

如果目标函数有多个极小值点(多个向下的“弯儿”),那么如果开始位置不妥,很可能导致最终是走到了一个局部极小值就无法前进了。比如下图的 Postion1 和 Position2。

这种情况确实很难克服,是梯度下降算法的一大挑战。

enter image description here

如果目标函数不能确定只有一个极小值,而获得的模型结果又不令人满意时,就该考虑是否是在学习的过程中,优化算法进入了局部而非全局最小值。

这种情况下,可以尝试几个不同的起始点。甚至尝试一下大步长,说不定反而能够跨出局部最小值点所在的凸域。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容