机器学习基础-梯度下降方法与牛顿法

相关概念:

步长(learning rate):步长决定了梯度下降过程中,每一步沿梯度负方向前进的长度

特征(feature):样本输入

矩阵求导的链式法则:

公式一:\frac{\partial(XX^T)}{\partial X} =2X

公式二:\frac{\partial X}{\partial x} = X^T

假设函数(hypothesis function):监督学习中,为拟合输入样本,使用的假设函数,记为h_\theta(x)

损失函数(loss function):为评估模型拟合好坏,用损失函数度量拟合程度。损失函数极小化意味着拟合程度最好,对应的模型参数即为最优。线性回归中,损失函数通常为样本输出和假设函数的欧式距离(L2距离),即J(\theta) = \sum_{i=0}^m(h_\theta(x_i)-y_i)^2

梯度下降法(gradient descent)是求解无约束最优化问题的一种最常用方法,实现简单,梯度下降法是迭代算法,每一步需要求解目标函数的梯度。

1.确定优化模型的假设函数和损失函数

2.算法相关参数初始化:主要对象\theta_i(i=1,2,...,N),算法终止距离\varepsilon 和步长\eta

3.算法过程

1)确定当前位置的损失函数梯度,对于\theta_i其梯度表达式如下:

\frac{\partial}{\partial{\theta_i}} J(\theta_0,\theta_1,...,\theta_n),也可直接对损失函数在\theta_i处进行一阶泰勒展开。

2)步长乘损失函数梯度,得到当前位置下降的距离,即\theta_i=\theta_i-\eta \frac{\partial}{\partial{\theta_i}} J(\theta_0,\theta_1,...,\theta_n)

3)确定是否所有\theta 梯度下降距离都小于\varepsilon ,如果小于则算法终止,当前所有\theta 即为最终结果,否则进入步骤4

4)更新所有\theta ,对\theta_i其更新表达式如下,更新完毕继续转入步骤1

\theta_i^{k+1}\leftarrow \theta_i^k-\eta \frac{\partial}{\partial{\theta_i^k}} J(\theta_0^k,\theta_1^k,...,\theta_n^k)

向量表示为

\theta_i^{k+1}\leftarrow \theta_i^k-\eta G_k

SGD(随机梯度下降算法)

现在随机梯度下降算法一般指小批量梯度下降法(mini-batch gradient descent)

采用小批量样本更新\theta ,选择n个训练样本(n<m,m为总训练集样本数),在这n个样本中进行n次迭代,每次使用1个样本,对n次迭代得出的n个gradient进行加权平均再并求和,作为这一次mini-batch下降梯度。

梯度下降算法与其他无约束优化算法比较

与最小二乘相比,梯度下降法迭代求解,最小二乘法计算解析解,样本小且存在解析解则最小二乘法比梯度下降更有优势,计算速度快,样本大则需要解一个超大的逆矩阵,难解且耗时。

与牛顿法相比,两者均为迭代求解,梯度下降法是梯度求解,牛顿法用二阶梯度或海森矩阵的逆矩阵或伪逆矩阵求解。牛顿法收敛更快但每次迭代时间比梯度下降法长。

牛顿法

牛顿法和梯度下降法示意图如下:


左图为梯度下降法,右图为牛顿法


由上图可知牛顿法每次迭代希望找到\theta_i处切线与横轴的交点,即为所求的更新值

\theta_i^k处对损失函数进行二阶泰勒展开

J(\theta) = J(\theta^k)+G_k^T(\theta-\theta^k)+\frac{1}{2} (\theta-\theta^k)^T(\theta-\theta^k)H(\theta^k)

其中一阶导G_k^T对应雅可比矩阵,二阶导H(\theta^k)对应海森矩阵

G_0^T = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & ... &\frac{\partial f_1}{\partial x_n} \\ ... & ...& ....\\ \frac{\partial f_m}{\partial x_1} & ... &\frac{\partial f_m}{\partial x_n}\end{bmatrix}\quadH = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2}  & \frac{\partial^2 f}{\partial x_1\partial x_2}&... &\frac{\partial^2 f}{\partial x_1\partial x_n} \\ \frac{\partial^2 f}{\partial x_2\partial x_1}& ...& ....&...\\ ...&...&...&...\\\frac{\partial^2 f}{\partial x_n\partial x_1} & ... &...& \frac{\partial^2 f}{\partial x_n^2}\end{bmatrix}\quad


函数J(\theta) 有极值的必要条件是在极值点处一阶导数为0,即梯度向量为0

将其一阶导在\theta_i^k处进行泰勒展开

\nabla J(\theta) = G_k+H(\theta_i^k)(\theta_i^{(k+1)}-\theta_i^k)=0

则可得

\theta_i^{k+1} \leftarrow \theta_i^k-H^{-1}(\theta_i^k)G_k

代数表示为

\theta_i^{k+1}\leftarrow \theta_i^k-\frac{J`(\theta_i)}{J``(\theta_i)}

比较两者差别,牛顿法迭代次数较少但求二阶海森矩阵及其逆非常复杂。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 转载-刘建平Pinard-www.cnblogs.com/pinard/p/5970503.html 在求解机器学...
    商三郎阅读 3,490评论 0 2
  • http://www.cnblogs.com/pinard/p/5970503.html 在求解机器学习算法的模型...
    吃番茄的土拨鼠阅读 1,637评论 0 5
  • 背景 学习深度学习已经一段时间了,但是学习过程中总觉得缺了点什么,无从动手编程。因此,我还是希望使用写文章的方式来...
    yjy239阅读 2,203评论 0 7
  • 什么是梯度下降?在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最...
    烨枫_邱阅读 2,093评论 0 7
  • 人了解世界可能也不是线形的,就像我以前一直认为人类的发展是线形的!元谋人就是元谋人,山顶洞人就是山顶洞人!儿时看到...
    LZCBRON阅读 182评论 0 0