最小二乘法到线性回归到逻辑回归再到梯度下降算法

这篇文章有感。
我来总结一下,便于记忆。

  • 最小二乘法(Least Square Method)适用于二维空间,用直线 y=ax+b 对二维空间(平面)的数据进行拟合。将true label与直线评测出的值的偏差的平方和作为最小条件来选择参数a,b。
最小二乘法
  • 线性回归(Linear Regression)将最小二乘法拓展到多维空间,用超平面 y=Wx+b 对多维空间的数据进行拟合。 与最小二乘法类似,将true label与超平面评测出的值的偏差的平方和作为最小条件来选择参数Wb
线性回归
  • 逻辑回归(Logistics Regression)仅仅是在线性回归模型外面加了一层映射函数(sigmoid函数)。逻辑回归其实是一种分类模型!
    sigmoid函数其中,z=Wx+b(线性回归模型),若z很大,则f(z) ≈1;若z很小,则f(z)≈0。

二分类问题中使用sigmoid函数,多分类问题中使用softmax函数。

逻辑回归模型详解

逻辑回归模型的成本函数推导:

逻辑回归模型的成本函数推导过程

可以看到,此处用了交叉熵损失函数来作为成本函数。

那么为什么使用交叉熵而不是二次代价函数(最小二乘法)来定义呢?

原因如下:

  • 为什么不用二次代价函数?

    • 对于多元函数,由于变量过多,用最小二乘法定义的成本函数(损失函数)并不是在整个集合上都是凸函数,很难进行优化。
    • 由于逻辑回归模型使用了sigmoid函数作为激活函数,根据sigmoid函数的性质,函数值趋近于0和1的时候梯度值过小,会导致在后续梯度下降算法中参数收敛速度过慢。
  • 为什么用交叉熵损失函数?

    • 交叉熵代价函数的两个性质
      • 非负性(所以我们的目标就是最小化代价函数)
      • 当true label与预测值接近时,代价函数接近于0
    • 可以克服二次代价函数更新过慢的问题。根据梯度下降算法可知,当误差大的时候参数更新越快;误差小的时候参数更新越慢。

优化算法(成本函数最小化方法):

采用随机梯度下降方法来最小化交叉熵成本函数。

梯度下降(Gradient Descent):朝着梯度的反方向迭代地调整参数直到收敛。

Note:
梯度下降的几何意义描述:梯度下降实际上是一个“下坡”的过程。在每一个点上,我们希望往下走一步(假设一步为固定值0.5米),使得下降的高度最大,那么我们就要选择坡度变化率最大的方向往下走,这个方向就是成本函数在这一点梯度的反方向。每走一步,我们都要重新计算函数在当前点的梯度,然后选择梯度的反方向作为走下去的方向。随着每一步迭代,梯度不断地减小,到最后减小为零。

梯度的反方向是函数值下降最快的方向,故用梯度下降法寻找局部最小值,梯度的方向是函数值上升最快的方向,故用梯度上升法寻找局部最大值。

梯度下降图解:

梯度下降

参数的更新公式为

参数更新

梯度下降法详解

随机梯度下降(Stochastic Gradient Descent):
最小化每条样本的损失函数。

优点:收敛速度快。虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。
缺点:因为计算得到的并不是准确的一个梯度,容易陷入到局部最优解中。

批量梯度下降(Batch Gradient Descent)
最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。

优点:得到的是一个全局最优解
缺点:每迭代一步,都要用到训练集所有的数据,如果数据集很大,这种方法的迭代速度会很慢。

对比: 随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比批量梯度下降,迭代一次需要用到几十万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。

Mini-batch梯度下降
这是介于BSD和SGD之间的一种优化算法。每次选取一定量的训练样本进行迭代。此算法是将批量梯度下降法中m替换成mini-batch,将mini-bach的size设置为远小于m的大小。
在吴恩达的机器学习课程中讲到可以将m使用b来代替,循环m/b次直到收敛或是循环次数达到。

优点:得到的是一个局部近似解,但是其所计算的时间和效果要比随机梯度下降法的好。
缺点:但是在计算时候多了一个参数 b (即每批的大小)需要去调试。

带Mini-batch的随机梯度下降

  • 选择n个训练样本(n<m,m为总训练集样本数)
  • 在这n个样本中进行n次迭代,即每次使用1个样本
  • 对n次迭代得出的n个gradient进行加权平均再并求和,作为这一次mini-batch下降梯度
  • 不断在训练集中重复以上步骤,直到收敛。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容