深度学习之Logistic Regression

线性回归的函数如下:


逻辑回归则是通过对线性回归做次转换,来达到目的。其公式如下:

1、转换函数

为什么需要转换函数?
  转换函数的主要作用是提供一种非线性的建模能力。如果没有转换函数,那么Logistic Regression就变成了仅能够表达线性映射的Linear Regression,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。

转换函数的性质?

  • 可微性: 当优化方法是基于梯度的时候,这个性质是必须的。
  • 单调性: 当转换函数是单调的时候,单层网络能够保证是凸函数。
  • 输出值的范围: 当转换函数输出值是有限的时候,基于梯度的优化方法会更加 稳定,因为特征的表示受有限权值的影响更显著;当转换函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate。

从目前来看,常见的转换函数多是分段线性和具有指数形状的非线性函数。常用的转换函数有三种:

  • sigmoid
      sigmoid函数是最常用的函数,将一个实数范围的值转化到[0,1]区间内。其公式如下:
  • tanh
      tanh函数和sigmoid函数很像,但是其范围是[-1,1]。其公式如下:
  • relu
      该函数主要是为了对抗梯度消失。也就是当梯度反向传播到第一层的时候,梯度容易趋近于0或者一个极小值。当x小于0时,其为0;当x大于等于0是,其为本身。公式如下:

2、损失函数

2.1、线性回归单变量损失函数

线性回归单变量的损失函数是所有点到线的距离(欧式距离)之和,我们只要找出最小化该距离的w和b即可:


我们将E分别对w和b求导,得到:



另令上述两个式子为0,即可求出w和b的最优解:


2.1、线性回归多变量损失函数

更一般的情况是样本由d个属性描述,也就是多元线性回归。此时w是一个向量,我们可以把b放入w中统一考虑。那么此时的损失函数为:


将E对w求导:


同样的,令上述式子为0可得:


实际中{ X }^{ T }X经常不是可逆矩阵,此时可以得到多个w都可使得损失函数最小,选择哪个为输出由机器学习算法的归纳偏好决定。

2.3、欧式距离做逻辑回归的损失函数?

啰啰嗦嗦讲了一大堆线性回归损失函数的一系列求解过程。如果我们用同样的求解欧式距离的方式作为逻辑回归的损失函数,行不行?
假设我们用sigmoid转换函数:



由于f(x)是一个非线性函数,导致{ E }_{ (w,b) }不是一个凸函数,存在很多极小值点,我们并不能保证它会收敛到全局最小值。

2.4、最大似然估计

既然欧式距离不行,那有没有其他的式子可以?在说出逻辑回归的损失函数之前,我们先聊下最大似然估计。
先举例解释下最大似然估计:假设有两个外形一样的箱子,第一个箱子中有99个白球和1个黑球,第二个箱子中有99个黑球和1个白球。从箱子中拿出一个白球,问这个白球是从那个箱子中拿出的?
人们的第一印象是该球最像从第一个箱子取出的,这个推断符合人们的经验认识。“最像”就是“最大似然”之意,这种想法就是最大似然原理。

最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

<font color=red>重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。</font>

假设有个数据集:


似然函数(linkehood function):联合概率密度函数P(D|\theta )称为相对于D的θ的似然函数。


极大似然估计就是求使得出现该组样本的概率最大的θ值:


实际中为了便于分析,定义了对数似然函数:

2.5、逻辑回归损失函数

我们知道逻辑回归的函数式如下:


转化后为:


若将y视为类后验概率,则上述式子可重写为:


于是我们可以通过极大似然法估计w和b。给定数据集,对率回归模型最大化对数似然估计:


即令每个样本属于其真实值标记的概率越大越好。令\beta =(w,b),\chi =(x;1),则{ w }^{ T }x+b可简写为{ \beta }^{ T }\chi 。对应到我们的逻辑回归则只有这两种情况{ p }{ 1 }(\chi ;\beta )={ p }(y=1|\chi ;\beta ),{ p }{ 0 }(\chi ;\beta )={ p }(y=0|\chi ;\beta )=1-{ p }_{ 1 }(\chi ;\beta )。则上述的似然项可重写为:


因此最大化l(w,b)等价于最小化下面的式子:


因此逻辑回归的损失函数如下:

稍微解释下:当y=1时,如果此时f(x)=1,则单对这个样本而言的cost=0,表示这个样本的预测完全准确。那如果所有样本都预测准确,总的cost=0,达到了最优值。但是如果此时预测的概率f(x)=0,那么cost→∞,也就是此处的w和b对cost函数来说是一个很大的惩罚项。
当y=0时,推理过程跟上述完全一致,不再解释。

参考

1、https://blog.csdn.net/u014595019/article/details/52562159
2、https://blog.csdn.net/zengxiantao1994/article/details/72787849

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容