机器学习面试之逻辑回归输出的值是真实的概率吗?

逻辑回归作为被广泛使用的二分类模型,面试中自然是不可缺少的。但要深刻理解逻辑回归又不是那么容易的,比如说,逻辑回归输出的值是0到1之间的值,这个值是真实的概率吗?逻辑回归为什么要选择sigmoid函数的形式,而不是其他将数值映射到0到1之间的形式?本文试图给出一个尽可能简单明了的分析。

一、从一个例子开始


假设你在一家金融公司工作,老板交给你一个任务,建一个模型,用来预测一个借款人是否会违约,公司拥有一个借款人的特征数据,比如年龄。

将是否违约作为标签变量y,0表示没有违约,1表示违约。在给定特征x的情况下,我们假设 y 是一个服从伯努利分布的二值随机变量。注意,这是我们做的第一个假设哦!从某种意义上讲,模型准不准,首先要看假设合不合理。

我们的任务用数学语言描述就是,寻找一个模型,输入x后,可以告诉我们y所服从的随机分布的参数,知道参数后,就可以计算y的期望作为预测。

具体到违约预测,上面所说的随机分布就是指伯努利分布,该分布的参数就是Φ=P(y=1),同时也是该分布的期望。

请认真体会一下我们的思路:

  • 1、对每一个确定的x,y仍然是一个随机变量
  • 2、该随机变量服从某个随机分布
  • 3、努力求出这个随机分布的参数
  • 4、求出该随机分布的期望
  • 5、将期望作为预测值

二、从更高的层次看待伯努利分布

那么,如何根据x求出y所属的伯努利分布的参数Φ呢。

直接看,似乎没什么思路,我们需要换个角度。

伯努利分布实际上属于某一大类分布中的一种情况。这一大类分布就是指数分布族。
这就好比, x + 1=0是一个方程,但从更广泛的角度来看,它只是 ax + b = 0一次方程的一种具体情况而已。

从指数分布族的角度来分析,我们很容易构建起x与伯努利分布参数的联系。

3、指数分布族

下面,我们就来看看指数分布族是什么样子,如果你是第一次看到它,很可能是这样:


初见指数分布族

请放轻松,它只是看起来有些复杂,实际上并不难。


指数分布族

为了简化理解,你可以自动忽略η上面的大写字母T,仅仅将η作为一个实数来理解。

它其实是在告诉我们:
对于一个随机变量x,只要你确定三个函数,就可以确定一类分布。
这三个函数就是:

  • h(x)
  • T(x)
  • A(η)
    η用来确定该类分布的具体参数。

对于我们的伯努利分布,这三个函数是什么样子呢?我们可以从伯努利分布出发,一路变形到与指数分布族一样的形式。如下所示:


微信图片_20180610220220.jpg

请认真看看上面的变形推导过程。可以看到,伯努利分布确实可以改写成指数分布族的形式。并且,伯努利分布的参数Φ与η之间,还有一个sigmoid的函数关系。

4、最后一步

现在,我们看到,伯努利分布确实是指数分布族的一个特殊情况,它的参数Φ与指数分布族中的参数η还有对应关系。
这意味着,我们如果能找到x和η之间的关系,那么也就找到了x和Φ之间的关系。

在这里,我们需要再做一个假设,那就是
η和x之间存在线性的关系!!注意,这是我们做的第二个假设哦。即:
η = θx。

有了这个假设,我们的模型训练过程就是这样的:

  • 对一个x,根据 θx算出η
  • 根据η算出Φ
  • 因为Φ既是伯努利分布的唯一参数,也是该分布的期望,所以将Φ作为预测值。
  • 计算Φ与真实的标签y之间的误差loss。(通常用交叉熵)
  • 通过SGD来更新θ,降低loss。

这不就是我们的逻辑回归么?

5总结

可见,逻辑回归模型之所以是sigmoid 的形式,源于我们假设y服从伯努利分布,伯努利分布又属于指数分布族,经过推导,将伯努利分布变成指数分布族的形式后。我们发现伯努利分布的唯一参数Φ与指数分布族中的参数η具有sigmoid函数关系,于是我们转而求η与x的关系,此时,我们又假设η与x具有线性关系。
至此,找到了我们要用的模型的样子,也就是逻辑回归。

回答文章开头的问题,逻辑回归输出的到底是不是概率呢?答案是如果你的情况满足本文所说的两个假设,那么你训练模型的过程,就确实是在对概率进行建模。

这两个假设并不是那么容易满足的。所以,很多情况下,我们得出的逻辑回归输出值,无法当作真实的概率,只能作为置信度来使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容