逻辑回归总结

1、对逻辑回归的理解

(1)逻辑回归解决分类的问题

线性回归不能解决分类问题,但是如果将样本的特征和样本发生的概率联系起来,即预测的是样本发生的概率是多少,就可以将回归的方法应用于分类问题。由于概率是一个数,因此被叫做“逻辑回归”。

在线性回归算法的例子中,我们进行房价预测得到的结果是一个数值,但是我们在逻辑回归算法中,得到的预测值是一个概率,然后在概率的基础上多做一步操作,得到分类的结果。如设置阈值为0.5,如果得到的概率大于0.5就为正,否则为负,则可用数学表达式表达如下:

因此可以看出,在回归问题上再多做一步,就可以作为分类算法来使用了。逻辑回归只能解决二分类问题,如果是多分类问题,LR本身是不支持的。并且,需要注意的是,一般的回归问题得到的值是没有限制的,值域从负无穷到正无穷,而对于概率来说,其值域是[0,1]。如果直接使用线性回归得到的结果拟合概率结果的可信程度较差。

(2)sigmoid函数

sigmoid函数表达式如下:

在学术界被称为sigmoid函数,是在数据科学领域,特别是神经网络和深度学习领域中非常重要的函数!。其图像如下图所示,呈S状,因此也被称为“S函数”。当t趋近于正无穷时,函数值趋近于1;当t趋近于负无穷时,函数值趋近于0。因此该函数的值域为(0,1)。

将效用函数之差(同样是线性回归模型)带入sigmoid函数中,当t>0时,得到的结果是概率值p>0.5;当t<0时,得到的结果是p<0.5。因此,实际上我们得到是这样的公式:

至此,得到大名鼎鼎的逻辑回归模型,形式如下:

(3)从对数几率看逻辑回归

在“对数线性回归”的公式中,可以改写为。实际上是在求输入空间X到输出空间y的非线性函数映射。对数函数的作用是将线性回归模型的预测值与真实标记联系起来。

因此可以得到一个一般意义上的单调可微的“联系函数”:。其本质就是给原来线性变换加上一个非线性变换(或者说映射),使得模拟的函数有非线性的属性,但本质上调参还是线性的,主体是内部线性的调参。

那么对于解决分类问题的逻辑回归来说,我们需要找到一个“联系函数”,将线性回归模型的预测值与真实标记联系起来。

将“概率”转换为“分类”的工具是“阶梯函数”:

但是这个阶梯函数不连续,不能作为“联系函数”g,因此使用对数几率函数来在一定程度上近似阶梯函数,将线性回归模型的预测值转化为分类所对应的概率。

如果另y为正例,1-y为负例,所谓的“几率”就是二者的比值y/1+y。几率反映了样本x为正例的相对可能性。“对数几率”就是对几率取对数ln(y/1+y),对数几率实际上就是之前提到的sigmoid函数,将线性模型转化为分类。将如下公式:

代入到对数几率中,则得到如下公式:

可以看出,sigmoid实际上就是用线性回归模型的预测结果取逼近真实值的对数几率,因此逻辑回归也被称为“对数几率回归”。

2、逻辑回归的损失函数

逻辑回归和线性回归最大的区别就是:逻辑回归解决的是分类问题,得到的y要么是1,要么是0。而我们估计出来的p是概率,通过概率决定估计出来的p到底是1还是0。因此,也可以将损失函数分成两类:

(1)如果给定样本的真实类别y=1,则估计出来的概率p越小,损失函数越大(估计错误)

(2)如果给定样本的真实类别y=0,则估计出来的概率p越大,损失函数越大(估计错误)

因此可以想到如下函数:

当y=1时,损失函数为-log(p)。特点是:p越趋于0,损失(loss)越大;越趋于1,损失(loss)越小。当y=0时,损失函数为-log(1-p),特点是,p越趋近于1,损失越大,越趋近于0,损失越小。

由于模型是个二分类问题,分类结果y非0即1,因此我们可以使用一个巧妙的方法,通过控制系数的方法,将上面的两个式子合并成一个:

以上是对于单个样本的误差值,那么求整个集合内的损失可以取平均值:

然后,将p替换成sigmoid函数,得到逻辑回归的损失函数如下:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容

  • 1、面试:一句话解释逻辑回归 LR是一种用于分类问题的对数线性判别式模型,由条件概率表示,其形式为参数化的逻辑斯蒂...
    0过把火0阅读 265评论 0 0
  • 写作计划: 线性模型LR(没有考虑特征间的关联)——>LR +多项式模型(特征组合,不适用于特征稀疏场景,泛化能力...
    城市中迷途小书童阅读 4,748评论 0 10
  • 写作计划: 线性模型LR(没有考虑特征间的关联)——>LR +多项式模型(特征组合,不适用于特征稀疏场景,泛化能力...
    流川枫AI阅读 20,268评论 8 44
  • 一、回归(Regression) 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的...
    ninedreams阅读 2,724评论 0 4
  • 这里 花开了 树也萌芽了 空气里 氤氲着草的香味 可是 你在哪里 这里 天蓝了 云也多了 阳光里 隐隐春天的影子 ...
    2班王圯涵11号阅读 209评论 0 3