StatQuest学习笔记21——逻辑回归

前言——主要内容

这篇笔记是StatQuest系列视频教程的第56小节,主要内容是逻辑回归(Logistic Regression)。

回顾线性回归

在讲逻辑回归之前,我们先回顾一下线性回归。

例如我们有一批数据,研究的是体重与小鼠的大小之间的关系,如下所示:

image

我们可以找到一条回归曲线,来研究这两者之间的关系,通过这条曲线,我们可以得到以下信息:

  1. 计算出{R}^2,这个数值可以看出体重与大小之间的相关程度,数值越大,就越能表明这两者关系密切;
  2. 计算出p值,这个p值可以看出{R}^2是否有统计学上的意义;
  3. 计算出这个曲线的方程,利用体重来预测小鼠的大小。

如下所示:

image

例如,我们有一个新的小鼠体重,如下所示:

image

通过这个点向做一条垂直于x轴(也就是体重)的直线,然后找到这个直线与前面回归曲线的交点,再通过这个交点做一条平行于x轴的直线,与y轴交叉的地方就是小鼠的大小,如下所示:

image

这种用某个数据预测另外一个数据的方法其实就是机器学习的范畴了,如下所示:

image

现在我们再回顾一下多元线性回归,现在我们利用体重(weight),血量(blood volumne)来预测小鼠的大小(size),如下所示:

image

多元线性回归的计算与二元线性回归的计算一样,计算出{R}^2,再计算出{R}^2的p值,然后利用线性回归的方程通过体重和血量来预测小鼠的大小,如下所示:

image

此外,我们还提到了通过不同的检测指标,例如表型(genotype)来预测小鼠的大小,如下所示:

image

现在我们比较一下二元线性回归与多元线性回归,如下所示:

image

通过比较这两种线性回归,我们知道,如果我们使用更多的变量(例如在多元线性回归中,我们添加了血量这个变量)来预测大小,结果会更加精确,如下所示:

image

逻辑回归简介

现在要学习另外一种回归,就是逻辑回归。逻辑回归与线性回归比较类似,如下所示:

image

逻辑回归预测的结果并不是具体的某个数据,而某个结果是True还是False,如下所示:

image

例如,在上面的案例中,有9只小鼠,最上面的5只小鼠是肥胖小鼠,下面的4只小鼠是非肥胖型小鼠,如下所示:

image

此时,我们要找一条曲线来拟合这些数据,不过这条曲线与线性回归的直线不同,它是S型的,如下所示:

image

其中纵坐标的范围是0到1,如下所示:

image

这就说明,我们最终计算的结果是一个概率,就是由小鼠的体重来预测这个小鼠是否是肥胖小鼠的概率,如下所示:

image

如果一个小鼠的体重很重,如下所示:

image

那么,通过这个点做一条垂直于横坐标的直线,与逻辑回归的曲线相交,我们就可以发现,这个小鼠有很大的概率是肥胖小鼠,如下所示:

image

如果一个小鼠的体重处于中间地带,如下所示:

image

那么这只小鼠可能只有50%的可能性是肥胖小鼠,如下所示:

image

如果一只小鼠的体重很小,那么它就不太可能是肥胖小鼠,如下所示:

image

虽然逻辑回归会告诉我们一只小鼠是否是肥胖小鼠,但是逻辑回归在多数情况下,是用于分类的,如下所示:

image

同理,如果一只小鼠是肥胖小鼠的概率是50%,那么我们就会把它归于肥胖小鼠这一类,否则,我们会把这只小鼠归于非肥胖小鼠这一类,如下所示:

image

逻辑回归简单案例

现在我们来看一个逻辑回归的简单案例,在这个案例中,我们使用小鼠的体重来预测是否是肥胖小鼠,如下所示:

image

我们还有可能会涉及一个更复杂的案例,例如通过体重和表型来预测小鼠是否是肥胖小鼠,如下所示:

image

或者是更加复杂的案例,例如使用体重,表型,年龄来预测小鼠是否是肥胖小鼠,如下所示:

image

或者说,还要复杂,例如通过体重,表型,年龄,星座(astrological sign??)来预测小鼠是否是肥胖小鼠,如下所示:

image

换句话说,逻辑回归与线性回归相同之处在于,逻辑回归也可以使用连续型变量(例如体重与年龄),,与离散型变量(例如表型与星座)来进行计算,如下所示:

image

我们还检测一下每个变量是否能够用于预测小鼠是否是肥胖小鼠,如下所示:

image

但是,逻辑回归与线性回归不同,我们不太容易比较复杂回归与简单回归,如下所示:

image

相反,我们不会直接比较复杂回归与简单回归,而是通过Wald方法检验一下,一个变量是否能够对预测结果产生明显的影响(与0相比),如果这个变量对预测结果没有什么影响,那么此变量就无法为预测提供相应的信息,这种如下所示:

image

如果我们检验了这些变量的话,那么我们就发现,星座这个变量对预测小鼠是否肥胖没什么帮助,如下所示:

image

这就说明,我们在计算逻辑回归的方程时,就可以不使用星座这个变量,从而节省时间与空间,如下所示:

image

逻辑回归使用连续型变量和离散型变来来计算概率,它能对一个新的样本进行分类,这是一种常用的机器学习方法,如下所示:

image

线性回归与逻辑回归的一个最大的区别在于,如何找到一条拟合这些数据的曲线,如下所示:

image

在线性回归中,我们通常使用最小二乘法来寻找拟合这些数据的曲线,如下所示:

image

换句话说,我们找到的这条曲线,每个点到这条曲线的距离平方和(残差)最小,如下所示:

image

我们还要利用残差来计算{R}^2,用于比较简单线性回归与复杂线性回归,如下所示:

image

逻辑回归没有线性回归中“残差”的概念,因此,我们无法使用最小二乘法来计算曲线,也无法计算{R}^2,如下所示:

image

计算逻辑回归曲线方程的方法是“最大似然法”,如下所示:

image

最大似然法以前讲过,在这里,只是用一种比较简单粗糙,不严谨的语言来描述一下。

首先,把小鼠的体重经过缩放(scaled),先拟合出一条曲线,此时,这条曲线只是初步的一条曲线,不是最终的曲线。找到第1只小鼠(这只小鼠是非肥胖小鼠)的体重在这条曲线上对应的概率,如下所示:

image

此时,计算一下这个非肥胖小鼠(也就是第1只小鼠)与这条曲线上小鼠对应的概率的相符的似然性(likelihood),如下所示:

image

然后,再找到第2只小鼠在这条曲线上对应的概率,以及计算第2只小鼠与这个概率的似然性,如下所示:

image

所有的小鼠都这么计算,如下所示:

image

最终,把这些小鼠的所有似然性都相乘,就是这条曲线与这些数据的似然性,如下所示:

image

此时,我们已经计算了第1条曲线了的似然性了,此时,还转换一下曲线,计算这条新的曲线的似然性,如下所示:

image

还有第3条曲线,也是如此计算,如下所示:

image

最终,我们会通过极大似然法找到最适合的这条曲线,如下所示:

image

现在总结一下,逻辑回归是用于对样本分类的算法,如下所示:

image

它可以使用不同的数据类型(例如大小和表型)来对数据进行分类,如下所示:

image

这种方法还可以用评估哪些变量可以用于分类(例如星座就无法用于分类),如下所示:

image

总结

上面只是一种非常精浅的逻辑回归的描述,并没有涉及到如何计算,如果看结果。如果真正要运用的话,还需要看其他的统计学书籍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容