逻辑回归-1-逻辑回归简介

Logistic回归模型

一、Logistic回归模型构建以及求解参数

1.1、背景知识

  • 在实际的数据挖掘中,站在预测类问题的角度来看,除了需要预测连续型的因变量,还需要预判离散型的因变量。

  • 对于连续型变量的预测,可以借助于多元线性回归模型、岭回归模型或LASSO回归模型来解决。对于连续型变量的预测,可以借助于多元线性回归模型、岭回归模型或LASSO回归模型来解决。

  • 而对于离散型变量的识别(尤其是二元问题),则可以通过Logistic回归模型解决。

1.2、Logistic回归模型的用途

  • 一个是寻找“危险”因素,例如,医学界通常使用模型中的优势比寻找影响某种疾病的“坏”因素。

  • 另一个用途是判别新样本所属的类别,例如根据手机设备的记录数据判断用户是处于行走状态还是跑步状态。

1.3、Logistic与线性回归的关系

image

如果以0.5作为判别标准,左图呈现的回归模型对肿瘤的划分还是比较合理的,因为当肿瘤体积小于x_1时,都能够将良性肿瘤判断出来,反之亦然;

再来看右图,当恶性肿瘤在x轴上相对分散时,得到的线性回归模型会导致结果的误判;

根据图中信息可知,当线性回归模型的预测值越大(如果以0.5作为阈值),则肿瘤被判为恶性的可能性就越大,反之亦然;

如果对线性回归模型做某种变换,能够使预测值被“压缩”在0~1之间,那么这个范围就可以理解为恶性肿瘤的概率。当预测值越大,转换后的概率值就越接近于1,从而得到肿瘤为恶性的概率也就越大,反之亦然;

1.4、Logit变换

image

​ 其中,z∈(-∞,+∞)。当z趋于正无穷大时,e^(-z)将趋于0,进而导致g(z)逼近于1;

​ 相反,当z趋于负无穷大时,e^(-z)会趋于正无穷大,最终导致g(z)逼近于0;

​ 当z=0时,e^(-z)=1,所以得到g(z)=0.5;

假定线下回归模型为$$ z=β_0+β_1 x_1+β_2 x_2+…+β_p x_p$

则Logit变换为:g(z)=1/(1+e^├ -(β_0+β_1 x_1+β_2 x_2+…+βp x_p ) )=hβ (X)

上式中的ℎ_𝛽 (𝑋)也被称为Logistic回归模型,它是将线性回归模型的预测值经过非线性的Logit函数转换为[0,1]之间的概率值。

1.5、Logistic模型到线性回归模型的转变

条件概率,y取值为1时的概率:P(y=1│X;β)=h_β (X)=p

条件概率,y取值为0时的概率:P(y=0│X;β)=〖1-h〗_β (X)=1-p

二、Logistic回归模型的参数解释

2.1、事件发生比

​ 假设影响是否患癌的因素有性别和肿瘤两个变量,通过建模可以得到对应的系数β_1和β_2,则Logistic回归模型可以按照事件发生比的形式改写为:

三、模型效果的评估的方法

3.1、混淆矩阵

image

A:表示正确预测负例的样本个数,用TN表示。

B:表示预测为负例但实际为正例的个数,用FN表示。

C:表示预测为正例但实际为负例的个数,用FP表示。

D:表示正确预测正例的样本个数,用TP表示。

A+B:表示预测负例的样本个数,用PN表示。

C+D:表示预测正例的样本个数,用PP表示。

3.2、ROC曲线

图中的红色线为参考线,即在不使用模型的情况下,Sensitivity 和 1-Specificity 之比恒等于 1。通常绘制ROC曲线,不仅仅是得到左侧的图形,更重要的是计算折线下的面积,即图中的阴影部分,这个面积称为AUC。在做模型评估时,希望AUC的值越大越好,通常情况下,当AUC在0.8以上时,模型就基本可以接受了。

image

3.3、KS曲线

image

图中的两条折线分别代表各分位点下的正例覆盖率和1-负例覆盖率,通过两条曲线很难对模型的好坏做评估,一般会选用最大的KS值作为衡量指标。KS的计算公式为:KS= Sensitivity-(1- Specificity)= Sensitivity+ Specificity-1。对于KS值而言,也是希望越大越好,通常情况下,当KS值大于0.4时,模型基本可以接受。

3.1、混淆矩阵

四、Logistic回归模型的实战

ü另一个用途是判别新样本所属的类别,例如根据手机设备的记录数据判断用户是处于行走状态还是跑步状态。

ü而对于离散型变量的识别(尤其是二元问题),则可以通过Logistic回归模型解决。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容