R数据分析:逻辑斯蒂回归与泊松回归

今天将逻辑回归和泊松回归放一起给大家写写,因为它两在R中的做法都非常的相似和非常的简单,同时还有两个回归的图形化表达。

什么时候用逻辑回归

Logistic regression, also known as logit regression, is what you use when your outcome variable (dependent variable) is dichotomous

就是如果你的因变量是二分类的时候就得考虑用逻辑回归了,多分类也得用,所以你就记住因变量只要是分类的,基本逻辑回归跑不掉。

Rather than estimate beta sizes, the logistic regression estimates the probability of getting one of your two outcomes (i.e., the probability of voting vs. not voting) given a predictor/independent variable(s). For our purposes

传统的回归都会出来一个β值,解释为当自变量改变一个单位时,因变量会改变β个单位,那么在做逻辑回归的时候也会有这个β值,但是意思却大大不同,此时的β值为自变量改变一个单位时,logOR的改变量,怎么解释呢?就是说自变量改变一个单位阳性结果(通常编码为1)的发生概率比阴性结果的发生概率会增加expβ倍。

什么时候用泊松回归

Poisson regression, also known as a log-linear model, is what you use when your outcome variable is a count (i.e., numeric, but not quite so wide in range as a continuous variable.)

当你的因变量是单位时间某事件的发生次数时你就应该考虑用泊松回归,比如你想研究的因变量是过去一个月病人发生心梗的次数,你就考虑用泊松回归。

实例展示

今天的例子为研究GRE,GPA和学校排名是否会影响一个人被录取为研究生,在这个例子中GRE和GPA都是连续变量,学校排名rank为分类变量,是否录取admit为(0/1)二分类

读入数据(数据请私信获取):

mydata <- read.csv('C:/Users/hrd/Desktop/bootcamp/dataset/binary.csv')
head(mydata)
image

那么对于这么一个数据集,我们就应该使用逻辑回归模型,首先我们得告诉R我们的学校排名rank这个变量是分类变量,然后再拟合模型:

mydata$rank <- factor(mydata$rank)
mylogit <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(mylogit)
image

从上面的结果看出:

  • 结果中首先会提示你跑的什么模型
  • 然后我们会看到deviance residuals,这个和线性回归的残差一个意思,是表示模型好坏的一个指标
  • 然后就是各个预测变量的系数和标准误,z统计量和p值,我们可以看到gpa,gre和rank都有显著意义,系数的解释就是预测变量每增加一个单位,LogOR的改变量,比如对于gre就有学生的gre每增加一个单位,那么它被录取为研究生的概率增加exp0.002倍。

默认输出的这个结果其实是不直观的,我们可以通过下面的代码直接输出OR改变量和置信区间

exp(cbind(OR = coef(mylogit), confint(mylogit)))
image

这样解释起来就会直观很多。

那么模型建立好了之后,我们还可以使用该模型做预测,比如我们想看看不同学校排名是如何预测了学生是否能上研究生:

newdata1 <- with(mydata, data.frame(gre = mean(gre), gpa = mean(gpa), rank = factor(1:4)))
newdata1$rankP <- predict(mylogit, newdata = newdata1, type = "response")
newdata1
image

在上面的代码中我们将gpa和gre都固定为均值,只改变学校排名,然后我们得到的结果就是排名为1的学校的学生能上研究生的概率为0.517,排名为2,3,4的学校的学生能上研究生的概率分别为0.352,0.219,0.185。

我们还可以将不同的gre或者gpa与能否上研究生的关系以学校排名分组画出来,比如我们想画gre与能否上研究生的概率,此时我们需要有很多的gre分数:

newdata2 <- with(mydata, data.frame(gre = rep(seq(from = 200, to = 800, length.out = 100),
                                              4), gpa = mean(gpa), rank = factor(rep(1:4, each = 100))))

上面的代码就给不同排名的学校都生成了一百个200到800的gre分数,同时依然固定gpa

此时我们的newdata2就只有3个预测变量gre,gpa,和rank,我们用之前训练的模型来给这个数据做预测,生成newdata3:

newdata3 <- cbind(newdata2, predict(mylogit, newdata = newdata2, type = "link",
                                    se = TRUE))

此时这个newdata3就包含一个fit列以及fit的标准误,fit就是logOdds,如下图:

image

因为我们需要的是概率,所以我们需要将fit转化为预测概率,下面的代码就可以实现概率和概率的置信区间计算:

newdata3 <- within(newdata3, {
  PredictedProb <- plogis(fit)
  LL <- plogis(fit - (1.96 * se.fit))
  UL <- plogis(fit + (1.96 * se.fit))
})

此时再看我们的newdata3,里面就有我们的预测概率和置信区间了:

image

我们现在就可以以rank这个变量分组,画出gre和预测概率的关系:

ggplot(newdata3, aes(x = gre, y = PredictedProb)) + geom_ribbon(aes(ymin = LL,
    ymax = UL, fill = rank), alpha = 0.2) + geom_line(aes(colour = rank),
    size = 1)
image

到这儿这篇文章的逻辑回归就写完了,在具体分析的时候如果我们要用泊松回归,我们只需要将拟合模型时的family 参数修改为family=poisson就行,其余都完全一样。

那么对于本文中的例子来说,如果我们不是模拟的数据集,如果我们的newdata3中还有实际的admit这个变量,我们就可以进一步的做出真阳性率和假阳性率,进而画出ROC曲线。具体的操作之前文章应该有写的,有兴趣的可以翻看。

小结

今天给大家写了一个逻辑回归的例子,并对模型的输出和结果解释做了说明,希望对大家有帮助,很多人爱做预测模型,其实本文就是一个很好的例子。感谢大家耐心看完,也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!

往期内容:

机器学习:逻辑回归分类器(一)

R数据分析:多元逻辑斯蒂回归的做法

R数据分析:如何做逻辑斯蒂回归

R数据分析:ROC曲线与模型评价实例

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容