【R实战高级方法】十三、广义线性模型

这里是佳奥！让我们开始广义线性模型篇的学习吧！

广义线性模型扩展了线性模型的框架，它包含了非正态因变量的分析。

在本章中，我们将首先简要概述广义线性模型，并介绍如何使用glm()函数来进行估计。

然后我们将重点关注该框架中两种流行的模型：Logistic回归（因变量为类别型）和泊松回归（因变量为计数型）。

1 广义线性模型和glm( )函数

现假设想要对响应变量Y和p个预测变量X1...Xp间的关系进行建模。

在标准线性模型中，可以假设Y呈正态分布，关系的形式为：

给定一系列X变量的值，赋予X变量合适的权重，然后将它们加起来，便可预测Y观测值分布的均值。

而广义线性模型拟合的形式为：

其中g(μY)是条件均值的函数（称为连接函数）。设定好连接函数和概率分布后，便可以通过最大似然估计的多次迭代推导出各参数值。

1.1 glm( )函数

函数的基本形式为：

glm( )的参数：

glm( )函数可以拟合许多流行的模型，比如Logistic回归、泊松回归。后续内容针对这两个展开：

假设有一个响应变量（Y）、三个预测变量（X1、X2、X3）和一个包含数据的数据框（mydata）。

可用如下代码拟合Logistic回归模型：

拟合泊松回归模型：

1.2 连用的函数

与分析标准线性模型时lm( )连用的许多函数在glm( )中都有对应的形式，与glm( )连用的函数见下表：

1.3 模型拟合和回归诊断

当评价模型的适用性时，可以绘制初始响应变量的预测值与残差的图形：

其中，model为glm( )函数返回的对象。

R将列出帽子值（hat value）、学生化残差值和Cook距离统计量的近似值。

对于识别异常点的阈值，现在并没统一答案，其中一个方法就是绘制各统计量的参考图，然后找出异常大的值。例如，如下代码可创建三幅诊断图：

它可以创建一个综合性的诊断图。在后面的图形中，横轴代表杠杆值，纵轴代表学生化残差值，而绘制的符号大小与Cook距离大小成正比。

2 Logistic 回归

以AER包中的数据框Affairs为例，我们将通过探究婚外情的数据来阐述Logistic回归的过程。

该数据从601个参与者身上收集了9个变量，包括一年来婚外私通的频率以及参与者性别、年龄、婚龄、是否有小孩、宗教信仰程度（5分制，1分表示反对，5分表示非常信仰）、学历、职业（逆向编号的戈登7种分类），还有对婚姻的自我评分（5分制，1表示非常不幸福，5表示非常幸福）。

我们先来看一下数据：

从这些统计信息可以看到，52%的调查对象是女性，72%的人有孩子，样本年龄的中位数为32岁。

对于响应变量，72%的调查对象表示过去一年中没有婚外情（451/601），而婚外偷腥的最多次数为12（占了6%）。

但此处我们感兴趣的是二值型结果（有过一次婚外情/没有过婚外情），将affairs转化为二值型因子ynaffair：

该二值型因子现可作为Logistic回归的结果变量：

从回归系数的p值（最后一栏）可以看到，性别、是否有孩子、学历和职业对方程的贡献都不显著（无法拒绝参数为0的假设）。

去除这些变量重新拟合模型，检验新模型是否拟合得好：

新模型的每个回归系数都非常显著（p<0.05）。

由于两模型嵌套（fit.reduced是fit.full的一个子集），可以使用anova( )函数对它们进行比较，对于广义线性回归，可用卡方检验：

结果的卡方值不显著（p=0.21），表明四个预测变量的新模型与九个完整预测变量的模型拟合程度一样好。

结论：添加性别、孩子、学历和职业变量不会显著提高方程的预测精度，因此可以依据更简单的模型进行解释。

2.1 解释模型参数

先看看回归系数：

在Logistic回归中，响应变量是Y=1的对数优势比（log）。

回归系数含义是当其他预测变量不变时，一单位预测变量的变化可引起的响应变量对数优势比的变化。

由于对数优势比解释性差，可对结果进行指数化：

可以看到婚龄增加一年，婚外情的优势比将乘以1.106（保持年龄、宗教信仰和婚姻评定不变）。而如果婚龄增加10年，优势比将乘以1.106^10，即2.7。

2.2 评价预测变量对结果概率的影响

使用predict( )函数，可观察某个预测变量在各个水平时对结果概率的影响。

首先创建一个包含你感兴趣预测变量值的虚拟数据集，然后对该数据集使用predict( )函数，以预测这些值的结果概率：

从这些结果可以看到，当婚姻评分从1（很不幸福）变为5（非常幸福）时，婚外情概率从0.53降低到了0.15（假定年龄、婚龄和宗教信仰不变）。

下面我们再看看年龄的影响：

此处可以看到，当其他变量不变，年龄从17增加到57时，婚外情的概率将从0.34降低到0.11。

2.3 过度离势

过度离势会导致奇异的标准误检验和不精确的显著性检验。

检测过度离势的一种方法是比较二项分布模型的残差偏差与残差自由度，如果比值：

比1大很多，便可认为存在过度离势。

回到婚外情的例子，可得：

它非常接近于1，表明没有过度离势。

还可以对过度离势进行检验。为此，需要拟合模型两次，第一次使用family ="binomial"，第二次使用family = "quasibinomial"。

假设第一次glm( )返回对象记为fit，第二次返回对象记为fit.od，那么，

提供的p值即可对零假设H0：Φ = 1 与备择假设H1：Φ ≠ 1进行检验。若p很小（小于0.05），便可拒绝零假设。

又报错了，，，

一行一行排查，原来是拼写错误，，

此处p值（0.34）显然不显著（p > 0.05），我们认为不存在过度离势。

2.4 扩展

R中扩展的Logistic回归和变种：

1、稳健Logistic回归 robust包中的glmRob( )函数可用来拟合稳健的广义线性模型。

2、多项分布回归若响应变量包含两个以上的无序类别（比如，已婚/寡居/离婚），便可使用mlogit包中的mlogit( )函数拟合多项Logistic回归。

3、序数Logistic回归若响应变量是一组有序的类别（比如，信用风险为差/良/好），便可使用rms包中的lrm( )函数拟合序数Logistic回归。

3 泊松回归

当通过一系列连续型和/或类别型预测变量来预测计数型结果变量时，泊松回归是一个非常有用的工具。

我们将使用robust包中的Breslow癫痫数据。

我们就遭受轻微或严重间歇性癫痫的病人的年龄和癫痫发病数收集了数据，包含病人被随机分配到药物组或者安慰剂组前八周和随机分配后八周两种情况。响应变量为sumY（随机化后八周内癫痫发病数），预测变量为治疗条件（Trt）、年龄（Age）和前八周内的基础癫痫发病数（Base）。

在解释这些协变量后，我们感兴趣的是药物治疗是否能减少癫痫发病数。

首先看看数据集的统计汇总信息：

我们只关注之前描述的四个变量。基础和随机化后的癫痫发病数都有很高的偏度。

现在，我们更详细地考察响应变量：

可以清楚地看到因量的偏倚特性以及可能的离群点。

初看图形时，药物治疗下癫痫发病数似乎变小了，且方差也变小了（泊松分布中，较小的方差伴随着较小的均值）。

与标准最小二乘回归不同，泊松回归并不关注方差异质性。

接下来拟合泊松回归：

输出结果列出了偏差、回归参数、标准误和参数为0的检验。

此处预测变量在p<0.05的水平下都非常显著。

3.1 解释模型参数

使用coef( )函数可获取模型系数，或者调用summary( )函数的输出结果中的Coefficients表格：

年龄的回归参数为0.0227，表明保持其他预测变量不变，年龄增加一岁，癫痫发病数的对数均值将相应增加0.03。

指数化系数：

保持其他变量不变，年龄增加一岁，期望的癫痫发病数将乘以1.023。

3.2 过度离势

泊松分布的方差和均值相等。当响应变量观测的方差比依据泊松分布预测的方差大时，泊松回归可能发生过度离势。

与Logistic回归类似，此处如果残差偏差与残差自由度的比例远远大于1，那么表明存在过度离势。对于癫痫数据，它的比例为：

很显然，比例远远大于1。

qcc包提供了一个对泊松模型过度离势的检验方法：

后续步骤同Logistic，这里不再赘述。

扩展

R提供了基本泊松回归模型的一些有用扩展，包括允许时间段变化、存在过多0时会自动修正的模型，以及当数据存在离群点和强影响点时有用的稳健模型。包括：

1时间段变化的泊松回归

2零膨胀的泊松回归

3稳健泊松回归

4 小结

本篇在简短介绍了通用方法后，探究了Logistic回归和泊松回归。

随后，我们讨论了过度离势问题，包括如何检测以及依据它进行调整等方法。

在下一篇的学习中，我们将学习如何使用因子分析方法检测和检验这些无法被观测到的变量的假设。

我们下一篇再见！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,752评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,100评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,244评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,099评论 1赞 286
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,210评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,307评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,346评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,133评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,546评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,849评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,019评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,702评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,331评论 3赞 319
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,030评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,260评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,871评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,898评论 2赞 351

【R实战 高级方法】十三、广义线性模型