广义与一般线性模型及R使用

5.1 数据的分类与模型选择

  • 变量的取值类型

因变量y的取值类型通常包括:连续变量、“0-1”变量或称二分类变量、有序变量(等级变量)、多分类变量和连续伴有删失变量,解释变量x则可分为连续变量、分类变量和等级变量。

  • 模型选择方式:基本公式

\mathbf Y = \mathbf X \mathbf \beta + e \\ E(e) = 0 ,cov(e) = \sigma^2I

\mathbf Y不是正态分布,则该模型为广义线性模型,而若\mathbf X不是连续或正态分布,则该模型为一般线性模型。下表为不同变量类型可选用的模型分类:

1582793257442.jpg

5.2 广义线性模型

广义线性模型(generalized linear model)是一般线性模型的直接推广,它使因变量的总体均值通过一个非线性连接函数(link function)而依赖于线性预测值,同时还允许响应概率分布为指数分布族中的任何一员,在广义线性模型中常用的分布族如下所示:

分布 函数 模型
正态(Gaussian) E(y)=\mathbf{X}'\beta 普通线性模型
二项(Binomial) E(y)= \frac{exp(\mathbf{X}'\beta)}{1+exp(\mathbf{X}'\beta)} logistic模型和概率模型单位(probit)模型
泊松(Poission) E(y) = exp(\mathbf{X}'\beta) 对数线性模型

广义线性模型函数glm()的用法:

glm(formula,family = gaussian, data,...)

formula为公式,即为要拟合的模型;
family为分布族,包括正态分布、二项分布、泊松分布和 伽玛分布,分布族还可以通过选项link=来指定使用的连接函数;
data为可选择的数据框。

说明与举例

1、Logistic模型

  • 函数形式:
    logit(y) = ln \frac{P}{1-P} = \beta_0 +\beta_1x_1 +\beta_2x_2+\cdots+\beta_px_p = \mathbf X \beta

    其中参数估计采用极大似然估计。

  • 举例:
    对45名驾驶员的调查结果,其中4个变量的含义为:

    • x1:表示视力状况,1好,0则为有问题;
    • x2:年龄,数值型;
    • x3:驾车教育,1表示参加过驾车教育,0表示无;
    • y:分类变量(去年是否出过事故,1出过,0没有)
#(1)建立全变量logistic回归模型
d5.1 <- xlsx::read.xlsx("msaD.xlsx",sheetIndex=5)
logit.glm <- glm(y~x1+x2+x3,family=binomial,data=d5.1)#logistic回归模型
#summary(logit.glm) #可查看初步的Logistic回归结果

#(2)逐步筛选变量logistic回归模型
logit.step <- step(logit.glm,direction="both")#逐步筛选法变量选择
#summary(logit.step)#可查看变量选择结果

#(3)预测发生交通事故的概率
pre <- predict(logit.step,data.frame(x1=1))#预测视力正常司机Logistic回归结果
p <- exp(pre)/(1+exp(pre))#预测视力正常司机发生事故概率

2、对数线性模型:

  • 函数形式:

ln(m_{ij}) = \alpha_i + \beta_j + ε_{ij}
ln(m_{ij}= \alpha_i + \beta_j +(\alpha\beta)_{ij}+ ε_{ij})

其中,式2含有交叉项。

  • 举例:

某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。

d5.2 <- read.xlsx("msaD.xlsx",sheetName="d5.2")
head(d5.2)
##y表示频数,x1表示收入人群,x2表示满意程度
#    y x1 x2
#1  53  1  1
#2 434  2  1
#3 111  3  1
#4  38  1  2
#5 108  2  2
#6  48  3  2
poi <- glm(y~x1+x2,family=poisson(link=log),data=d5.2)
summary(poi)

#Call:
#glm(formula = y ~ x1 + x2, family = poisson(link = log), data = d5.2)
#
#Deviance Residuals:
#      1        2        3        4        5        6
#-10.784   14.444   -8.468   -2.620    4.960   -3.142
#
#Coefficients:
#            Estimate Std. Error z value Pr(>|z|)
#(Intercept)  6.15687    0.14196  43.371  < 2e-16 ***
#x1           0.12915    0.04370   2.955  0.00312 **
#x2          -1.12573    0.08262 -13.625  < 2e-16 ***
#---
#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
#(Dispersion parameter for poisson family taken to be 1)
#
#    Null deviance: 662.84  on 5  degrees of freedom
#Residual deviance: 437.97  on 3  degrees of freedom
#AIC: 481.96
#
#Number of Fisher Scoring iterations: 5

从检验结果可以看出,p1和p2都<0.01,说明收入和满意程度对产品有重要影响。

5.3 一般线性模型

1、完全随机设计模型

  • 函数形式:

    y_{ij} = \mu + \alpha_i + e_{ij}\ ,\ i=1,2,\cdots,n
    其中,\mu表示观察结果y_{ij}的总体均值,\alpha_i是哑变量的系数,称为A因素各水平的主效应,e_{ij}是误差项。

    哑变量:也叫虚拟变量,引入哑变量的目的是,想不能够定量处理的变量量化,如职业、性别对收入的影响等,这种“量化”通常是通过引入“哑变量”来完成的,根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量,记为D。

  • 举例:

设有3台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板中各 随机抽取5块,测出厚度值,试分析各机器生产的薄板厚度有无显著差异?

d5.3 <- read.xlsx("msaD.xlsx",sheetName="d5.3")
head(d5.3)
#     Y A
#1 2.36 1
#2 2.38 1
#3 2.48 1
#4 2.45 1
#5 2.47 1
#6 2.43 1
#完全随机设计模型方差分析
anova(lm(Y~factor(A),data=d5.3))

#Analysis of Variance Table
#
#Response: Y
#          Df   Sum Sq  Mean Sq F value   Pr(>F)
#factor(A)  2 0.122233 0.061117  40.534 8.94e-07 ***
#Residuals 15 0.022617 0.001508
#---
#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

P<0.05,说明各机器生产的薄板厚度有显著差异。

2、随机单位组设计模型

  • 函数形式:

y_{ij}=\mu+\alpha_{i} + \beta_j + e + ij , \ i=1,2,\cdots,n

其中,\mu为总体均数,\alpha_i为处理因素A的第i个水平的效应;\beta_j为第j个单位组的效应,e_{ij}为误差项。

  • 举例:

使用4种燃料,3种推进器作火箭射程试验,每一种组合情况做一次试验,则得火箭 射程列在下表中,试分析各种燃料A与各种推进器B对火箭射程有无显著影响?

d5.4 <- read.xlsx("msaD.xlsx",sheetName="d5.4")
head(d5.4)
##A是燃料,B是推进器,Y是射程
#    Y A B
#1 582 1 1
#2 491 2 1
#3 601 3 1
#4 758 4 1
#5 562 1 2
#6 541 2 2
anova(lm(Y~factor(A)+factor(B),data=d5.4))
#Analysis of Variance Table
#
#Response: Y
#          Df Sum Sq Mean Sq F value Pr(>F)
#factor(A)  3  15759    5253  0.4306 0.7387
#factor(B)  2  22385   11192  0.9174 0.4491
#Residuals  6  73198   12200

P(A)和P(B)均>0.05,说明各种燃料和各种推进器对火箭射程都无显著影响。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容