R语言有序多分类Logistic回归

        常见的二分类结局变量,如事件是否发生、是否死亡等,我们可以用二分类logistics回归分析结局变量和自变量因素之间的关系,在R语言中也很容易实现,结果也非常容易解释。但有时候我们会遇到这样的结局指标,如病情的严重程度、对服务质量的评价、患者满意度等,这些指标都是有序的都分类指标,如轻度、中度、重度;差、一般、好等。此时,如果要探究结局变量的影响因素,就会用到有序多分类Logistic回归(Ordinal Logistic Regression)。这里我们以一个简单的例子介绍在R中如何进行有序Logistic回归的分析。

              我们一个500人的数据,变量有年龄(Age)、性别(Sex)、血压(blood.pressure)和自评的健康状况(outcome,差、一般、好)。要分析自评的健康状况的影响因素,我们要用到有序多分类Logistic回归。在R语言中完成这个过程:

#####载入需要的包

install.packages("MASS")

install.packages("brant")

library(MASS)

library(brant)

###生成模拟数据

n <-1000  # define sample size

set.seed(2022) # so can reproduce the results

age            <- rnorm(n, 60, 10)

blood.pressure <- rnorm(n, 125, 15)

sex            <- factor(sample(c('female','male'), n,TRUE))

outcome<- factor(sample(c(1,2,3),n,TRUE),levels = c("1","2","3"),

                  labels = c("poor","fair","good"))

data<-data.frame(age,blood.pressure,sex,outcome)

head(data)

#####单因素分析------------

fit0<-polr(ordered(outcome)~ 1, data=data)#####空模型

fit1<-polr(ordered(outcome)~ +sex, data=data)

summary(fit1)


#####平行线检验---

brant(fit1) ###p>0.1,满足平行线检验


####检验模型整体是否有意义

anova(fit0,fit1)  ####p=0.0687,接近有意义


#####生成OR、95%CI和P值

#####生成OR、95%CI和P值

OR<-round(exp(fit1$coefficients),2)

CI <- round(exp(confint(fit1)), 2)

CI<-data.frame(CI[1],CI[2])

colnames(CI) <- c("Lower", "Higher")

P <- (pnorm(abs( coef(summary(fit1))[,"t value"]),lower.tail = FALSE)*2)[1]

out<- as.data.frame(cbind(OR, CI, P))

out

#####输出的即为我们需要的OR、95%CI和P value

######多因素分析,方法类似-----------------------------

fit2<-polr(ordered(outcome)~ +sex+age+blood.pressure, data=data)

summary(fit2)


#####平行线检验---

brant(fit2) ###p>0.1,三个变量都满足平行线检验


####检验模型整体是否有意义

anova(fit0,fit2) 

#####生成OR、95%CI和P值,和单因素的有些区别

OR_CI<-exp(cbind(OR=coef(fit2),confint(fit2)))

colnames(OR_CI) <- c("OR","Lower", "Higher")

P <- (pnorm(abs( coef(summary(fit2))[,"t value"]),lower.tail = FALSE)*2)

P


#TI

P<-P[1:3] ###提取前三个

out<- as.data.frame(cbind(OR_CI, P))

out


######结果输出即可

write.table(out, file ="/STR_2.csv", sep = ",",    col.names = NA,qmethod = "double",append=TRUE)    

            得到结果后如何解释呢,以性别为例(仅解释结果,先暂时忽略掉其没有意义),我们可以说:“和女性相比,男性对自身的健康状况评价更低 (OR=0.82, 95%CI=0.65-1.02)”,或者是“男性认为自身健康好的OR值是女性的0.82倍 (OR=0.82, 95%CI=0.65-1.02)”。

           总结以上,对于有序多分类结局变量,我们可以用有序多分类Logistic回归,但是要满足平行线假设的条件,如果不满足的话,可以用无序多分类Logistic回归或者转化为二分类Logistic回归。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容