常见的二分类结局变量,如事件是否发生、是否死亡等,我们可以用二分类logistics回归分析结局变量和自变量因素之间的关系,在R语言中也很容易实现,结果也非常容易解释。但有时候我们会遇到这样的结局指标,如病情的严重程度、对服务质量的评价、患者满意度等,这些指标都是有序的都分类指标,如轻度、中度、重度;差、一般、好等。此时,如果要探究结局变量的影响因素,就会用到有序多分类Logistic回归(Ordinal Logistic Regression)。这里我们以一个简单的例子介绍在R中如何进行有序Logistic回归的分析。
我们一个500人的数据,变量有年龄(Age)、性别(Sex)、血压(blood.pressure)和自评的健康状况(outcome,差、一般、好)。要分析自评的健康状况的影响因素,我们要用到有序多分类Logistic回归。在R语言中完成这个过程:
#####载入需要的包
install.packages("MASS")
install.packages("brant")
library(MASS)
library(brant)
###生成模拟数据
n <-1000 # define sample size
set.seed(2022) # so can reproduce the results
age <- rnorm(n, 60, 10)
blood.pressure <- rnorm(n, 125, 15)
sex <- factor(sample(c('female','male'), n,TRUE))
outcome<- factor(sample(c(1,2,3),n,TRUE),levels = c("1","2","3"),
labels = c("poor","fair","good"))
data<-data.frame(age,blood.pressure,sex,outcome)
head(data)
#####单因素分析------------
fit0<-polr(ordered(outcome)~ 1, data=data)#####空模型
fit1<-polr(ordered(outcome)~ +sex, data=data)
summary(fit1)
#####平行线检验---
brant(fit1) ###p>0.1,满足平行线检验
####检验模型整体是否有意义
anova(fit0,fit1) ####p=0.0687,接近有意义
#####生成OR、95%CI和P值
#####生成OR、95%CI和P值
OR<-round(exp(fit1$coefficients),2)
CI <- round(exp(confint(fit1)), 2)
CI<-data.frame(CI[1],CI[2])
colnames(CI) <- c("Lower", "Higher")
P <- (pnorm(abs( coef(summary(fit1))[,"t value"]),lower.tail = FALSE)*2)[1]
out<- as.data.frame(cbind(OR, CI, P))
out
#####输出的即为我们需要的OR、95%CI和P value
######多因素分析,方法类似-----------------------------
fit2<-polr(ordered(outcome)~ +sex+age+blood.pressure, data=data)
summary(fit2)
#####平行线检验---
brant(fit2) ###p>0.1,三个变量都满足平行线检验
####检验模型整体是否有意义
anova(fit0,fit2)
#####生成OR、95%CI和P值,和单因素的有些区别
OR_CI<-exp(cbind(OR=coef(fit2),confint(fit2)))
colnames(OR_CI) <- c("OR","Lower", "Higher")
P <- (pnorm(abs( coef(summary(fit2))[,"t value"]),lower.tail = FALSE)*2)
P
P<-P[1:3] ###提取前三个
out<- as.data.frame(cbind(OR_CI, P))
out
######结果输出即可
write.table(out, file ="/STR_2.csv", sep = ",", col.names = NA,qmethod = "double",append=TRUE)
得到结果后如何解释呢,以性别为例(仅解释结果,先暂时忽略掉其没有意义),我们可以说:“和女性相比,男性对自身的健康状况评价更低 (OR=0.82, 95%CI=0.65-1.02)”,或者是“男性认为自身健康好的OR值是女性的0.82倍 (OR=0.82, 95%CI=0.65-1.02)”。
总结以上,对于有序多分类结局变量,我们可以用有序多分类Logistic回归,但是要满足平行线假设的条件,如果不满足的话,可以用无序多分类Logistic回归或者转化为二分类Logistic回归。