多因素Cox回归分析(转载)

原贴:https://blog.csdn.net/weixin_46500027/article/details/124554798

单因素cox回归分析往往不符合显示,一个变量往往不能反应结局变量的情况,且往往可能受到其他变量的制约。

因此,在单因素cox回归分析之后,我们还需要进行多因素cox回归分析。

我们要分析后面四个指标对RFS的影响,可以用到多因素cox回归分析。

下面我们看代码,先读取数据:

setwd("D:\\")

dir()

data <- read.csv("Cox.csv",header = T,sep = ",")

head(data)

# > head(data)

#        sampleID RFS.time RFS age gleason TNM ALYREF

#1 TCGA-CH-5751-01      365  1  68      10  4 3.958

#2 TCGA-ZG-A9KY-01      130  0  73      9  4 3.527

#3 TCGA-G9-6363-01    1378  0  64      7  4 2.618

#4 TCGA-G9-6365-01    1363  0  71      7  4 2.147

#5 TCGA-G9-6494-01    1771  0  66      7  4 1.792

#6 TCGA-EJ-5518-01    2104  1  66      9  4 1.487

然后加载coin包,运行cox回归函数:

library(coin)

cox <- coxph(Surv(RFS.time,RFS)~age+gleason+TNM+ALYREF,data)

summary(cox)

# 结果如下

# > summary(cox)

#Call:

#coxph(formula = Surv(RFS.time, RFS) ~ age + gleason + TNM + ALYREF,

#    data = data)

#

#  n= 421, number of events= 52

#

#            coef exp(coef)  se(coef)      z Pr(>|z|)   

#age    -0.007634  0.992395  0.021284 -0.359    0.720   

#gleason  0.803836  2.234095  0.169679  4.737 2.16e-06 ***

#TNM      0.244095  1.276466  0.307639  0.793    0.428   

#ALYREF  0.034479  1.035080  0.135279  0.255    0.799   

#---

#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#

#        exp(coef) exp(-coef) lower .95 upper .95

#age        0.9924    1.0077    0.9518    1.035

#gleason    2.2341    0.4476    1.6020    3.116

#TNM        1.2765    0.7834    0.6985    2.333

#ALYREF    1.0351    0.9661    0.7940    1.349

#

#Concordance= 0.706  (se = 0.041 )

#Likelihood ratio test= 38.28  on 4 df,  p=1e-07

#Wald test            = 33.63  on 4 df,  p=9e-07

#Score (logrank) test = 40  on 4 df,  p=4e-08

可以看到,除了gleason评分之外,其余的变量都没有意义,包括我们要研究的基因ALYREF。

我们用逐步回归法,排除可能存在共线性的变量,筛选出最有价值的变量:

step(cox,direction = "both")

# > step(cox,direction = "both")

#Start:  AIC=500.67

#Surv(RFS.time, RFS) ~ age + gleason + TNM + ALYREF

#

#          Df    AIC

#- ALYREF  1 498.73

#- age      1 498.80

#- TNM      1 499.30

#<none>      500.67

#- gleason  1 523.88

#

#Step:  AIC=498.73

#Surv(RFS.time, RFS) ~ age + gleason + TNM

#

#          Df    AIC

#- age      1 496.84

#- TNM      1 497.47

#<none>      498.73

#+ ALYREF  1 500.67

#- gleason  1 523.76

#

#Step:  AIC=496.84

#Surv(RFS.time, RFS) ~ gleason + TNM

#

#          Df    AIC

#- TNM      1 495.54

#<none>      496.84

#+ age      1 498.73

#+ ALYREF  1 498.80

#- gleason  1 521.76

#

#Step:  AIC=495.54

#Surv(RFS.time, RFS) ~ gleason

#

#          Df    AIC

#<none>      495.54

#+ TNM      1 496.84

#+ ALYREF  1 497.40

#+ age      1 497.47

#- gleason  1 530.95

#Call:

#coxph(formula = Surv(RFS.time, RFS) ~ gleason, data = data)

#

#          coef exp(coef) se(coef)    z      p

#gleason 0.8674    2.3807  0.1518 5.714 1.1e-08

#

#Likelihood ratio test=37.41  on 1 df, p=9.552e-10

#n= 421, number of events= 52

逐步回归法最终得出的结果是,只留下gleason评分就可以了,其他的变量可以筛走,不重要。

那么这个基因就没有研究的必要了,赶紧换一个基因吧。

这也是我们在做基础实验,选择基因的标准,单因素先初筛,多因素再进一步筛选,研究多因素cox回归有意义的基因,这样不会被质疑。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容