1.探索临床因素对生存的影响
首先探索一下临床因素对生存的影响,选用的临床因素是性别
1.1 先下载临床数据,这里选用LIHC患者数据
library(TCGAbiolinks)
clin.LIHC <- GDCquery_clinic("TCGA-LIHC", "clinical")
得出的临床信息长这样
1.2 进行生存分析
这里用的是TCGAbiolinks包里的TCGAanalyze_survival函数
# 利用得到的临床数据探索性别对患者生存的影响
TCGAanalyze_survival(clin.LIHC,
clusterCol="gender",
risk.table = FALSE,
xlim = c(100,1000),
ylim = c(0.4,1),
conf.int = FALSE,
color = c("Dark2"))
得出的图长这样,我寻思着p-value值、risk.table怎么没有呢?仔细一看代码,risk.table=FALSE,所以我把里面的代码稍微改了一下,再套一下里的参数。
TCGAanalyze_survival(clin.LIHC, clusterCol = "gender", legend = "Legend",
labels = NULL, risk.table = TRUE, xlim =c(100,1000), main = "Kaplan-Meier Overall Survival Curves",
ylab = "Probability of survival",
xlab = "Time since diagnosis (days)", filename = "survival_2.pdf",
color = c("Dark2"), height = 8, width = 12, dpi = 300, pvalue = TRUE,
conf.int = TRUE)
得出来的图确实不一样了,生存曲线有置信区间、p值,有risk.table。但是仔细一看,还是不够美观,risk.table的比例太大了。
2.探索基因表达对生存的影响
随机选取ABCB1基因为例探索单个基因表达的情况对患者生存的影响