R数据分析:生存分析的做法和结果解释

今天给大家写写生存分析:

Survival analysis corresponds to a set of statistical approaches used to investigate the time it takes for an event of interest to occur.

生存分析研究的我们感兴趣的事件发生的时间的分布情况。这里面的“生存”不一定指存活,因为生存分析在医学随访数据中用的很多,而这类数据的随访终点往往就是病人死亡,所以才叫做生存。生存分析研究的时间分布也不一定是真的时间,比如我想研究汽车使用时间与汽车发生故障之间的关系,因为汽车很多时候是闲置的,所以这种情况下,时间应该为汽车行驶的里程数。

基本概念

事件:

事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。

生存时间:
生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要。

删失:
删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。

生存函数和风险函数

生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢?

一个就是生存函数S(t):

S(t), is the probability that an individual survives from the time origin (e.g. diagnosis of cancer) to a specified future time t.

生存函数就是这个病人活下来的概率和时间的关系。

另一个就是风险函数h(t):

h(t), is the probability that an individual who is under observation at a time t has an event at that time.

风险函数就是这个病人死亡的概率和时间的关系,就是我们在t时刻刚好发生目标事件的概率。

Kaplan-Meier计算生存函数

Kaplan-Meier 法 是由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。根据时刻t及其之前各个时间点上的条件生存率的乘积,来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。这种方法的数学表达如下:

[图片上传失败...(image-5d6d90-1612276299606)]

一句话总结下就是:此时刻的生存概率等于上已时刻的生存概率乘以此时的存活率。

Kaplan-Meier的R操作

我们依然用R的自带数据集进行演示:

library("survival")
library("survminer")
data("lung")
fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)

这个自带数据集有肺癌患者的生存时间,我们在本例中关注三个变量,一个是time,是患者的生存天数,一个是结局status,1=censored, 2=dead,另一个是分组变量sex性别:

image

我们的研究问题是:不同性别的肺癌患者的生存时间有无差异?

那么我们可以首先做一个Kaplan-Meier的生存分析:

fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)

[图片上传失败...(image-f3ff0c-1612276299606)]

结果中有展示不同性别的中位生存期及其置信区间。

那么,我们最想要的还是两组生存曲线的可视化:

 ggsurvplot(fit,pval = TRUE, conf.int = TRUE,surv.median.line = "hv")
image

从图中看:p<0.05,说明两组的中位生存期是有差异的。

在上面的曲线中,y轴是生存概率,我们还可以将y轴转化为事件比例,本例中为死亡比例:

 ggsurvplot(fit,conf.int = TRUE,fun = "event",pval = TRUE)
image

也可以看到两组随时间变化的死亡比例是有显著差异的,接下来写写不同生存曲线比较的检验:

生存曲线的比较

上面的例子中,我们分男女做了两个生存曲线,这两个生存曲线有没有统计学差异呢?

这时候就要用到log-rank test了:

surv_diff <- survdiff(Surv(time, status) ~ sex, data = lung)
surv_diff
image

通过比较,我们发现两个生存曲线确实存在显著差异,此时我们就可以说性别为2的病人确实比性别为1的病人活得久点。

小结

今天给大家写了简单的生存分析,今天的例子中并没有纳入协变量,之后给大家写比例风险模型。

感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞转发。

也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!

往期内容:

R数据分析:用R语言做meta分析

R数据分析:相对小众但是超好用的R包汇总

R数据分析:贝叶斯定理的R语言模拟

R数据分析:用R语言做潜类别分析LCA

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • 基本概念 生存分析:从字面上就是让我们分析事件发生的速率,研究各个因素与生存时间有无关系及关联程度大小。主要描述3...
    数据控的迷妹阅读 6,548评论 0 16
  • 生存曲线是临床中经常需要用到的一类图像,所以我平时几乎用不到,第一次接触绘图还是在遥远的生统课上,今天我们来看看这...
    jlyq617阅读 16,649评论 1 27
  • 整理下最近看的生存分析的资料 生存分析是研究生存时间的分布规律,以及生存时间和相关因素之间关系的一种统计分析方法 ...
    淇酱酱爱吃棒棒鸡阅读 1,023评论 1 8
  • 推荐指数: 6.0 书籍主旨关键词:特权、焦点、注意力、语言联想、情景联想 观点: 1.统计学现在叫数据分析,社会...
    Jenaral阅读 5,705评论 0 5
  • 城空了,有树长出来 我的城死了 铸起它的人,杀死它的人 不愿因为这件事而骄傲 一座城的终结 永远因为终结这件事而显...
    于十六阅读 2,852评论 6 17