生存分析(survival analysis)主要用来处理考虑发生时间的二分类结局变量,不仅考虑事件是否出现,而且考虑事件出现的时间长短,因此这类方法也称为事件时间分析(time-to-event analysis)。
生存分析的资料常常分为终点事件(如死亡)和删失(其他生存结局)两类,
其特点有:
① 同时考虑两个变量:生存时间和生存结局;
② 通常含有删失数据;
③ 生存时间的分布通常不服从正态分布。
什么是删失数据(Censoring data)?
在研究结束的时候,研究对象发生了研究之外的其他事件或生存结局,无法明确从开始观察到发生终点事件的生存时间,我们把这种类型的数据称之为删失数据。
删失本质就是研究数据出现了缺失,我们无法根据所有观察对象计算“死亡速度”,难以准确探讨人群的平均生存时间,比较不同组人群的生存情况。
产生删失的可能原因
①随访截止,终点事件仍然没有发生;
② 中途失访,无法明确观察的研究对象是否发生了终点事件和具体的发生时间;
③ 研究对象由于不配合等其他原因,中途退出研究,无法继续进行随访;
④ 研究对象死于其他事件,例如因其他疾病造成死亡。
以终点时间为肝癌死亡为例
生存期必须知道的几个概念
总体生存期(overall survival, OS )
任何原因导致的死亡,只关心是否死亡,不关心因为何种原因死亡。
疾病特异性生存期(disease specific survival, DSS)
结局指标为由特定疾病导致的死亡,反映特定疾病的临床获益。但患者的死因经常并不容易明确。这时候开始关心死亡的原因是否是由特定疾病导致的。如果不是特定疾病导致的则不计入结局指标。在没有DSS.time的数据中,可以用OS.time来替代。
无进展生存期(progression free survival, PFS )
疾病经过治疗后没有出现进一步恶化的生存期,结局指标是发生恶化或死亡。要求对发生恶化的标准进行明确的定义。
无病生存期(disease free survival, DFS)
从随机化开始至疾病复发或由于疾病进展导致患者死亡的时间,不关心因为何种原因死亡。要求对发生复发的标准进行明确的定义。
一定要明确结局的定义
结局不仅仅指的是生命是生、是死的数据;还可以是研究者感兴趣的阳性终点事件。
如研究某病治疗后的复发情况,复发定为终点事件。在生存分析中,发生终点事件发生(复发)记为“1”,删失记为“0”。
生存分析的主要方法
非参数法:Log rank检验等
一般肿瘤治疗药物临床试验会采用Log rank检验法。Log rank检验对晚期死亡事件权重较大,对数据分布的要求较低,主要用于比较两组生存曲线是否存在差异,回答“是否有效”的问题,但无法衡量效果大小,P值作为试验主要结局是否阳性的依据。
Wilcoxon检验也属于非参数检验法,但对早期死亡事件权重更大。
半参数法:Cox回归分析
考虑随访时间,用Cox回归获得HR,更直观地测量治疗效果。
Kaplan-Meier法
Kaplan-Meier法估计的生存率是一个累积的生存率,或者说是一个条件的生存率,前面的条件再乘以当前的生存率,通常用生存曲线描述生存过程。
生存曲线中,中位生存时间就是纵坐标=0.5(即生存率在50%的时候所对应的时间)。
中位生存时间不能简单地理解为“死亡人数到了一半”,因为有些受试者中途失访或随访结束也没有发生结局。严格来说就是累积生存率=0.5的时候所对应的时间t。
有时候中位生存时间估计不出来,因为发生“死亡”的人数太少,这时就报道为某个时间点的生存率(如1年生存率、5年生存率等),或者报道平均生存时间(如果数据不是很偏态)。
不同的生存分析内容,选择不同的分析策略
计算生存率、中位生存时间、用生存曲线描述生存过程:Kaplan-Meier法
生存时间分布的组间比较:log Rank
探讨生存时间(生存速度)的影响因素:Cox回归分析。