临床试验中缺失数据无法避免,常用的填补方法包括单一填补(Single imputation)和多重填补(Multiple imputation)。单一填补方法包括LOCF(Last observation carry forward)、BOCF(Baseline observation carry forward)等。LOCF、BOCF这类方法没有考虑数据的变异性,会降低数据的标准误,增加假阳性的可能性。多重填补针对同一个缺失点产生多条填补记录,之后再合并进行分析。MI可以作为一种填补方法,也可以是实现其他一些填补策略的手段,比如在J2R、CR、CIR等填补方法里,用MI来产生多条填补数据后再进行处理以符合既定的填补要求。
数据的缺失模式:
1. MCAR(Missing at Complete Random):缺失数据与已观测到的数据及未观测到的数据均无关。
比较理想的缺失情况,不太可能出现,因此通常不考虑MCAR。
如受试者因车祸等偶发事件失访。
2. MAR(Missing at Random):缺失数据与未观测到的数据无关。
如受试者因疗效不佳退出。
3. MNAR(Missing not at Random):缺失数据与已观测到的数据及未观测到的数据均有关。
该缺失模式难以判断,因为与未收集到的数据有关,所以无法判断到底是否MNAR。
缺失数据未观测到,所以无法假定它们实际应该是什么样的以及到底服从哪种缺失模式。在实际分析中,主要分析通常基于MAR,并且需要增加基于MNAR的敏感性分析。
缺失类型:
1. 单调缺失(Monotone):在某一访视点及之后的访视中数据均缺失。
2. 非单调缺失(Non-Monotone):在某一或几个访视点数据缺失,但后续又收集到了其他访视点数据。
*:临床试验数据中出现非单调缺失可能是因为一些非试验相关的 因素导致,如受试者外出、封控等,导致某几个访视点的数据未收集到,与试验无关,同时该类缺失的比例一般也较小(即使有non-monotone,影响也较小)。因此在后续的缺失数据处理方法中,如果出现非单调缺失数据,通常假定其为MAR,先将其处理为单调缺失,之后再根据相应填补策略(如MNAR下的填补方法)进行处理。
填补为单调缺失可以通过Proc MI的MCMC命令实现。
MCMC impute=Monotone和impute=Full 分别对应填补为单调缺失及全填补。
Proc MI data=XX Nimpute=XX Seed=XXX out=XXX;
Var XXX;
MCMC impute=Monotone;
/* MCMC中的其他命令: Chain=Signgle/Mutiple,蒙特卡洛单链或双链;
/* NITER=100(默认)或 NBITER=200(默认); 设定迭代次数,保证记录间的独立性 */
run;
敏感性分析:
主要分析通常基于MAR,敏感性分析进行基于不同缺失假设下进行。
缺失比例:
不同组别的缺失比例可能造成偏倚,如试验组缺失比例过高,采用Reference-based的方法与阳性对照组相比低估疗效。
贝叶斯后验分布(Bayesian Posterior Distribution):
多重填补时的参数从后验分布中获得,后验分布依赖于先验分布(Prior distribution)和似然函数(Likelihood function)。常用的先验分布是Jeffrey' prior(无信息先验),也是SAS的MCMC中默认的先验分布,即先验分布中未包含任何有用的信息,后验分布主要依赖于观测到的数据。-Joint Modeling
MCMC(Markov Chain Monte Carlo):
后验分布无法直接算出时,采用MCMC的方法进行模拟以获得分布相关的信息,并从中获得填补值。MCMC包括两步:
1. Impute-step:通过已观测到的数据的信息(均值、协方差矩阵)产生一系列填补值。
( the I-step draws values for from a conditional distribution for given );
SAS中的NBITER=X(“Burning-in”)可以定义该步的迭代次数,即迭代X之后的参数采用于填补。
2. Posterior-step:1步缺失数据填补完整后,根据填补后的数据产生新的均值协方差矩阵迭代步骤1。
重复步骤1和2直到模型收敛于一个稳定的分布(stationary distribution)。步骤1中的填补值并不用于真正的填补,只有迭代收敛后的值才用于最终填补。模型并收敛到某一个特定的点估计,而是在特定分布周围随机波动,每次填补时都产生不同的参数,并生成填补值。
MNAR下填补的三大框架:
Selection Models
Pattern-mixture models
PMMs中受试者被分成了不同的序列,同一个序列的受试者具有相同的缺失模式,如受试者的不同特征:缺失的原因、缺失所在的访视。
为不同缺失模式下的概率分布,不同缺失模式的数据分析模型。Shared Parameter models