1. 相关概念

       临床试验中缺失数据无法避免,常用的填补方法包括单一填补(Single imputation)和多重填补(Multiple imputation)。单一填补方法包括LOCF(Last observation carry forward)、BOCF(Baseline observation carry forward)等。LOCF、BOCF这类方法没有考虑数据的变异性,会降低数据的标准误,增加假阳性的可能性。多重填补针对同一个缺失点产生多条填补记录,之后再合并进行分析。MI可以作为一种填补方法,也可以是实现其他一些填补策略的手段,比如在J2R、CR、CIR等填补方法里,用MI来产生多条填补数据后再进行处理以符合既定的填补要求。

数据的缺失模式:

       1. MCAR(Missing at Complete Random):缺失数据与已观测到的数据及未观测到的数据均无关。
              比较理想的缺失情况,不太可能出现,因此通常不考虑MCAR。
              如受试者因车祸等偶发事件失访。
       2. MAR(Missing at Random):缺失数据与未观测到的数据无关。
              如受试者因疗效不佳退出。
       3. MNAR(Missing not at Random):缺失数据与已观测到的数据及未观测到的数据均有关。
              该缺失模式难以判断,因为与未收集到的数据有关,所以无法判断到底是否MNAR。

       缺失数据未观测到,所以无法假定它们实际应该是什么样的以及到底服从哪种缺失模式。在实际分析中,主要分析通常基于MAR,并且需要增加基于MNAR的敏感性分析。

缺失类型:

       1. 单调缺失(Monotone):在某一访视点及之后的访视中数据均缺失。
       2. 非单调缺失(Non-Monotone):在某一或几个访视点数据缺失,但后续又收集到了其他访视点数据。
       *:临床试验数据中出现非单调缺失可能是因为一些非试验相关的 因素导致,如受试者外出、封控等,导致某几个访视点的数据未收集到,与试验无关,同时该类缺失的比例一般也较小(即使有non-monotone,影响也较小)。因此在后续的缺失数据处理方法中,如果出现非单调缺失数据,通常假定其为MAR,先将其处理为单调缺失,之后再根据相应填补策略(如MNAR下的填补方法)进行处理。
       填补为单调缺失可以通过Proc MI的MCMC命令实现。
       MCMC impute=Monotone和impute=Full 分别对应填补为单调缺失及全填补。

  Proc MI data=XX Nimpute=XX Seed=XXX out=XXX;
  Var  XXX;
  MCMC impute=Monotone;  
  /* MCMC中的其他命令: Chain=Signgle/Mutiple,蒙特卡洛单链或双链;
  /* NITER=100(默认)或 NBITER=200(默认); 设定迭代次数,保证记录间的独立性 */
  run;
敏感性分析:

       主要分析通常基于MAR,敏感性分析进行基于不同缺失假设下进行。

缺失比例:

       不同组别的缺失比例可能造成偏倚,如试验组缺失比例过高,采用Reference-based的方法与阳性对照组相比低估疗效。

贝叶斯后验分布(Bayesian Posterior Distribution):

       多重填补时的参数从后验分布中获得,后验分布依赖于先验分布(Prior distribution)和似然函数(Likelihood function)。常用的先验分布是Jeffrey' prior(无信息先验),也是SAS的MCMC中默认的先验分布,即先验分布中未包含任何有用的信息,后验分布主要依赖于观测到的数据。-Joint Modeling

MCMC(Markov Chain Monte Carlo):

       后验分布无法直接算出时,采用MCMC的方法进行模拟以获得分布相关的信息,并从中获得填补值。MCMC包括两步:
              1. Impute-step:通过已观测到的数据的信息(均值、协方差矩阵)产生一系列填补值。
              ( the I-step draws values for Y_{i(mis)} from a conditional distribution for Y_{i(mis)} given Y_{i(obs)});
                 SAS中的NBITER=X(“Burning-in”)可以定义该步的迭代次数,即迭代X之后的参数采用于填补。
              2. Posterior-step:1步缺失数据填补完整后,根据填补后的数据产生新的均值协方差矩阵迭代步骤1。
       重复步骤1和2直到模型收敛于一个稳定的分布(stationary distribution)。步骤1中的填补值并不用于真正的填补,只有迭代收敛后的值才用于最终填补。模型并收敛到某一个特定的点估计,而是在特定分布周围随机波动,每次填补时都产生不同的参数,并生成填补值。

MNAR下填补的三大框架:
  1. Selection Models
    p(Y_{obs}, Y_{mis},R|X) = p(Y_{obs}, Y_{mis}|X) p(R|X, Y_{obs}, Y_{mis})

  2. Pattern-mixture models
    p(Y_{obs}, Y_{mis},R|X) = p(R|X) p(Y_{obs}, Y_{mis}|R,X)
    PMMs中受试者被分成了不同的序列,同一个序列的受试者具有相同的缺失模式,如受试者的不同特征:缺失的原因、缺失所在的访视。
    p(R|X)为不同缺失模式下的概率分布,p(Y_{obs}, Y_{mis}|R,X)不同缺失模式的数据分析模型。

  3. Shared Parameter models

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容