1. 相关概念

临床试验中缺失数据无法避免，常用的填补方法包括单一填补（Single imputation）和多重填补（Multiple imputation）。单一填补方法包括LOCF（Last observation carry forward）、BOCF（Baseline observation carry forward）等。LOCF、BOCF这类方法没有考虑数据的变异性，会降低数据的标准误，增加假阳性的可能性。多重填补针对同一个缺失点产生多条填补记录，之后再合并进行分析。MI可以作为一种填补方法，也可以是实现其他一些填补策略的手段，比如在J2R、CR、CIR等填补方法里，用MI来产生多条填补数据后再进行处理以符合既定的填补要求。

数据的缺失模式：

       1. MCAR（Missing at Complete Random）：缺失数据与已观测到的数据及未观测到的数据均无关。
              比较理想的缺失情况，不太可能出现，因此通常不考虑MCAR。
              如受试者因车祸等偶发事件失访。
       2. MAR（Missing at Random）：缺失数据与未观测到的数据无关。
              如受试者因疗效不佳退出。
       3. MNAR（Missing not at Random）：缺失数据与已观测到的数据及未观测到的数据均有关。
              该缺失模式难以判断，因为与未收集到的数据有关，所以无法判断到底是否MNAR。

缺失数据未观测到，所以无法假定它们实际应该是什么样的以及到底服从哪种缺失模式。在实际分析中，主要分析通常基于MAR，并且需要增加基于MNAR的敏感性分析。

缺失类型：

       1. 单调缺失（Monotone）：在某一访视点及之后的访视中数据均缺失。
       2. 非单调缺失（Non-Monotone）：在某一或几个访视点数据缺失，但后续又收集到了其他访视点数据。
       *：临床试验数据中出现非单调缺失可能是因为一些非试验相关的因素导致，如受试者外出、封控等，导致某几个访视点的数据未收集到，与试验无关，同时该类缺失的比例一般也较小（即使有non-monotone，影响也较小）。因此在后续的缺失数据处理方法中，如果出现非单调缺失数据，通常假定其为MAR，先将其处理为单调缺失，之后再根据相应填补策略（如MNAR下的填补方法）进行处理。
       填补为单调缺失可以通过Proc MI的MCMC命令实现。
       MCMC impute=Monotone和impute=Full 分别对应填补为单调缺失及全填补。

  Proc MI data=XX Nimpute=XX Seed=XXX out=XXX；
  Var  XXX;
  MCMC impute=Monotone;  
  /* MCMC中的其他命令： Chain=Signgle/Mutiple，蒙特卡洛单链或双链;
  /* NITER=100(默认）或 NBITER=200（默认）； 设定迭代次数，保证记录间的独立性 */
  run;

敏感性分析：

主要分析通常基于MAR，敏感性分析进行基于不同缺失假设下进行。

缺失比例：

不同组别的缺失比例可能造成偏倚，如试验组缺失比例过高，采用Reference-based的方法与阳性对照组相比低估疗效。

贝叶斯后验分布（Bayesian Posterior Distribution）：

多重填补时的参数从后验分布中获得，后验分布依赖于先验分布（Prior distribution）和似然函数（Likelihood function）。常用的先验分布是Jeffrey' prior（无信息先验），也是SAS的MCMC中默认的先验分布，即先验分布中未包含任何有用的信息，后验分布主要依赖于观测到的数据。-Joint Modeling

MCMC（Markov Chain Monte Carlo）：

       后验分布无法直接算出时，采用MCMC的方法进行模拟以获得分布相关的信息，并从中获得填补值。MCMC包括两步：
              1. Impute-step：通过已观测到的数据的信息（均值、协方差矩阵）产生一系列填补值。
              （ the I-step draws values for $Y_{i(mis)}$ from a conditional distribution for $Y_{i(mis)}$ given $Y_{i(obs)}$ ）；
                 SAS中的NBITER=X（“Burning-in”）可以定义该步的迭代次数，即迭代X之后的参数采用于填补。
              2. Posterior-step：1步缺失数据填补完整后，根据填补后的数据产生新的均值协方差矩阵迭代步骤1。
       重复步骤1和2直到模型收敛于一个稳定的分布（stationary distribution）。步骤1中的填补值并不用于真正的填补，只有迭代收敛后的值才用于最终填补。模型并收敛到某一个特定的点估计，而是在特定分布周围随机波动，每次填补时都产生不同的参数，并生成填补值。

MNAR下填补的三大框架：

Selection Models
$p(Y_{obs}, Y_{mis},R|X) = p(Y_{obs}, Y_{mis}|X) p(R|X, Y_{obs}, Y_{mis})$
Pattern-mixture models
$p(Y_{obs}, Y_{mis},R|X) = p(R|X) p(Y_{obs}, Y_{mis}|R,X)$
PMMs中受试者被分成了不同的序列，同一个序列的受试者具有相同的缺失模式，如受试者的不同特征：缺失的原因、缺失所在的访视。
$p(R|X)$ 为不同缺失模式下的概率分布， $p(Y_{obs}, Y_{mis}|R,X)$ 不同缺失模式的数据分析模型。
Shared Parameter models