随机对照实验是推断因果关系的金标准,即通过随机化过程对所有的基线因素进行平衡。也就是说,在满足入选条件的病人中,他们是否接受治疗是通过完全随机化决定的。 因此观察到的病人结局的差异一定是与治疗与否所导致的。在观察性队列研究中,是否接受治疗并非随机化决定的,即病人是否接受治疗可能是由于病人基线水平或者其预后所决定的。 因此直接比较不同治疗组病人的结局并不能推导出治疗与病人预后的因果关系,即分析中引入了混杂因素。
定义:
倾向性评分就是运用病人的基线条件来评估其接受治疗的概率,即根据患者的特征、治疗医师和临床环境,患者接受感兴趣治疗的概率。那么如果两个病人具有相同的PS,那么他们的基线情况就是相近的,是否接受治疗就是‘随机’的。 通过这样的方式选择出来的病人就可以当作是接近于随机化实验的。进而病人预后的比较就更加接近于因果关系的推倒。
'基线因素' :在时间顺序上是发生在接受治疗之前的因素
※目的:
PS的最终目的是消除混杂因素(confounding factors),因此基线因素的选择一定是要以其对实验结果 (endpoint) 的影响为主要依据,而并非是否接受治疗
相应的,由于我们的最终目的是找到在两个治疗组中PS相似的病人,因此 PS model 的选择并非以 high predictive value 作为主要依据。通常 PS model 的 AUC 以0.6-0.8 为宜。Perfect treatment distinction 意味着两种病人没有可比性。
※变量选择:
因变量自然就是病人接受了何种治疗方式
自变量要选择与相关结局事件有关的变量。一般分为两种方式:研究者定义 和 数据主导 的方式。对于研究者定义的方式,若实验数据来自临床实验或者临床注册研究,那么基线数据通常是实验收集的变量,若来自真实世界数据,可以通过因果关系图(DAG)的方式来定义。对于数据主导的变量选择,可以通过 High-dimensional PS (Hd PS) 的方式来对各种变量根据其对实验结局的关联程度进行排序和选择。因为propensity score本质上是指样本被施加treatment的概率,因此也有理论证明只需要包含影响treatment assignment的变量即可。
一般包含以下四个方面:
(1)所有测量的基线协变量
(2)所有与治疗分配相关的基线协变量
(3)影响结果的所有协变量 (潜在的混杂因素)
(4)所有影响治疗分配和结果的协变量 (真正的混杂因素)
※方法:
1.倾向评分匹配(propensity score matching,PSM):
是使用最广泛的一种倾向性评分方法,又以1:1近邻匹配被使用最广泛。一般在筛选好人群之后或者在数据库挖掘人群信息使用倾向性评分匹配。
以最常使用的1:1近邻匹配(亦被称为greedy 贪婪匹配)为例,每名接受治疗A的患者逐一与倾向性评分最为接近的接受治疗B的患者匹配,在这个范围内没有匹配的患者被排除在外。
缺点:当我们以暴露组的样本量去匹配对照组,而对照组的样本量又是暴露组的好几倍,此时往往会在匹配后造成样本量的损失。如果损失的病例数太多,则不能排除匹配造成的选择性偏移。此外还有匹配的变量必须是已知的等等。
实现细节:
(1)采样手段:可重复和不可重复:without replacement v.s. with replacement
在可重复模式下,同一个对照组样本可能会出现在多个pair对中,即我们构造的数据中存在大量重复样本,此时需要考虑方差估计的问题(是否会出现过拟合);在不可重复模式下,对照组样本一旦被某个实验组样本匹配后便不再使用。
(2)匹配方式:贪婪greedy v.s. 最佳optimal
贪婪匹配时实验组样本是随机选择的,然后从对照组中选择与当前实验组样本score最接近的样本,即使这个对照组样本与后面某个实验组样本更合适。
最佳匹配形成pair的过程是minimize the total within-pair difference of propensity score最小化倾向性得分的配对内总差异,即全局优化。
但是这两者在生成平衡匹配样本(balanced matched samples)上效果基本相当。
(3)相似度度量:Nearest Neighbor v.s Caliper distance
nearest neighbor matching就是在选择score与当前treated样本最接近的untreated样本,当有多个同距离的untreated样本时,随机选择一个即可。但是这种方法并没有对最大可接受的距离做限制,因此无法保证选出的untreated样本就是好的。
nearest neighbor matching within a specified caliper distance相比于前者就是增加了一个caliper distance的限制,即对于给定的treated样本,先圈定这个样本的caliper distance范围,接着在这个范围中去寻找score最近的untreated样本,如果没有的话,当前treated样本就被丢弃。可以看到caliper distance的方法更注重样本的质量。
对于caliper width(即我们最多能接大能接受的距离范围)的设定目前还没有统一的标准。有一种方法是选择和logit of propensity score的标准差成比例的caliper distance(有理论证明logit of propensity score大概率是服从正态分布的)。假设treated和untreated样本中的propensity score同方差,使用总体样本的标准差*0.2作为caliper width可以减少confounders带来的bias。
(4)匹配数量:一对一vs多对一(m:1)
m个untreated样本与1个treated样本匹配,对于不同的treated样本,m也是可变的;相比于固定的m,动态的m值可以带来bias reduction。
Full matching指一个treated和至少一个untreated,或者一个untreated和至少一个treated样本。
2.倾向性评分加权法(propensity score weighting,PSW):
逆处理概率加权法( Inverse Probability of Treatment Weighting Using the Propensity Score,IPTW):是使用propensity score来对样本进行加权从而生成同分布的synthetic sample.倾向性评分加权法是一种基于个体化的标准化法。
3.倾向评分的分层(Stratification on the Propensity Score,SPS):
SPS指的就是根据样本的propensity score进行分层。先对样本的propensity score进行排序,然后对样本分桶。常见的一种做法是等频分成5个桶。当然,随着分桶数的增多,桶内样本的相似度会增大,桶间样本的相似度会减少,可以带来进一步bias reduction的收益。
4.使用倾向评分进行协变量调整(Covariate Adjustment Using the Propensity Score)
是这四种方法中唯一一个需要额外建模的方法。它本质上是做了一个线性回归(outcome是binary时候使用逻辑回归),模型的X是treatment status+propensity score,Y是outcome。此时treatment的效应就是由回归的系数所决定。
※验证
从propensity score本质出发,它是一个balancing score,因此理论上当我们能够充分学习到样本的propensity score,那么具有相同score的样本应该在协变量的分布上是一致的。反之,在给定propensity score下,treatment和untreatment组之间的协变量分布仍然存在显著差异的话,说明score学的不好。
可参考文献::
An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies.