文章名称
Learning Representations for Counterfactual Inference
核心要点
因果推断的核心问题1)missing counterfactuals;2)imbalance covariates distribution under different intervention。只有知道了各种干预下的结果,才能计算出不同干预之间的因果效应。为了准确的估计反事实,需要解决由于混淆变量引起的不同干预下,样本特征分布不一致的问题,否则会具有selection bias,同时会带来估计的高方差。
不同干预下样本特征分布不一致,意味着,也意味着。采用经验风险最小化的机器学习方法在观察到的事实结果上可能拟合的很好,但在反事实上遇到了不同的特征分布,导致模型效果变差。例如,某个样本的实际干预是,模型拟合了,也就是事实数据,但遇到反事实分布时,就会估计的不准确。猛然一拍大腿,这个是不是有点像训练集和测试集分布不一致的问题?
这种不一致的问题在领域迁移里是基操,作者借鉴domain adaptation的思想,结合表示学习,利用正则化的手段,使得,其中是学习到的特征表示(分布平衡是在表示层做的)。有了这种表示,模型能够更好地回答反事实的问题。并且,作者证明了这种方法是在最小化counterfactual的regret的上界。
方法细节
问题引入
因果推断问题,旨在计算不同干预之间的效果差异,即,其中是样本的covariates。然而,我们只能观测到一个factual outcome,。也就是说,观测数据实际来自于两个分布,和,其中代表counterfactual。由于混淆变量的存在,这两个分布是不同的。如果通过直接建模的方式来估计,无论是单个模型,还是多个模型,我们都需要把一个在不同分布上训练的模型,应用到在另一个不同的分布上来估计counterfactual,就像训练集和测试集的分布不同一样,导致模型效果不够理想(实际上,由于观测数据得到的和也只是真实条件分布的采样,最终会导致有更大的偏差)。由于这里的分布不一致,指的是covariates,也就是特征分布不一致,也就是所谓的covariates shift,是domain adaptation的一个特殊场景。
其实,在很多文章中都有过阐述,领域迁移(协变量迁移)与因果推断的关系是密不可分。因此,作者从领域迁移的idea出发,把因果推断问题定义为领域迁移问题,通过正则化的方法来平衡不同干预下的covariates分布。其他利用re-weight,调整样本权重的方法不同,文章提出的方法的正则化是在表示层进行的,也就是约束的是,是映射函数,把covariates映射到representation。通常情况下表示层会是更稠密的向量,有更深层次的语义。
具体做法
为了更好地估计因果效应,我们需要学习两个函数和。这两个函数需要在整个covariates分布上有良好的泛化能力。因此需要做到三点,
- 估计好事实,对观测到的实际outcome估计准确;
- 估计好反事实,这里利用的是最近邻的方法,来构造反事实,即,其中表示最近邻的邻居。本质是在模拟样本的反事实,有点类似于matching的方法。
- 平衡好不同干预下的representation
整体的损失函数如下图所示,分别对应着上边所说的三个要点。
那么如何学习到好的样本表示呢,作者阐述了两种学习器,1)线性表示学习器;2)深度表示学习器。
To be continued