因果推断深度学习工具箱 - Learning Representations for Counterfactual Inference

文章名称

Learning Representations for Counterfactual Inference

核心要点

因果推断的核心问题1)missing counterfactuals;2)imbalance covariates distribution under different intervention。只有知道了各种干预下的结果,才能计算出不同干预之间的因果效应。为了准确的估计反事实,需要解决由于混淆变量引起的不同干预下,样本特征分布不一致的问题,否则会具有selection bias,同时会带来估计的高方差。
不同干预下样本特征分布不一致,意味着P(X) \neq P(X|T=t),也意味着P(X|T=t_0) \neq P(X|T=t_1)。采用经验风险最小化的机器学习方法在观察到的事实结果上可能拟合的很好,但在反事实上遇到了不同的特征分布,导致模型效果变差。例如,某个样本的实际干预是T=t_1,模型拟合了P(Y|X, T=t_1),也就是事实数据,但遇到反事实分布P(Y|X, T=t_0)时,就会估计的不准确。猛然一拍大腿,这个是不是有点像训练集和测试集分布不一致的问题?
这种不一致的问题在领域迁移里是基操,作者借鉴domain adaptation的思想,结合表示学习,利用正则化的手段,使得P(\Phi(X)|T=t_0) = P(\Phi(X)|T=t_1),其中\Phi(X)是学习到的特征表示(分布平衡是在表示层做的)。有了这种表示,模型能够更好地回答反事实的问题。并且,作者证明了这种方法是在最小化counterfactual的regret的上界。

方法细节

问题引入

因果推断问题,旨在计算不同干预之间的效果差异,即Y_1(x) - Y_0(x),其中x是样本的covariates。然而,我们只能观测到一个factual outcome,y_{i}^{F} = t_{i} Y_{1}(x_i) + (1 - t_{i}) Y_{0}(x_i)。也就是说,观测数据实际来自于两个分布y_{i}^{F}P^F(x, t) = P(x) P(t|x)P^{CF} = P(x) P(\neg t|x),其中CF代表counterfactual。由于混淆变量的存在,这两个分布是不同的。如果通过直接建模的方式来估计,无论是单个模型h(x_i, t_i) = \hat{y}_{i}^{F},还是多个模型h_{j}(x_i, t_i = j) = \hat{y}_{i:t_i=j}^{F},我们都需要把一个在不同分布上训练的模型,应用到在另一个不同的分布上来估计counterfactual,就像训练集和测试集的分布不同一样,导致模型效果不够理想(实际上,由于观测数据得到的P(X|T=t_0)P(X|T=t_1)也只是真实条件分布的采样,最终会导致有更大的偏差)。由于这里的分布不一致,指的是covariates,也就是特征分布不一致,也就是所谓的covariates shift,是domain adaptation的一个特殊场景。
其实,在很多文章中都有过阐述,领域迁移(协变量迁移)与因果推断的关系是密不可分。因此,作者从领域迁移的idea出发,把因果推断问题定义为领域迁移问题,通过正则化的方法来平衡不同干预下的covariates分布。其他利用re-weight,调整样本权重的方法不同,文章提出的方法的正则化是在表示层进行的,也就是约束的是\Phi(x)\Phi是映射函数,把covariates映射到representation。通常情况下表示层会是更稠密的向量,有更深层次的语义。

具体做法

learning process

为了更好地估计因果效应,我们需要学习两个函数\Phi(x)h(\Phi(x), t)。这两个函数需要在整个covariates分布上有良好的泛化能力。因此需要做到三点,

  • 估计好事实,对观测到的实际outcome估计准确;
  • 估计好反事实,这里利用的是最近邻的方法,来构造反事实,即y^{CF}_{i:t_i = 0} = y^{CF}_{NN_i:t_i \neq 0},其中NN_i表示最近邻的邻居。本质是在模拟样本的反事实,有点类似于matching的方法。
  • 平衡好不同干预下的representation

整体的损失函数如下图所示,分别对应着上边所说的三个要点。


loss in step 1

那么如何学习到好的样本表示呢,作者阐述了两种学习器,1)线性表示学习器;2)深度表示学习器。

To be continued

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容