文章名称
Information Theoretic Counterfactual Learning from
Missing-Not-At-Random Feedback
核心要点
文章旨在解决MNAR的问题,解决这一问题的金律是利用RCT,但RCT太昂贵(无论时间还是性能的牺牲)。作者采用基于信息理论的变分反事实信息瓶颈理论来解决这一问题(CVIB)。通过把原有拉格朗日信息瓶颈中的任务感知的互信息分离成事实和反事实部分,作者推导出了对比信息损失和一个附加的输出置信度惩罚项,从而实现了事实和反事实域的平衡。
方法细节
问题引入
和之前讲过的几篇问文章一样,直接在观测样本上进行估计的方式如下图所示,是在进行经验风险最小化。而为了消除MNAR的影响,我们需要在所有用户-物品元组组成的数据集上进行优化(学习参数)。这两者是有偏差的,这种偏差是由于用户只会选择自己喜欢的物品进行反馈,或者只能选择自己见到的物品反馈,存在selection bias,而这种选择性不是MAR的。
除了可以利用纠偏方法以外(我们已经讲过IPS,DR,MRDR),最稳妥也最接近真实的方法就是构造一个MAR的数据集。因此,很多方法采用随机实验(RCT)来收集数据。但是这种方法太昂贵了。[3]利用domain adaptation的方法来进行纠偏(类似的思路在因果推断领域的应用在因果推断深度学习工具箱 - Learning Decomposed Representation for Counterfactual Inference等文章里有介绍)。作者另辟蹊径,从信息论的角度出发,基于Information Bottleneck(IB)来进行模型学习。
基于协同过滤的方法利用用户和物品的向量表示来估计用户对该物品的反馈,即。在深度协同过滤的方法中,通常会利用多层前馈神经网络处理,并最终用多层网络的输出,代表经过多次非线性变换后的用户和物品的向量表示,来估计用户对该物品的反馈。作者把整个过程看作是马尔科夫链,过程如下图所示。其中,分别表示用户真实的反馈和用户以及物品的特征。
()
标准的IB如下图所示,表示两个随机变量的互信息,最小化的互信息,使得能够更有效的压缩特征。最大化的互信息,使得能够更好的对用户反馈进行预测。[1]把这个优化过程看作是在监督学习的过程中,加入对表示学习的互信息正则。但是通常情况下IB的计算是非常复杂的(积分套着积分)
(LIB)
此外,MNAR的场景中,存在另一个随机变量,该变量与用户反馈应该是独立的(这里反馈指由偏好造成的得分或点击,而不是受偏差影响下的,对比因果推断,可以理解为潜在反馈:))。也就是说,我们希望,也希望,这样就消除了Policy Bias(MNAR)。虽然[2]提出了一种代理方法计算IB,但是并不适用于MNAR的场景,MNAR下大部分的数据是反事实的。
具体做法
CVIB
作者首先把embeding(包括用户和物品的)分层两种情况,和分别代表用户-物品元组,在被观测到和没有被观测到的情况下的embeding,即,按照上述马尔科夫链的逻辑有,进一步可以得到。因此,我们可以把。我们假设和独立,那么可以得到如下公式。
进一步,经过变化(作者说是和反事实无法获得有关,感觉有点奇怪,参见疑问)可以得到如下图所示的结果,其中被定义为constrastive项,这一项鼓励模型在观测到和被观测到反馈时,都能够有足够的能力来反映真实的用户偏好,也就是说实现了在事实空间和反事实空间的平衡。进而得到CVIB的损失函数。
CVIB的算法示意图如下图所示,图中可以看到,作者利用了互信息的对比,迫使都能够充分的预测用户反馈的偏好。
同时,作者证明是学习embedding可以优化的最小项。由于观察分布会影响我们可以观测到的某个用户-物品元组特征。然而,我们希望对实际的用户反馈偏好没有影响。因此,我们希望往上述马尔科夫链中融入的对的信息逐渐变少。通过如下不等式(具体证明参见文章附录),可以得知,优化可以保证特征对是不敏感的,也就是不受到policy bias的影响。
下一节讲解CVIB的优化框架。
心得体会
Policy Bias
作者称MNAR的偏差是由于Policy Bias造成的。其实,Policy是指现在部署在生产环境的推荐模型,这个模型造成了用户能够看到或者能够选择的物品的集合,进一步影响了用户的selection bias。其实,无论是那种偏差,都是收到了某些其他即影响用户反馈又影响用户选择的因素造成的。因此始终符合fork结构,都可以利用后门准则来进行调整,得到无偏估计。
z+和z-独立
可能这里比较迷惑的是,对于一个用户和物品元组来说,特征都应该在被观测和未被观测到的时候都是一样的?是的,其实对于一个主体或者说研究对象来说,他是不会改变的。我们所分开的是相对于假设的反事实空间,或者潜在空间说的。或许可以这样理解,代表了在不同潜在空间(被观测到或者没被观测到)下,特征所起的作用不同。用和来表示所起的作用的某种量化。虽然还是那个值,只是起了不同的作用。和更是如此。那么,这个作用是否独立?个人觉得值得商榷。
疑问
因为没有反事实所以推到出contrastive?
文章中公式6附近一段话表示,
However, as the outcomes of the counterfactuals are unknown, we have to identify another refined solution.
但是这里似乎没有受到反事实的制约,不利用反事实似乎也可以直接继续推导,这句话感觉有点怪?
文章引用
[1] Alessandro Achille and Stefano Soatto. Emergence of invariance and disentanglement in deep representations. The Journal of Machine Learning Research, 19(1):1947–1980, 2018.
[2] Alexander A. Alemi, Ian Fischer, Joshua V. Dillon, and Kevin Murphy. Deep variational information bottleneck. arXiv preprint arXiv:1612.00410, 2016.
[3] Stephen Bonner and Flavian Vasile. Causal embeddings for recommendation. In ACM Conference on Recommender Systems, pages 104–112, 2018.