文章名称
Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
核心要点
为消除流行度偏差在训练模型时的影响,并且解决IPS方法很难调试、方差较大的问题。作者利用因果图,把流行度偏差归结为物品对用户反馈(评分)的直接因果影响(Natural Direct Effect),而把用户对物品的偏好归结为用户对物品反馈(评分)的间接因果影响(Total Indirect Effect),这两部分共同组成了观测到的全部因果效应(Total Effect),在预估阶段应该利用后者对物品进行排序、推荐。然而,TIE(Total Indirect Effect)是潜在的因果效应,需要利用反事实的方法解析出来。因此,作者利用多任务学习的方法,同时估计TE、NDE,最终得到TIE。
方法细节
问题引入
通常推荐模型的目标是学习打分函数来预估用户对物品的偏好,并利用这个估计值排序物品,推荐相关性较高的。当前推荐模型学习的思路通常是拟合观测数据,受到流行度偏差的影响,模型会造成马太效应的加剧。IPS方法可以解决偏差问题,但是准确的估计propensity score是非常困难的。为了解决这个问题,作者从数据生成的机制的角度出发,构建如下图所示的因果图,其中
分别表示,用户embedding,物品embedding,用户和物品的交互embedding以及用户-物品反馈(打分)矩阵。
作者认为用户对某个物品的评分取决于3方面,1)用户-物品元组的匹配程度;2)用户的从众程度(或者说受外界影响的程度,可能被流行度影响);3)物品本身的流行程度(如果是评分概率,模型都是用最大似然来进行估计,那么流行度高的物品,收集到反馈的频次更多,更容易被估计为有正反馈),其因果图如上图c所示。 然而,当前很多推荐模型在建模时,只考虑了1)用户-物品元组的匹配程度,如上图a所示,导致用户-物品元组的正反馈可能性被夸大(包含了2)、3)的因素在里边)。有点同学可能会不太理解这条因果边,认为上图b足以反应物品的流行度影响。其实我也这么理解的,但是作者认为,不同用户对流行度的敏感度也是不一样的,有些用户愿意跟随潮流或者更容易受到外界的影响,因此作者加入了这条边来反应用户的流行敏感度偏差造成的估计偏差。
然而,想要在训练的时候兼顾上述3种影响,在预测时,只考虑用户-物品元组的匹配程度,需要从因果推断的角度触发,回答一系列反事实问题,最终得到“用户-物品元组的匹配程度”对“反馈(评分)”的因果效应,以此作为推荐(排序)的依据。
具体做法
作者利用TE、NDE、TIE三者之间的关系,来消除流行度偏差对推荐模型预估的影响。首先,解释一下TE、NDE和TIE。观察如下因果图(为了简单先只看的影响),其中
对
有直接影响。同时,
经过中介
对
有间接影响。因此,
的观察值,有两种影响的诱因共同决定,即
,其中
是一个评分函数(可以用神经网络之类的建模)。而
表示,此时的
是由
决定(或者说受其影响)。带入之后,
是
对
的总影响,也就是TE。而通常我们只需要
对
的影响,即用户-物品元组的偏好,对反馈(评分)的影响TIE。我们很难通过有偏数据直接估计这个值,那么可以估计
对
的直接影响NDE,再从TE中减去这部分,得到TIE。
下面从因果的角度具体描述一下TE、NDE和TIE。TE如下图所示,可以理解为对
的全部影响,可以用两个假设结果的差表示,即如果物品是
或者是其他物品
。值得注意的是,如上所述,
会影响
,间接影响
,所以
也会变为
。这里的
,通常用一个虚拟的物品表示(模型里直接就不输入物品特征,或者输入全0,又或者是均值),如Figure4的b所示。
NDE表示的是对
的直接影响,可以表示为如下图所示的式子。即NDE是指,如果
的取值从
变为其他物品
时,其对
的影响有多大。并且
只影响
。而
始终是只受
的影响(始终从一个和
没关系的物品
计算出来
的值)。听起来有点拗口,其实是假象
和
没关系,这种情况下
随
怎么变。
最终TIE可以利用两者的差来表示。
这一节先讲到这里,下一节继续讲解如何利用TIE进行建模。
心得体会
因果图中的
个人认为这条边的建模是文章的一大亮点,以往的方法都只建模了物品本身流行度对
的影响,即
。然而,值得讨论的是,如作者所说,用户是受到外界影响或者说更愿意探索流行度较高的物品(俗话说就是喜欢跟风?<邪恶一笑>),才会更倾向于给流行度较高的物品高分。那么,是否
应该变为
?因为,本质还是物品流行度影响了用户的决策,进而影响了我们观测到的反馈(也就是我们的训练数据)?
评估方法
文章中仍然利用采样的方式,得到所有物品的曝光数据是平均分布的测试数据集。在这个数据集上校验模型的性能。这种方法是目前能够采用的比较好的离线验证方式(能够做随机试验除外)。然而,同样受到采样方法的影响,采样策略的好坏,严重影响了对模型评估的准确程度。