因果推断推荐系统工具箱 - MACR（一）

文章名称

Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System

核心要点

为消除流行度偏差在训练模型时的影响，并且解决IPS方法很难调试、方差较大的问题。作者利用因果图，把流行度偏差归结为物品对用户反馈（评分）的直接因果影响（Natural Direct Effect)，而把用户对物品的偏好归结为用户对物品反馈（评分）的间接因果影响（Total Indirect Effect），这两部分共同组成了观测到的全部因果效应（Total Effect），在预估阶段应该利用后者对物品进行排序、推荐。然而，TIE（Total Indirect Effect）是潜在的因果效应，需要利用反事实的方法解析出来。因此，作者利用多任务学习的方法，同时估计TE、NDE，最终得到TIE。

方法细节

问题引入

通常推荐模型的目标是学习打分函数 $f(u, i|\theta)$ 来预估用户对物品的偏好，并利用这个估计值排序物品，推荐相关性较高的。当前推荐模型学习的思路通常是拟合观测数据，受到流行度偏差的影响，模型会造成马太效应的加剧。IPS方法可以解决偏差问题，但是准确的估计propensity score是非常困难的。为了解决这个问题，作者从数据生成的机制的角度出发，构建如下图所示的因果图，其中 $U, I, K, Y$ 分别表示，用户embedding，物品embedding，用户和物品的交互embedding以及用户-物品反馈（打分）矩阵。

causal graph

作者认为用户对某个物品的评分取决于3方面，1）用户-物品元组的匹配程度；2）用户的从众程度（或者说受外界影响的程度，可能被流行度影响）；3）物品本身的流行程度（如果是评分概率，模型都是用最大似然来进行估计，那么流行度高的物品，收集到反馈的频次更多，更容易被估计为有正反馈），其因果图如上图c所示。然而，当前很多推荐模型在建模时，只考虑了1）用户-物品元组的匹配程度，如上图a所示，导致用户-物品元组的正反馈可能性被夸大（包含了2）、3）的因素在里边）。有点同学可能会不太理解 $U \rightarrow Y$ 这条因果边，认为上图b足以反应物品的流行度影响。其实我也这么理解的，但是作者认为，不同用户对流行度的敏感度也是不一样的，有些用户愿意跟随潮流或者更容易受到外界的影响，因此作者加入了这条边来反应用户的流行敏感度偏差造成的估计偏差。

然而，想要在训练的时候兼顾上述3种影响，在预测时，只考虑用户-物品元组的匹配程度，需要从因果推断的角度触发，回答一系列反事实问题，最终得到“用户-物品元组的匹配程度”对“反馈（评分）”的因果效应，以此作为推荐（排序）的依据。

具体做法

作者利用TE、NDE、TIE三者之间的关系，来消除流行度偏差对推荐模型预估的影响。首先，解释一下TE、NDE和TIE。观察如下因果图（为了简单先只看 $I$ 的影响），其中 $I$ 对 $Y$ 有直接影响。同时， $I$ 经过中介 $K$ 对 $Y$ 有间接影响。因此， $Y$ 的观察值，有两种影响的诱因共同决定，即 $Y_{i,k} = Y(I=i, K=k)$ ，其中 $Y(\cdot)$ 是一个评分函数（可以用神经网络之类的建模）。而 $k = K(I = i)$ 表示，此时的 $K$ 是由 $I$ 决定（或者说受其影响）。带入之后， $Y_{i,k} = Y(I=i, K=K(I = i))$ 是 $I$ 对 $Y$ 的总影响，也就是TE。而通常我们只需要 $K$ 对 $Y$ 的影响，即用户-物品元组的偏好，对反馈（评分）的影响TIE。我们很难通过有偏数据直接估计这个值，那么可以估计 $I$ 对 $Y$ 的直接影响NDE，再从TE中减去这部分，得到TIE。

TE/NDE/TIE causal graph

下面从因果的角度具体描述一下TE、NDE和TIE。TE如下图所示，可以理解为 $I$ 对 $Y$ 的全部影响，可以用两个假设结果的差表示，即如果物品是 $i$ 或者是其他物品 $i^*$ 。值得注意的是，如上所述， $I$ 会影响 $K$ ，间接影响 $Y$ ，所以 $K_i$ 也会变为 $K_{i^*}$ 。这里的 $i^*$ ，通常用一个虚拟的物品表示（模型里直接就不输入物品特征，或者输入全0，又或者是均值），如Figure4的b所示。

NDE表示的是 $I$ 对 $Y$ 的直接影响，可以表示为如下图所示的式子。即NDE是指，如果 $I$ 的取值从 $i$ 变为其他物品 $i^*$ 时，其对 $Y$ 的影响有多大。并且 $I$ 只影响 $Y$ 。而 $K$ 始终是只受 $i^*$ 的影响（始终从一个和 $i$ 没关系的物品 $i^*$ 计算出来 $K$ 的值）。听起来有点拗口，其实是假象 $K$ 和 $I$ 没关系，这种情况下 $Y$ 随 $I$ 怎么变。

NDE

最终TIE可以利用两者的差来表示。

TIE

这一节先讲到这里，下一节继续讲解如何利用TIE进行建模。

心得体会

因果图中的 $U \rightarrow Y$

个人认为 $U \rightarrow Y$ 这条边的建模是文章的一大亮点，以往的方法都只建模了物品本身流行度对 $Y$ 的影响，即 $I \rightarrow Y$ 。然而，值得讨论的是，如作者所说，用户是受到外界影响或者说更愿意探索流行度较高的物品（俗话说就是喜欢跟风？<邪恶一笑>），才会更倾向于给流行度较高的物品高分。那么，是否 $U \rightarrow Y$ 应该变为 $I \rightarrow U \rightarrow Y$ ？因为，本质还是物品流行度影响了用户的决策，进而影响了我们观测到的反馈（也就是我们的训练数据）？

评估方法

文章中仍然利用采样的方式，得到所有物品的曝光数据是平均分布的测试数据集。在这个数据集上校验模型的性能。这种方法是目前能够采用的比较好的离线验证方式（能够做随机试验除外）。然而，同样受到采样方法的影响，采样策略的好坏，严重影响了对模型评估的准确程度。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,548评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,497评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,990评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,618评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,618评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,246评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,819评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,725评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,268评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,356评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,488评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,181评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,862评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,331评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,445评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,897评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,500评论 2赞 359