因果推断推荐系统工具箱 - MACR(一)

文章名称

Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System

核心要点

为消除流行度偏差在训练模型时的影响,并且解决IPS方法很难调试、方差较大的问题。作者利用因果图,把流行度偏差归结为物品对用户反馈(评分)的直接因果影响(Natural Direct Effect),而把用户对物品的偏好归结为用户对物品反馈(评分)的间接因果影响(Total Indirect Effect),这两部分共同组成了观测到的全部因果效应(Total Effect),在预估阶段应该利用后者对物品进行排序、推荐。然而,TIE(Total Indirect Effect)是潜在的因果效应,需要利用反事实的方法解析出来。因此,作者利用多任务学习的方法,同时估计TE、NDE,最终得到TIE。

方法细节

问题引入

通常推荐模型的目标是学习打分函数f(u, i|\theta)来预估用户对物品的偏好,并利用这个估计值排序物品,推荐相关性较高的。当前推荐模型学习的思路通常是拟合观测数据,受到流行度偏差的影响,模型会造成马太效应的加剧。IPS方法可以解决偏差问题,但是准确的估计propensity score是非常困难的。为了解决这个问题,作者从数据生成的机制的角度出发,构建如下图所示的因果图,其中U, I, K, Y分别表示,用户embedding,物品embedding,用户和物品的交互embedding以及用户-物品反馈(打分)矩阵。

causal graph

作者认为用户对某个物品的评分取决于3方面,1)用户-物品元组的匹配程度;2)用户的从众程度(或者说受外界影响的程度,可能被流行度影响);3)物品本身的流行程度(如果是评分概率,模型都是用最大似然来进行估计,那么流行度高的物品,收集到反馈的频次更多,更容易被估计为有正反馈),其因果图如上图c所示。 然而,当前很多推荐模型在建模时,只考虑了1)用户-物品元组的匹配程度,如上图a所示,导致用户-物品元组的正反馈可能性被夸大(包含了2)、3)的因素在里边)。有点同学可能会不太理解U \rightarrow Y这条因果边,认为上图b足以反应物品的流行度影响。其实我也这么理解的,但是作者认为,不同用户对流行度的敏感度也是不一样的,有些用户愿意跟随潮流或者更容易受到外界的影响,因此作者加入了这条边来反应用户的流行敏感度偏差造成的估计偏差。

然而,想要在训练的时候兼顾上述3种影响,在预测时,只考虑用户-物品元组的匹配程度,需要从因果推断的角度触发,回答一系列反事实问题,最终得到“用户-物品元组的匹配程度”对“反馈(评分)”的因果效应,以此作为推荐(排序)的依据。

具体做法

作者利用TE、NDE、TIE三者之间的关系,来消除流行度偏差对推荐模型预估的影响。首先,解释一下TE、NDE和TIE。观察如下因果图(为了简单先只看I的影响),其中IY有直接影响。同时,I经过中介KY有间接影响。因此,Y的观察值,有两种影响的诱因共同决定,即Y_{i,k} = Y(I=i, K=k),其中Y(\cdot)是一个评分函数(可以用神经网络之类的建模)。而k = K(I = i)表示,此时的K是由I决定(或者说受其影响)。带入之后,Y_{i,k} = Y(I=i, K=K(I = i))IY的总影响,也就是TE。而通常我们只需要KY的影响,即用户-物品元组的偏好,对反馈(评分)的影响TIE。我们很难通过有偏数据直接估计这个值,那么可以估计IY的直接影响NDE,再从TE中减去这部分,得到TIE。

TE/NDE/TIE causal graph

下面从因果的角度具体描述一下TE、NDE和TIE。TE如下图所示,可以理解为IY的全部影响,可以用两个假设结果的差表示,即如果物品是i或者是其他物品i^*。值得注意的是,如上所述,I会影响K,间接影响Y,所以K_i也会变为K_{i^*}。这里的i^*,通常用一个虚拟的物品表示(模型里直接就不输入物品特征,或者输入全0,又或者是均值),如Figure4的b所示。

TE

NDE表示的是IY的直接影响,可以表示为如下图所示的式子。即NDE是指,如果I的取值从i变为其他物品i^*时,其对Y的影响有多大。并且I只影响Y。而K始终是只受i^*的影响(始终从一个和i没关系的物品i^*计算出来K的值)。听起来有点拗口,其实是假象KI没关系,这种情况下YI怎么变。

NDE

最终TIE可以利用两者的差来表示。

TIE

这一节先讲到这里,下一节继续讲解如何利用TIE进行建模。

心得体会

因果图中的U \rightarrow Y

个人认为U \rightarrow Y这条边的建模是文章的一大亮点,以往的方法都只建模了物品本身流行度对Y的影响,即I \rightarrow Y。然而,值得讨论的是,如作者所说,用户是受到外界影响或者说更愿意探索流行度较高的物品(俗话说就是喜欢跟风?<邪恶一笑>),才会更倾向于给流行度较高的物品高分。那么,是否U \rightarrow Y应该变为I \rightarrow U \rightarrow Y?因为,本质还是物品流行度影响了用户的决策,进而影响了我们观测到的反馈(也就是我们的训练数据)?

评估方法

文章中仍然利用采样的方式,得到所有物品的曝光数据是平均分布的测试数据集。在这个数据集上校验模型的性能。这种方法是目前能够采用的比较好的离线验证方式(能够做随机试验除外)。然而,同样受到采样方法的影响,采样策略的好坏,严重影响了对模型评估的准确程度。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,548评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,497评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,990评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,618评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,618评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,246评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,819评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,725评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,268评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,356评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,488评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,181评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,862评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,331评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,445评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,897评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,500评论 2 359

推荐阅读更多精彩内容