因果推断推荐系统工具箱 - ACL（一）

文章名称

【NIPS-2020】【Walmart Labs】Adversarial Counterfactual Learning and Evaluation for Recommender System

核心要点

文章旨在解决部分混淆变量不可观测，导致IPS方法在推荐系统中应用时不满足可识别性原理的问题。作者提出了a minimax empirical risk框架，利用两个推荐模型来模拟松弛后的对偶问题，进而解决曝光偏差对预估推荐结果的影响。

方法细节

问题引入

观测数据是受到线上推荐模型影响的，有偏差的数据。利用该数据直接进行监督学习不可避免的造成估计偏差，并且无偏模型估计要求模型考虑曝光倾向，也就是需要乘以一个曝光概率，但是这个曝光概率（也就是propensity score）一般没有记录，需要估计，且很难估计准确。这导致虽然离线评估效果很好，但是实际线上效果偏差较大。

虽然，可以从反事实的角度来学习和评估模型。但是这些反事实方法的一些假设很难满足。例如，要求观测到全部confounder。并且，最终的曝光可能有很大的噪声，甚至没有被完全记录。

基于此，作者提出一种基于对抗训练的方法，把因曝光机制不明确导致的估计不确定性考虑进来。

具体做法

首先，形式化的定义一下问题，

用户和物品特征，可以是one-hot也可以是embedding，被记作 $\boldsymbol{x}_u, \boldsymbol{z}_i$ 。

物品的曝光情况，记作 $O_{u,i} \in \{ 0, 1 \}$ 。

用户-物品元组的反馈，记作 $Y_{u,i}$ ，也可以是点击，也可以是评分。

数据集记作 $\mathcal{D}$ ，其中负样本可以是全部未交互物品，也可以是负采样的样本。

推荐模型，记作 $f_{\theta}, g_{\psi}$ ，其中作者用 $g$ 作为曝光估计模型（实际上可以理解为线上的推荐模型，作者利用两个模型来对抗学习）。

模型损失，记作 $\delta(y_{u,i}, f_{\theta}(u,i))$ ，其中 $y_{u,i}$ 是观测的用户反馈。

整个形式化比较常规，值得注意的是， $p_g(O_{u,i}|\boldsymbol{x}_u, \boldsymbol{z}_i)$ 表示在模型 $g$ 的情况下，物品被曝光给该用户的概率 $p(Y_{u,i}| O_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)$ 表示用户可能的反馈的概率，当观测到随机变量 $O_{u,i}$ 时，该概率和曝光机制是相互独立的（也就是所谓的没有曝光的confounder了）。

Supervised learning for feedback data.

假设 $Y_{u,i} \in \{-1, 1 \}$ 表示用户的隐式反馈，监督学习通过优化如下图所示的损失学习模型参数。此时，没有考虑曝光的机制。其中， $\phi(\cdot)$ 常用的损失函数。

supervised loss

当考虑曝光机制的影响时，监督学习的损失与如下图所示的两个联合概率有关，即在不同曝光情况下，用户的正负反馈的概率。

supervised loss with exposure mechanism

作者分析当曝光机制故定时，通过优化监督学习损失函数得到的最优的模型只与上述两个联合概率有关系，详细证明参见附录，其中，如claim 1所述 $\alpha^*_\phi$ 是某个依赖 $\phi$ 的函数。

Claim 1

值得注意的是，上述联合概率可以被分解为如下图所示的比率式。

factorized joint distribution

在这种情况下，由claim 1可以得到如下图所示的最优模型和条件概率的关系，可以看出最优模型是在观测曝光情况下正负反馈的比值，注意此时曝光机制必须可以观测并且固定。

optimal model implied from claim 1

通过如上分析，可以得到如下结论，

最优损失函数 $-D_c(P^{(1)}||P^{(-1)})$ 与曝光机制和用户偏好相关。

最优的模型 $f^*_{\theta}$ 仅仅与用户偏好有关系，即 $f^*_{\theta}$ 是 $p(Y_{u,i}| o_{u,i}, \boldsymbol{x}_u, \boldsymbol{z}_i)$ 的函数，**注意，这里是小写 $o$ 是观测值而不是随机变量。

然而， $p(O_{u,i}|\boldsymbol{x}_u, \boldsymbol{z}_i)$ 通常是未知的。因此，如果观测数据是在不同的曝光机制下收集的，推荐模型预测出不同的用户偏好。这种不一致主要是由于在监督学习中没有考虑未知的曝光机制造成的。

本节介绍了作者研究的问题背景，描述了作者对监督学习的分析思路和结论，即，在没有确定的曝光机制信息的情况下，估计的结果受到曝光机制的影响，直接通过观测来估计是有偏差的。

心得体会

曝光机制未知

通常我们假设推荐系统的曝光机制是未知的，虽然可以利用模型来从观测数据中估计曝光的概率，也就是倾向性得分，但是，个人理解，这个值可能是有偏差的，毕竟观察到的曝光数据只是一部分，我们没有线上推荐模型的全部信息。

另一种方法是，记录下线上模型的预测概率。然而最终的曝光杂糅了最后的运营规则等其他噪声影响，这些噪声，讲道理应该也要被模型完整模拟才行。

最后编辑于：2021.12.28 23:05:07

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,490评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,581评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,830评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,957评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,974评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,754评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,464评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,847评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,995评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,137评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,819评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,482评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,023评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,149评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,409评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,086评论 2赞 355