因果推断推荐系统工具箱 - MRDR(一)

文章名称

Enhanced Doubly Robust Learning for Debiasing Post-Click
Conversion Rate Estimation

核心要点

点击后转化是构建推荐系统的重要且有意义的信息之一,然而这一信息通常比较稀疏,并且由于曝光、用户点击偏好等影响,转化数据通常是有偏的。现有的DR方法引入的EIB部分在某种条件下,可能导致模型的方差比IPS方法的更大。因此,作者通过推到DR方法的BIas和Variance,提出MRDR的方法,来减少方差。并且提出Double learning的方法训练MRDR模型,把imputation error估计转化为CVR估计,并且验证这种训练方法也可以进一步降低方差。

方法细节

问题引入

为了保持完整性,我们回顾一下DR方法的大致演进过程,细节可以参见因果推断推荐系统工具箱 - Doubly robust joint learning for recommendation on data missing not at random(一)
。假设我们能够观察到所有用户-物品元组的转化率,也就是转化矩阵R \in \{ 0, 1\}^{m \times n}的每一个元素都是已知的,此时不需要任何预测。由于曝光、点击等漏斗,转化矩阵肯定是有缺失的。推荐系统的任务就是去预估这些缺失。在没有任何selection bias的情况下,转化矩阵的元素是随机缺失的(MAR)。此时,我们可以利用如下图所示的损失函数进行模型参数学习。其中e_{u, i} = Cross Entropy(r_{u,i}, \hat{r}_{u,i})\hat{r}_{u,i}表示推荐模型预估的转化率。

ideal Loss

在CVR的场景下,由于点击是用户依据自己的偏好决定的,所以天然具有selection bias(MNAR)。矩阵O \in \{ 0, 1\}^{m \times n}表示用户是否点击了某个物品(的曝光)。因此,通常不做纠偏的推荐模型,是在利用如下图所示的损失进行模型参数的学习,可以看出,两式中的每一个求和项都存在系数o_{u, i}的偏差。

naive loss

也就是说,navie模型的预估损失和在无偏数据下训练出来的同样模型偏差是不等的。因为矩阵O不是在矩阵R上随机缺失的(不然,下面的期望就相等了)。

click bias

一种方法是,把损失拆开成观测到的和没有观测到的两部分。可以看出EIB就是在L_{naive}中的每一项都多加了一部分。这部分表示没有观测到的用户-物品元组的损失(当然是估计,因为我们不知道真实的转化情况),可以证明这个损失是相对L_{ideal}无偏的,具体参见[1]。但是,由于我们无法准确度量插入损失\hat{e}_{u, i}的(预估)准确程度。因此,仍然会带来很大偏差(虽然比原来要小)。

EIB

另一种方法,是采用IPS,如下图所示,其中\hat{p}_{u, i}表示用户-物品元组被用户点击的概率(是o_{u, i}的估计值)。可以证明这个loss也是相对L_{ideal}无偏的,具体参见[2]。但是\hat{p}_{u, i}通常比较小,因此学习得到的模型存在较大方差。

IPS

第三种方法DR,结合了两者,其损失如下图所示。同样可以证明,只要\hat{p}_{u, i}\hat{e}_{u, i}中的一个可以估计准确就,这个loss就是相对L_{ideal}无偏的,放松了上边两种方法的条件,具体参见[3]。

DR

通常DR方法中,imputation error e是用一个和转化率预测模型无关的模型来估计的(独立的回归模型)。同时,由于这个模型也是用存在selection bias的数据的真实误差e_{u, i}当做监督信息,因此,仍然需要进行IPS调权。细心地你一定发现了,和IPS方法一样,这个imputation error的学习模型也因此引入了较大的方差。文章同样给出了无偏的证明,详细的推到过程也可以参见[3]或者因果推断推荐系统工具箱 - Doubly robust joint learning for recommendation on data missing not at random(一)
,这里就不赘述了。

DR imputation error

作者推导了DR的方差,如下图所示。

DR Variance

其中o的方差推导过程如下,其中主要是利用了方差的公式,并且提出了与o不相关的其他项。首先看求和好里边的每一项,V_{o_{u, i}}[\hat{e}_{u,i}+\frac{o_{u,i}(e_{u,i} - \hat{e}_{u,i})}{\hat{p}_{u,i}^{2}}],由于只有o_{u,i}和方差相关,其他均为常数,可以被提出来。利用方差-期望公式,把方差转为期望。第三步,由于o_{u,i}是服从伯努利分布的,因此E_{o_{u, i}[o_{u,i}]} = E_{o_{u, i}[o_{u,i}]}^2。第四步,由于在IPS方法中我们定义p_{u, i}=E_{o_{u, i}[o_{u,i}]},因此可以替换为p_{u, i},但是为了后续推导,并没有把最左边的E_{o_{u, i}[o_{u,i}]}也替换,而是利用期望的性质E(CX) = CE(X)把常数放到期望里去。

DR Variance Derivation term o

把上述结果带入到求和式子中,可以得到DR方法的最终方差,推导过程如下图所示。其中利用了方差性质V(CX) = C^2V(X),把常数项提了出来。另外,为了说明方差和倾向性得分有关把上式子中的o_{u,i}也替换成了p_{u,i}

DR variance

也可以推导出IPS方法的方差如下图所示。

IPS variance

从公式中可以看出,DR的方差依赖于对倾向性得分的估计,\hat{p}_{u, i},在文章提到的场景下,也就是对CTR的估计。由于CTR的数值一般比较小,加之估计误差,导致DR方差的方差也比较大。**但是,对比DR和IPS的方差,我们仍然发现,只要0 \leq \hat{e}_{u,i} \leq 2e_{u, },DR方法仍然降低了IPS的方差。

具体做法

MRDR

如上所述,只有确保imputation error估计的足够准确,才能确保DR方法相对于IPS是降低了方差的(注意,bias是肯定比IPS小的)。因此,作者提出在学习imputation error模型的时候直接优化DR的方差,作者称之为MRDR方法。也就是说,这个方法和DR没有本质区别,只是把损失函数换成了由DR的方差公式推导出来的式子。具体公式如下图所示。其中,为了在观测数据上估计,在第一步作者还是保留了o_{u,i}

MRDR imputation error loss
DR imputation error loss

对比DR方法的imputation error的损失函数,发现求和项中的系数从\frac{1}{\hat{p}_{u,i}}变为\frac{1-\hat{p}_{u,i}}{\hat{p}_{u,i}^2}

这个变换具有如下图所示的性质,核心思路是降低倾向性得分较小的样本的权重,提升较大的样本的权重,来减小方差。

change in factors

下一节,讲解文章的另一个贡献double learning方法。

心得体会

无偏和无误差

可能有些同学会混淆,无偏和无误差。误差是由于模型精度,超参数选择,训练过程的随机性(以及一些模型假设的不合理)造成的。由于selection bias造成的偏差,也是误差的一部分。文章探讨的无偏,或者去除selection bias,并不能保证模型没有其他的误差,只是把由于CTR这个漏斗造成的偏差尽可能的消除。一系列的方差和其他误差,仍然会造成模型估计结果的不准确。因此,消偏只是把模型的预估误差减少,或者说让误差回到没有数据偏差影响下的结果。(不知道是不是能被称之为系统误差和非系统误差)

MRDR

利用方差作为新的学习模型参数的损失函数,其实仍然是在对样本进行调权。因为imputation error的学习没有明确的方法来验证准确性。因此,从降方差的实际目的出发,来进行模型学习,能保证模型具有我们想要的性质。似乎也可以理解为另一种启发式的学习方法。

文章引用

[1] José Miguel Hernández-Lobato, Neil Houlsby, and Zoubin Ghahramani. Probabilistic matrix factorization with non-random missing data. In International Conference on Machine Learning, pages 1512–1520. PMLR, 2014.
[2] Yuta Saito, Suguru Yaginuma, Yuta Nishino, Hayato Sakata, and Kazuhide Nakata. Unbiased recommender learning from missing-not-at-random implicit feedback. In Proceedings of the 13th International Conference on Web Search and Data Mining, pages 501–509, 2020.
[5] Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning. In Proceedings of the 28th International Conference on International Conference on Machine Learning, page 1097–1104, Madison, WI, USA, 2011.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,677评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,772评论 3 408
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 173,108评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,378评论 1 303
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,394评论 6 403
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,807评论 1 315
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,127评论 3 432
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,136评论 0 281
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,693评论 1 328
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,703评论 3 349
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,810评论 1 357
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,400评论 5 352
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,130评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,532评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,707评论 1 278
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,412评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,892评论 2 368

推荐阅读更多精彩内容