因果推断推荐系统工具箱 - AllPairs(二)

文章名称

【WSDM-2021】【google】Estimating Position Bias without Intrusive Interventions

核心要点

文章上一节,我们讲解了审视偏差,PBM以及Rank Random Swapping,但是我们知道random swaping对用户的体验是有伤害的。本节讲解如何进行Intervention Harvesting,并应用于PBM。来估计模型参数。

方法细节

问题引入

Rank Random Swaping保证能够准确的估计审视概率(由于随机替换保证位置k的偏好是所有查询上的期望值,并且是一致的),但是需要替换最优的结果,因此会影响用户体验和推荐模型的性能。如果我们有很多已经上线过的模型的观测数据,是不是也可以做到很好的估计审视概率呢?

具体做法

假设我们有m个不同的推荐模型(排序模型)F = \{ f_1, ..., f_m \}(可以是历史上具有先后顺序的多个模型,也可以是同时上的AB实验里的多个模型)。并且,假设对于任何模型,输入它们的查询分布是相同的,也就是说输入数据的分布没有变化(这种在同时期AB实验中是可以保证的,因为随机分流;但是如果是有先后顺序的,则需要做一下检查或者校验),可以利用如下图所示的公式表示。

corresponded query distribution

每一个排序模型收集到的数据可以表示为\mathbb{D}_i = (q_i^j, y_i^j, c_i^j)^{n_i},其中q, y, c分别表示模型i下的样本j对应的查询(向量),排序模型返回的排序结果以及用户对整个排序结果的点击向量。定义给定查询q后的候选物品集合为\Omega(q),候选集中物品d的排序可以表示为rk(d|y_i^j)c_i^j(d)表示在这个样本下物品d是否被点击(其实就是向量中的一个元素)。

假设,对于同样一个查询q,同样一个文档d,在排序函数f下得到排序k,在排序函数f \prime下得到排序k \prime,并且两个排序都在最终返回结果的范围M=10以内(10是举例,可以是任意值)。可以得到如下图所示的interventional set(干预集合)S_{k, k\prime}

interventional set

对于任何一interventional set,其对应着一组位置k, k\prime以及一组查询-文档元组q, d。并且,假如我们随机选择偏序函数f_i, f_i\prime,在相同的查询-文档元组q, d下,文档d是可以被看做是随机分配到位置k,k\prime上的(因为,如果我们随机选择一个排序函数f_i,那么1)文档被安排在k上,2)安排在k\prime,3)没有安排在这两个位置上。第三种情况不在interventional set上,而前两者可以被看做是随机的,如果函数是被随机选择的)。

但是这种随机并不是服从均匀分布的,因为某些比较优质的文档可能就会被排序比较高(当然也和查询的分布有关系)。因此,我们可以利用如下图所示的公式,计算出权重$w(q, d, k)来表示这种不平均。

weight

进一步,我们可以得到某个文档d被排在位置k的概率(在interventional set中),其计算公式如下图所示。

assignment probability

基于上述interventional set替换的概念,我们可以近似的得到和Swap(1, k) interventions类似的数据集,可以模拟Swap(k, k\prime)来控制未被观测到的偏好。对于interventional set S_{k, k\prime},我们可以得到对应的点击率\hat{c}_{k}^{k, k\prime}, \hat{c}_{k\prime}^{k, k\prime},表示interventional set中,文档d分别在k, k\prime位置的时候是否被点击。其计算公式,如下图所示。

click rate in interventional set

公式利用权重w(q_i^j, d, k)对观测到的点击进行加权,消除前述中排序的不平均性。并且,只要\mathbb{1}_{[(q_i^j, d) \in S_{k, k\prime}]}取值为真(因为我们是在interventional set中计算,所以这个值一定是真),那么w(q_i^j, d, k)就不会是0,同时定义\frac{0}{0} = 0。也就是说,\hat{c}_{k}^{k, k\prime}, \hat{c}_{k\prime}^{k, k\prime}能够捕获在interventional set中物品随机出现在位置k, k\prime时候的加权点击率。

可以证明,\hat{c}_{k}^{k, k\prime}, \hat{c}_{k\prime}^{k, k\prime}正比于位置k, k\prime的真实点击率的期望,具体证明过程如下图所示,其中,倒数第二个公式利用到了权重w(\cdot)的定义,所以上下约去了权重。

proportional to the true clickthrough rate expectation

r_{{k, k\prime}}是所有interventional set S_{k, k\prime}中,文档d偏好的平均值。虽然r_{{k, k\prime}}是没有被观测到的(我们也不知道它的函数形式,所以很难设计好的函数来估计它),但是r_{{k, k\prime}}\hat{c}_{k}^{k, k\prime}, \hat{c}_{k\prime}^{k, k\prime}中是相同的(可以被约去),这样可以得到审视概率(也就是propensity)的比值(相对值),如下图所示。

relative propensity

下一节继续讲解如何利用interventional set求解模型参数。

心得体会

Intervention Harvesting和观测数据因果推断

个人感觉,我们可以把random swapping看做是一种随机实验的设计,把Intervention Harvesting理解为在观测数据上对审视概率做无偏估计。最初,1)很多方法使用完全随机替换,保证所有位置的偏好都是(近似,或者说概率上)相同的,这种可以被看做完全随机实验,是对用户体验伤害最大的。2)random swapping可以被看做是分层(只在首位k位进行替换),利用审视概率的对比值进行计算,实现对审视概率的准确估计。3)Intervention Harvesting可以被看做是基于已有数据,在某些假设的情况下进行偏差纠正后,实现准确估计。

当然上述类比缺乏科学依据,只是有隐约感觉有些类似。

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,000评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,745评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,561评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,782评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,798评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,394评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,952评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,852评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,409评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,483评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,615评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,303评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,979评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,470评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,571评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,041评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,630评论 2 359

推荐阅读更多精彩内容