因果推断推荐系统工具箱 - PIJD(二)

文章名称

【SIGIR-2021】【University of Illinois at Chicago】Propensity-Independent Bias Recovery in Offline Learning-to-Rank Systems

核心要点

文章旨在同时解决LTR中的Position Bias和Selection Bias,提出了两阶段的bivariate method,在不依赖Propensity Score的情况下,同时纠正上述两种偏差。

上一节介绍了问题的场景以及现有方法存在的缺点。这一节,讲解怎么解决无法观测到用户是否审视到物品以及查询-物品相关性的问题。

方法细节

问题引入

上一节到最后,推导出了点击反事实的公式。同其他场景一样,在公式里需要我们同时估计查询-物品的相关性,同时估计物品被观测到的概率。这一点会导致模型得到次优解。

因此作者构建了问题的因果图,从点击生成的角度,另辟蹊径,矫正偏差,并验证counterfactual的可识别性。

具体做法

Causal Model

作者构建的因果图,如下图所示。其中S_{x, y} \in \{ 0, 1\}表示物品是否进入结果集(被展示给用户,英文单词应该是Show),O_{x, y}, C_{x, y} \in \{ 0, 1\}分别表示物品是否被观测到,是否被点击。k是就是Top-K中的K,排序在K之后的物品不会被展示,即S_{x, y_{>k}} = 0R_{x,y}表示物品y与查询x的真实相关性(也就是我们说的位置的相关性)。

causal graph

图中F = F_{x, y}是我们上一节介绍的查询和物品元组的特征,其中,浅色圆圈的部分是我们需要估计的两个随机变量,物品被观测到的概率以及物品与查询的相关性。可以看出,查询和物品元组的特征同时决定了排序和物品的点击(相关性是mediator)。我们关心的是物品在被观测到的时候,被点击的概率(个人理解是把O当做treatment,把C当做outcome,过程中F, rank, R都是backdoor path上的变量)。这种情况下,如果我们同时观测到O, R,那么可以满足后门准则,由于R我们无法实际观测,只能利用F来近似。那么,可以得到如下图所示的因果模型。

causal model
causal model2

即便在F上做了近似,仍然需要在所有F的组合上求和(做边缘化),显然是不现实的。此外,不仅仅R不知道,我们实际上也不知道O,还得退而求其次,控制rank, S, K

PIJD

前面讲到作者为了避开Propensity Score估计困难这个问题,采用了Two-stage bivariate selection model。这个模型源于经济学[1],用来消除选择性偏差,[21, 35]把这个模型引入排序模型学习,消除选择性偏差,但并没有用来联合消除Position Bias和Selection Bias。

经济学经常用到的是回归方程,顺着这个思路,最简单直接的点击模型如下图所示(其实就是简单的线性回归)。如果没有偏差,这个模型是合理的、有效的。在有偏差的场景,通常采用Two-stage bivariate model来纠正偏差。

Simple Regression Model

基于两阶段模型,作者提出的PIJD的第一阶段如下图所示。采用Probit模型建模物品被观测的过程(被观测的概率),F_{x, y}, f(Rank_{y, \overline{y}},k)是模型的特征(输入),f建模了排序位置对物品是否被观测到的影响,\epsilon_{x,y}表示随机噪声,\theta, \theta_r是Probit模型的参数。由于不知道O_{x, y},因此采用S_{x,y}代替。

Probit click model

随后,利用估计的参数\hat{\theta}, \hat{\theta_r}来计算每个查询-物品元组的Inverse Mills Ratio (IMR)。计算公式如下图所示。

Inverse Mills Ratio (IMR)

其中\phi(\cdot), \Phi(\cdot)分别表示物品被观测到的概率密度函数以及正态分布的累计概率密度函数。直觉上,这个比率意味着,文档y在当前查询-物品元组下被用户审视到的概率与在所有查询下被审视到的概率累计值的比率。由于,这个比率计算了所有文档,包括被点击的样本和未被点击的样本,因此并不会像只基于点击数据的Propensity Score受到用户行为的影响(因为,点击是用户控制的)。(这里,作者采用IMR进行了审视概率的相对比率计算,文中提到这种方式相当于控制了审视概率,但其实没有讲的特别细致)。

第二阶段,把IMR带入到回归方程中,相当于添加了一个矫正项\lambda_{x,y}(从机器学习的角度,也可以被视为正则项吧)。这个矫正项因为引入了未被点击的数据,考虑到了物品被截断,以及位置偏差等,因此纠正了Position Bias和Selection Bias。最终,利用这个回归方程在点击数据上训练,用来估计给定查询下,某个物品的点击率\hat{c}

IMR Regression Model

心得体会

Two-stage bivariate model

作者解决选择性偏差的方法来源于经济学中的线性回归纠偏方法,并且常用的Probit模型建模了Selection Bias。其实,计量经济可以说是因果推断的发祥地之一,很多里边的方法都可以被应用于现有因果推断的场景,只不过相对门槛更高一些(相对于我来说T.T),比如influence function。感兴趣的同学,可以详细读一下文章第三节的最后两段,参考[1]里的解释,理解一下背后的原理,共勉!

文章引用

[1] James Heckman. 1979. Sample Selection Bias as a Specification Error. Econometrica 47, 1 (1979), 153–161

[2] Zohreh Ovaisi, Ragib Ahsan, Yifan Zhang, Kathryn Vasilaky, and Elena Zheleva. 2020. Correcting for Selection Bias in Learning-to-rank Systems. In Proceedings of the 29th International Conference on World Wide Web. 1863–1873.

[3] Yixin Wang, Dawen Liang, Laurent Charlin, and David M Blei. 2020. Causal Inference for Recommender Systems. In Proceedings of the 14th ACM Conference on Recommender Systems

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,818评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,185评论 3 414
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,656评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,647评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,446评论 6 405
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,951评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,041评论 3 440
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,189评论 0 287
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,718评论 1 333
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,602评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,800评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,316评论 5 358
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,045评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,419评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,671评论 1 281
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,420评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,755评论 2 371

推荐阅读更多精彩内容