因果推断推荐系统工具箱 - Debiasing Grid-based Product Search in E-commerce(一)

文章名称

【KDD-2020】【Arizona State University-Etsy Inc.】Debiasing Grid-based Product Search in E-commerce

核心要点

文章旨在将ULTR应用到E-commerce的场景,解决原有(检索场景中提出的)方法的两个问题。1)在E-commerce推荐结果不是单列瀑布流而是两列或多列grid-based layout;2)E-commerce中存在多个不同的隐式反馈信息,包括点击和购买(转化),原检索场景方法无法适用或没法充分利用这些信息。作者首先提出了一个通用框架来利用多种隐式反馈信息,同时提出了俩种点击模型,row skipping和slow decay,来估计propensity。

方法细节

问题引入

原有推荐系统,包括(检索类的)搜索引擎,(单列,新闻)信息流,短视频瀑布流都可以被归类为list-based推荐模型,其推荐结果页面(search engine results pages,SERP)是单列展示的,且(基本上)在任何设备上都是不变的。然而,电商场景的布局一般是多列的(被称之为grid-based),甚至随着用户使用的终端会发生排版变化。grid-based不同于list-based的结果页,用户可能会在短时间内收到多个反馈,同时注意力会发生迁移,也会因跳过一行,而略过多个商品。作者发现在grid-based场景下,用户的注意力衰减速度要慢于list-based。此时,position bias的计算就会发生变化,必须改造原有的propensity估计方法,因为用户是否审视到某个物品受到多方面因素影响,需要设计不同的点击模型。

此外,电商有CTR,CVR(购买转化)而不仅仅是信息流的点击。原有的ULTR方法无法同时利用多种隐式反馈信息,需要改变原有模型的假设,来处理多个阶段的propensity的估计。

首先,问题可以被形式化如下,

  • 针对查询q,返回的结果(物品id)集合为\overline{y}_q,某个物品所处的位置用i表示(grid-based应该是一个坐标或向量,也可以是单个按照某种顺序,比如蛇形走下来)。
  • x_q^i表示针对查询返回的结果中处于位置i的物品的特征向量,所有物品组合成的特征矩阵表示为X_q
  • o_q^i, c_q^i, p_q^i分别表示物品是否被审视到,是否被点击,是否被购买。
  • 因此数据集合可以被表示为\{ X_q, \overline{y}_q, c_q, p_q \}_{q=1}^n,其中,这些随机变量都是矩阵或者向量(一个查询会返回多个物品),并且q仅仅表示其个数(这里其实用个其他的notation更好,但是作者其实想表达,一个q对应一个样本,不管查询本身是不是可能是一模一样的内容,比如“红色高跟鞋”出现了两边那也是两个q)。

模型学习的目标是利用数据集,得到最优的排序模型f来预测查询-物品元组的排序得分(其实一般其他文档用这个得分表示两者的相关性)。

纠偏方法的目标是,在更定数据集的情况下(没有随机数据集,没有相关性的ground-truth,没有propensity的ground-truth),结合grid的排版格式,估计propensity在观测数据集上,通过调整损失权重,来纠正数据偏差,进行ULTR,使得模型在评估指标,如购买的NDCG上表现最优(或更好)。

现有推荐模型(LTR)利用Cascade Click Models,CCM[1]来建模用户行为,即假设\alpha表示用户会继续浏览下一个物品的概率,那么用户在位置i离开推荐结果页的概率\beta(i) = (1-\alpha)\Pi_{j=0}^(i-1)\alpha。但是[1]利用随机实验数据进行建模(由于简单的点击率估计)。

为了不伤害用户体验,后续[2, 14, 23]利用EM算法在观测数据上估同时估计propensity和ranker模型。然而如上所述,这些方法,不适合grid-based场景。

具体做法

List-based场景下,通常假设物品被点击等价于物品被审到且和查询是相关的。换到电商场景,可以类比为,用户审视到物品且是吸引人的,可以表示为P(c_q^i=1|x_q^i) = P(o_q^i=1|x_q^i)P(a_q^i=1|x_q^i),其中a_q^i表示在查询为q时,位置i的物品是吸引人的。

Joint Examination Hypothesis

为了引入多种隐式反馈,比如点击和购买,作者提出了Joint Examination Hypothesis,假设用户的购买和点击的联合概率与用户是否审视到物品以及物品是否足够吸引人来购买的联合概率相关,可以表示为P(p_q^i, c_q^i=1|x_q^i) = P(o_q^i=1|x_q^i)P(p_q^i, a_q^i=1|x_q^i)

此外,作者假设不吸引人的物品让然有一定的概率被点击,只是越不吸引人的物品被点击的概率越小,即P(a_q^i=0|x_q^i) = \zeta P(c_q^i=0|x_q^i)

Loss function

假设物品元组I_q, I_q^\prime, I_q^{\prime \prime}分别表示(click, no feedback), (purchase, no feedback), (purchase, click),前边为正样本,后边为负样本。那么,推荐模型的损失可以是这三种pairwise的损失的和(也就是说,搞错这三种排序,会贡献梯度)。因此,损失函数可以定义为如下图所示。

loss function

其中,L = L(x_i, a_q^i, x_j, a_q^j)表示上述前两种pair排序错误的损失,L\prime = L\prime(x_i, a_q^i, p_q^i,, x_j, a_q^j, a_q^j)则表示上述第三种排序错误的损失。

Unbiased Estimate of the Loss Function

上述损失函数在观测数据中是无法计算的,因为我们不知道吸引程度的真实标签,并且只有观测到的点击数据。因此,作者假设点击意味着吸引人,并且当损失不为零时,意味着pair中的两个物品的反馈是不一致的,具体公式如下图所示。

unbias assumption

最后两个公式(公式6,7)表示有loss等价于两者反馈不一致,反馈一致,不应该有loss。由此可以得到基于隐式反馈的IPS损失函数,可以证明这个损失是无偏的(证明这里略去了,感兴趣的同学可以参考文章的附录)。

unbiased estimate

值得注意的是,作者仍然假设位置偏差仅仅和位置有关,即P(o_q^i = 1 | x_q^i) = P(o_q^i)

这一节,讲解了作者建模多种隐式反馈的方法,下一节讲解如何在grid-based场景下估计propensity。

心得体会

Joint Examination Hypothesis

虽然说是,联合审视概率,但是感觉作者只是替换了联合概率而已,并没有做拆分,相当于利用了整个漏斗的正样本来训练模型,可能有点类似于投放场景,估计到最深的转化率,来作为信息辅助估计前面的转化漏斗。

文章引用

[1] Nick Craswell, Onno Zoeter, Michael Taylor, and Bill Ramsey. 2008. An experimental comparison of click position-bias models. In WSDM. ACM, 87–94.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355