推荐系统遇上深度学习(七十一)-[华为]一种消除CTR预估中位置偏置的框架

本文介绍的论文是:《PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems》
论文下载地址为:https://dl.acm.org/citation.cfm?id=3347033

在之前的youtube论文介绍中,曾经简单介绍过一些解决位置偏置的方法,本文来详细介绍下华为提出的解决广告推荐中位置偏置的方法。

1、背景

在广告推荐场景中,为了最大化广告收入,往往通过CTR * BID(BID是广告被点击一次平台所能获得的收入)对广告进行排序,BID基于广告主的出价,一般来说是平台不能控制的(当然有些平台有智能出价或者OCPC等调价方式),所以CTR预估显得至关重要。

一般的推荐系统,通过收集用户和广告的交互信息,来离线训练点击率预估模型,并应用于线上。但用户和广告的交互信息中存在一个很重要的影响因素,那就是广告的展示位置。

对于不同的位置来说,点击率是不同的,展示位置越靠前,则点击率越高。对于同一个广告来说,当它展示位置越靠前时,点击率同样是越高的,下面的两张图证明了这一点:

这也就是说,收集到的训练样本中存在位置偏置(position bias)信息,用户点击某个广告,并非出于喜好,有可能仅仅与展示位置有关。所以在建模过程中有必要对这一部分位置偏置信息进行建模。

下一节中,我们来介绍一些消除位置偏置的方法。

2、解决位置偏置方法

首先我们假设收集到的离线训练数据为S={(xi,posi->yi)},其中xi是特征向量,包括用户特征、广告特征、交互特征和上下文特征,posi是广告展示的位置,yi是用户的点击结果。

一般的解决位置偏置的方法有两种,作为特征(as a feature)和作为模块(as a module)

2.1 位置信息作为特征

该方法的示意图如下所示:

该方法把位置信息作为特征。在离线训练时,输入特征是特征向量和位置信息的拼接[x,pos],而在线上推断时,我们无法获取实时的位置信息,那么此时的做法有两种:

第一种做法就是一种暴力探索的方法,首先固定位置为1,然后计算所有广告相应的点击率,将点击率最高的一个广告放在第一个位置,接下来在固定位置为2,计算剩余广告相应的点击率,将点击率最高的广告放在第二个位置,依次类推。这样的做法显然是不可取的,主要是计算复杂度太高,线上性能无法保证。

第二种做法是当前工业界最为常见的做法,即固定为某一个位置,计算每个广告在该位置下的点击率,从而进行排序。但是,位置不同,所得到的推荐结果也相差很大,所以我们需要找到一个合适的位置,来得到最好的线上效果。此时往往需要通过线下评估的方式,即通过不同位置在相同测试集上的表现,来决定线上使用哪个位置。显然这种做法泛化性也是无法得到保证的。

2.2 位置信息作为模块

上面分析了将位置信息作为特征输入的不足之处,因此本文提出了一种将位置信息作为一个模块单独预测的方法,将在第三节中进行介绍。

值得一提的是,youtube在论文《Recommending What Video to Watch Next: A Multitask Ranking System》中也提出了一种作为模块的方法,来回顾一下:

通过一个shallow tower(可理解为比较轻量的模型)来预测位置偏置信息,输入的特征主要是一些和位置偏置相关的特征。在sigmoid前,将shallow tower的输出结果加入进去。而在预测阶段,则不考虑shallow tower的结果。

3、PAL框架

本文提出的消除位置偏置信息的框架称为Position-bias Aware Learning framework (PAL) 。其基于如下的假设,即用户点击广告的概率由两部分组成:广告被用户看到的概率和用户看到广告后,点击广告的概率。

该假设可进一步进行化简,首先,用户是否看到广告只跟广告的位置有关系;其次,用户看到广告后,是否点击广告与广告的位置无关。此时公式可写作:

基于该假设,就可以分开建模,PAL的框架如下图所示:

可以看到,两个模块是联合进行训练的,如果分开进行优化,两个模块的训练目标不同,可能导致整个的系统是次优化的。

损失函数采用交叉熵损失:

这里再说一下,论文中并没有给出训练位置信息的模块所使用的特征,可以参考youtube论文中的思路,加入位置特征和上下文特征来训练。

4、实验结果

本文主要对比了下图中两个模型,左边是本文提出的PAL框架,右边是将位置信息作为输入特征的方法,作为BASE:

来看下实验结果,首先看下离线训练结果。由于在测试集上,BASE方法需要一个固定位置,因此本文尝试了1-10位置作为固定位置时,BASE方法的效果和PAL方法的对比:

从离线结果来看,PAL方法并非是最优的方法。接下来看线上的效果,文章对比了PAL和固定位置是1、5、9时BASE方法的结果:

尽管离线训练的效果并非是最优的,但是PAL相较于BASE方法,线上效果取得了巨大的提升。

5、总结

本文提出了一种消除位置偏置对点击率预估影响的框架。该框架下,将位置信息当作一个单独的模块,而非作为一个输入特征进行训练,线上效果取得了巨大的提升。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 内容来源:2017年4月17日,搜狗移动搜索广告策略研究组负责人舒鹏在七牛云和QCon联合主办的深度学习论坛“深度...
    IT大咖说阅读 869评论 0 0
  • 概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大...
    JinkeyAI阅读 22,750评论 10 241
  • 人生只有两件大事: 1:婚姻 2:投资 成功的婚姻都极其相似 失败的婚姻则各有各的原因 投资亦然…… 这两件大事 ...
    十一夫人说阅读 772评论 0 0
  • 多少次,想提起笔,记下我们一起走过的日子,虽然只有短短几年。多少次,想起你微笑的样子,眼泪慢慢滑落。多少次,在我的...
    雨辰诗酒趁年华阅读 355评论 0 1
  • 哈哈周末愉快,终于明天不上学啦,孩子们可以睡个懒觉,嘻嘻我貌似比孩子们还盼周末。我从店里回家时是晚上8点多一宝已...
    嘉一和嘉霖的妈妈阅读 51评论 0 0