推荐系统遇上深度学习(一零七)-[阿里]使用统一模型进行多域CTR预估

今天给大家介绍的是阿里公开的一篇论文,主要介绍如何使用统一的模型在多domain进行CTR预估。论文标题为《One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction》,一起来看一下。

1、背景

在大的电商公司如阿里和亚马逊,通常需要对多个业务domain的商品进行点击率预估,如下图所示,顶部的banner和猜你喜欢频道均需要进行CTR预估。

对于这种多domain的情况,常见的做法是每个domain使用自己独有的数据训练单独的模型,并单独部署上线。这种做法存在一定的缺陷,首先,部分业务线的数据比较稀疏,模型难以得到充分的训练,其次,不同的业务线的模型单独训练,需要更多的计算资源和人力资源消耗。

不同domain的用户和商品具有一定的交集,因此不同domain的信息共享,在一定程度上可以提升CTR预估模型的效果,但同时,不同的domain的用户行为存在一定的差异,导致数据分布存在一定差异,简单的混合所有domain的数据来学习一个共享的模型,用于所有domain的CTR预估,可能达不到预期的效果。那么,如何有效利用各域的数据,使用统一的模型来进行multi-domain的CTR预估呢?接下来,一起来学习下论文中提出的方法。

2、方法介绍

论文中提出的方法称作star topology adaptive recom- mender (STAR),其整体的结构如下图所示:

该结构主要包含三个主要的模块,分别是:partitioned normalization (PN)、star topology fully-connected neural network (star topology FCN)和auxiliary network,接下来,我们对这三部分进行分别介绍。

2.1 embedding layer

模型的输入主要包括用户历史行为序列,用户画像特征,上下文特征,目标商品特征。辅助网络还会包括domain标识特征。接下来,ID类特征通过embedding layer转换成对应的embedding。这里,由于embedding参数量较大,不同domain的域共享同一套embedding以减少参数量。

2.2 partitioned normalization

接下来,用户行为序列对应的embedding进行pooling,并与其他的embedding进行拼接,得到的向量计作z。为了使网络学习的更快更稳定,通常的做法是加入BN层。在训练阶段,计算每一个batch的均值和方差,并通过如下的方式对数据进行转化,其中𝛾和𝛽使训练学习的参数:

而在测试阶段,计算全部样本的均值和方差,并通过如下的方式对测试数据进行转化:

然而,在多domain的CTR预估中,数据只有在其对应的domain内被认为是独立同分布的,如果使用相同的均值/方差以及参数𝛾和𝛽,难以体现不同domain的独有信息,从而使模型效果变差。因此,论文提出了partitioned normalization,假设当前的batch数据是从第p个domain得到的(训练的时候,一个batch的数据要保证是同一个domain的),那么基于如下的公式对数据进行转化:

可以看到,除全局的𝛾和𝛽参数外,每个domain还有其独有的参数𝛾p和𝛽p。而在测试阶段,使用每个domain数据的均值和方差,转换公式如下:

2.3 Star Topology FCN

经过PN层,得到的输出计作z',并输入到topology multi-layer fully-connected neural network(简称Star Topology FCN)中。Star Topology FCN包含两部分,一部分是所有domain共享的网络,参数计作Wb,另一部分是每个domain独有的网络,第p个domain的参数计作Wpbp。假设共有M个domain,那么Star Topology FCN中共有M+1个网络。

基于共享网络和独有网络,每个domain的最终网络参数为:

输出计算公式为:

通过共有的网络,可以学习不同domain共通的信息,而通过独有的网络,可以捕获每个domain私有的信息。当然,还有其他中的结合方式,如z'分别输入到共享网路和独有网络中,对得到的输出再进行计算,这种方式或许可以得到更好的效果,但计算复杂度是有提升的。

2.4 auxiliary network

最后一部分是auxiliary network。论文认为一个好的多domain的CTR预估模型应该具备如下的特性:

1)具有domain独有的特征
2)这些domain相关的特征能够直接影响CTR预估的效果

其背后的思考是:描述domain信息的特征非常重要,因为它可以减少模型捕获domain之间区别的难度。

因此,论文提出了auxiliary network来进一步学习domain之间的差异。而主要加入的特征是domain ID特征,并通过embedding层转换为对应的embedding。随后与其他特征进行拼接,通过全链接网络得到输出(这里其他特征论文没有详细说明)。假设star topology FCN的输出为sm,而auxiliary network的输出为sa,则最终的输出为:

损失计算如下:

好了,整体的模型就介绍到这里,接下来简单看一下论文的实验结果。

3、实验结果

首先看一下论文中使用的数据,共19个domain的数据,如下表所示:

STAR与base模型在不同domain上AUC的表现如下,可以看到,STAR在所有domain中表现都更好:

文中对比的baseline模型大都是多任务学习模型,multi-domain和multi-task之间的区别主要是:multi-domain的模型大都解决的是不同domain的相同问题,如CTR预估,其label space是相同的;而multi-task一般解决的是相同domain内的不同任务,如CTR预估和CVR预估,其label space是不同的。

接下来再看一下其模块实验,主要是验证了不同模块的有效性:

最后看一下STAR是否能够捕获不同domain之间的差异性,论文对比了base模型和STAR在不同domain的PCOC指标的结果(PCOC,predicted CTR over CTR,预测的平均CTR/实际的平均CTR),如果PCOC接近于1,则说明预测更加准确,可以看到,STAR对于domain之间的差异性捕获较好,PCOC大都接近于1:

好了,年关将至,祝小伙伴们的2020年都能有一个好的收尾!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359

推荐阅读更多精彩内容