推荐系统遇上深度学习(九十一)-[阿里]跨域点击率预估混合兴趣模型MiNet

本文要介绍的论文是《MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction》
论文下载地址为:https://arxiv.org/abs/2008.02974

1、背景

当前的点击率预估模型往往是在单域上进行的,比如在预估广告的点击率时,仅仅使用广告上的数据。但是呢,在新闻推荐中呢,广告往往是和自然结果(普通新闻)一起展示的,尽管广告的内容和自然结果的内容相差较大,但用户在自然结果上的浏览行为也可能会对广告点击率预估提供有用的信息,比如当一个用户浏览了一些娱乐方面的资讯,那他就会有更高的概率点击游戏方面的广告。因此,在广告点击率预估中,引入用户在自然结果上的浏览数据在理论上可以提升CTR预估的效果。

本文主要介绍在UC头条上(如下图所示),如何使用用户在自然结果(source domain)上的浏览行为,来提升在广告(target domain)上的点击率预估效果。提出的模型称为MiNet(Mixed Interest Network),一起来学习下。

2、MiNet介绍

2.1 整体介绍

模型的整体结构如下图所示:

模型主要建模用户三个方面的兴趣:
1)跨域长期兴趣:这里主要通过用户的基本属性信息来表示用户内在的长期兴趣,比如20岁左右的男性用户可能对体育赛事的资讯或者游戏类的广告比较感兴趣
2)源域短期兴趣:主要是对用户在自然结果上的短期浏览行为进行建模
3)目标域短期兴趣:主要是对用户在广告上的短期点击行为进行建模

同时,模型采用了两个层级的attention,首先是item级别的,主要是从用户的点击行为中抽取出和目标广告相关的信息,另一个是interest级别的,主要是建模不同兴趣的重要程度。接下来,我们详细介绍各个部分。

2.2 特征Embedding

模型的输入大都是id类特征,如用户ID、用户性别,用户所在地域,用户的手机设备型号、用户点击过的自然结果ID、广告结果ID等等,这类id类特征首先会转换为对应的embedding表示。

2.3 跨域长期兴趣建模

这里主要通过用户的基本属性信息来表示用户内在的长期兴趣,比如20岁左右的男性用户可能对体育赛事或者游戏类的资讯或者广告比较感兴趣。这里主要做法是将用户ID、用户性别、用户所在地域、用户的手机设备等embedding向量进行拼接,输出为pu。例如用户ID为123,城市为北京,男性用户,使用苹果手机,得到的长期兴趣表示为:

其中||代表向量拼接。

2.4 源域短期兴趣建模

这里主要是对用户浏览过的自然结果进行建模,抽取用户在source domain中的兴趣。用户近期点击过的每一个自然结果对应的向量用rsi表示。主要的做法是对这些向量进行加权求和,得到输出as:

关于权重的计算,文中介绍了三种方法:

1)第一种是加权平均方法,这种方法计算比较简单,但没有考虑不同item之间的重要程度
2)第二种权重计算方式如下,这种方式没有考虑item与目标广告之间的相关性:

3)论文采用的方式如下:

其中,rsi是用户点击的第i个自然结果,qt代表目标广告,pu代表用户的长期兴趣向量,M代表transfer矩阵,将source domain的向量空间映射到target domain的向量空间。

2.5 目标域短期兴趣建模

这里主要是对用户浏览过的广告结果进行建模,抽取用户在target domain中的兴趣,建模方式同在源域相同,只不过不需要对向量进行映射:

2.6 兴趣层级Attention

最后是将用户长期兴趣输出pu,源域短期兴趣输出as,目标域短期输出at以及目标广告向量qt进行拼接,输入到多层全联接神经网络中,得到点击率预估预测值。

但是不同的兴趣对于目标广告是否点击起到不同的作用,如果目标广告和用户最近点击的广告相似,那么用户在目标域的短期兴趣则会起到更重要的作用,如果目标广告和用户点击过的自然结果和广告都不相似,则长期兴趣则会起到更重要的作用。

因此在将前面介绍的几部分输入到全联接神经网络之前,首先需要计算各兴趣的权重:

最后全联接部分的输入为:

2.7 辅助任务

模型还进一步加入了辅助任务,来辅助用户长期兴趣的学习,辅助任务也是点击率预估任务,主要通过用户的长期兴趣来预测用户对源域中自然结果的点击概率,该部分示意图如下:

2.8 输出及损失函数

模型两部分的损失均使用交叉熵损失,最终通过加权的方式得到最终损失:

3、实验结果分析

论文对比了MiNet和部分单域和跨域模型的结果,如下所示:

4、总结

本文提出了Mixed Interest Network (MiNet)来进行跨域的点击率预估,并取得了不错的实验效果。跨域预估的主要优势是能够对冷启动问题起到一定的帮助,如果用户在目标域中的行为比较少的话,可以通过在源域中的行为来进行辅助的预估,提升冷启动的效果。

好了,本文就介绍到这里,感兴趣的童鞋可以看一下原论文。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352