推荐系统遇上深度学习(八十三)-[阿里]记忆增强网络—MA-DNN模型介绍

本文介绍的论文题目为:《Click-Through Rate Prediction with the User Memory Network》
论文下载地址为:https://arxiv.org/abs/1907.04667

如何利用用户的历史行为信息呢?前面也讲过很多方式,比如最简单的就是对历史行为序列中的物品对应的embedding进行concat或pooling操作,更进阶的如引入attention机制的阿里DIN模型、进一步引进用户兴趣抽取和演进模块的DIEN模型、以及后来的DSIN、BST模型等等。

而本文可能时间比较早,没有提及上述的诸多利用历史行为信息的方式,而仅关注不考虑行为信息的DNN模型,以及使用RNN来处理行为信息的方式上。DNN模型部署简单,而RNN模型可以融入行为信息,提升预测效果,但同时也带来了性能的问题。在兼顾DNN和RNN模型的优点的基础上,本文提出了记忆增强网络—MA-DNN模型,一起来看一下。

1、背景

在CTR预估中,用户历史行为信息是很重要的一类信息,处理用户历史行为信息的很重要的一类方法是使用RNN及其变形结构(如LSTM、GRU等),下图对比了两种模型结构(传统DNN和使用GRU处理历史行为信息):

使用GRU可以提升CTR的预测效果,但是也存在两方面的问题:

1)模型计算复杂:使用GRU结构,对于历史行为序列是串行计算,无论是线下训练还是线上预测,其计算复杂度明显提升。

2)数据准备复杂:数据准备复杂可以由下图进行形象地表示,对于DNN结构,一条日志对应一条数据,而对于GRU结构来说,如对于instance4,我们需要按顺序找到4条对应的日志,才能得到对应的训练数据,这显然是更加复杂的。

可以看到,DNN结构模型简单,线上性能较好,但利用用户历史行为信息能够达到更好的预测效果,那么是否存在一种模型结构,能够和DNN同样简单,同时能够有效利用用户历史行为信息呢?本文就来介绍一种方法,即记忆增强网络—MA-DNN模型。

2、模型介绍

MA-DNN模型的结构如下:

模型结构并不复杂,主要分为两大部分,DNN部分和记忆网络部分。

记忆网络主要存储两个向量mu1和mu0,这两个向量分别代表用户喜欢的内容和不喜欢的内容。

对于DNN部分,模型的输入可以分为三部分,首先是常规的feature,包括用户的feature、用户搜索关键词的feature和目标广告的feature,几部分的离散特征经过embedding层转换为对应的embedding,然后进行concat,得到第一部分输入x,另外两部分是记忆网络存储的向量mu1和mu0,三部分进行concat,得到DNN的输入v=[x,mu1,mu0]。随后,v经过多层全连接网络得到预测结果:

接下来介绍下模型训练,在对MA-DNN模型进行优化的时候,其优化目标包含两个方面:
1)CTR预估要准确
2)记忆网络能够有效捕捉用户的偏好,包括喜欢的内容和不喜欢的内容

模型的损失可以分为两部分:

第一部分loss1的目标示使得CTR预估更准确,采用的是logloss:

第二部分loss2的形式如下:

其中zL代表DNN模块输出层前最后一个隐藏层的输出,该向量是对模型输入更高阶的抽象,如果对应的y=1,那么zL在一定程度上代表用户喜欢的内容,如果y=0,那么zL在一定程度上代表用户不喜欢的内容。可以看到,如果y=1,模型尽可能使mu1和zL的欧氏距离更小,如果y=0,模型尽可能使mu0和zL的欧氏距离更小。因此,向量mu1和mu0可以看成用户喜欢的内容和不喜欢的内容的抽象。

最后值得注意的是,loss2只用来训练兴趣向量,不应该影响DNN最后一层的输出zL,所以在训练时,loss2不作用于zL,即zL仅通过loss1进行更新。

3、实验结果

实验结果如下:

具体实验结论不再赘述,感兴趣的同学可参考原论文。

4、总结

最后咱们再来总结一下对于历史行为序列的处理(个人整理,或有遗漏):

1)Concat/Pooling,即将用户历史行为序列中物品对应的embedding进行concat或者pooling,实现比较简单,但没有考虑到历史行为与目标物品的相关性
2)attention,如阿里DIN,历史行为物品与目标物品进行attention计算对应的权重,然后进行加权求和,考虑了历史行为与目标物品的相关性,但是没有考虑历史行为的先后顺序以及时间因素
3)RNN结构,考虑了历史行为的时间顺序,但同样没有考虑到历史行为与目标物品的相关性
4)attention + GRU,如阿里的DIEN,考虑了用户历史行为中兴趣的演进过程,以及和目标物品的相关性,但是RNN结构线上耗时太高
5)Transformer,如阿里的BST,将RNN结构替换为Transformer,可以对历史行为进行并行处理,同时将时间因素加入到position encoding,考虑了历史行为发生的时间
6)MA-DNN,使用记忆网络处理用户历史行为,相较上述模型,实现较为简单,模型更为轻量。另外一个优势是对用户不感兴趣的物品进行了处理,而上述模型往往对用户感兴趣的物品进行处理。
7)如有补充,可在留言区留言!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351