Multi-Interest Network with Dynamic Routing for Recommendation at Tmall笔记

一、这篇论文解决什么问题

召回问题,主要是文中提的多兴趣召回(在网上搜索了一圈,没找到专门定义多兴趣召回这个问题的文章):在推荐系统中,用户的兴趣是多方面的,确实更贴合实际

作者认为此论文发表前其他方法的不足:

1. YouTube DNN:用户对所有商品的兴趣都表达成同一个向量,无法准确表征用户的多兴趣

2. DIN(Deep Interest Network):计算量大,无法应用到大规模的召回场景中

二、作者提出的模型架构

MIND,针对多兴趣建模(胶囊网络是基础,动态路由+动态兴趣数+兴趣层面的attention)


三、这篇论文的几个核心点

1. 问题定义

与其他模型一样,本质上是得到表示用户的向量和表示商品的向量,然后根据这两种向量算一个得分。

这篇论文不一样的地方在于:会计算多个表示用户的向量,然后计算多个得分,取最大的得分为最终得分

K就代表有多少个表示用户的向量

2. 如何做embedding

用户信息embedding:多个相关embedding拼接得到

商品embedding:多个相关embedding经过一个平均池化层处理得到

label的embedding:其实和商品embeddng类似,只不过是作为label而已

3. Multi-Interest Extractor Layer

需要了解一下胶囊网络与普通神经网络的不同,胶囊网络的特性,使得这个模型比较适合学习到用户的多种兴趣

一般的动态路由:

两层:low-level胶囊和high-level胶囊

最终要得到的是:high-level胶囊的向量表示

需要学习的参数是:Sij

bij初始化成0,一般来说重复3次路由过程就能收敛,收敛之后,high-level胶囊的向量表示就是固定的了

B2I 动态路由(在一般的动态路由上有哪些主要的修改):

共享的S:作者的解释逻辑有两个,其中第一个解释我个人认为有一点站不住脚,因为针对用户行为序列的不同,既可以用灵活的S解释适配性,又可以用固定的S解释通用性,其实更多的原因是这样做更简单

利用高斯分布初始化bij:如果按照常规初始化成0,相当于给各个兴趣的胶囊相同的初始化,会导致不同的兴趣胶囊一直是一样的

动态的兴趣数:启发式规则,可避免过多的计算

4. Label-aware Attention Layer

attention的Q、K、V:Q是label;K、V是interest capsules

特别之处在于,计算表示用户u相对于商品i的向量时,会有一个幂运算的操作

可以看出,p=0其实就相当于没有attention,p越大,重要部分与不重要部分的差别就越大

5. 训练和预测

loss公式如下:实际计算时,也采用了sampled softmax,这个就比较熟悉了

这个模型是实时的,当用户有新的行为时,表示这个用户的向量也会发生变化

四、关于模型本身的几点分析

1. 和YouTube DNN、DIN的异同

YouTube DNN

同:都用深度神经网络对用户表示进行建模

异:YouTube DNN用一个向量表示,MIND用K个向量表示,K=1时可以退化成YouTube DNN

DNN

同:都获取用户的多个兴趣的特征

异:DIN是item层面的attention,MIND是兴趣层面的attention;DIN的机制导致无法应用在大规模的场景,MIND由于解耦了用户向量的计算过程和用户-商品之间相关性的衡量过程,可以应用到大规模场景

2. Initialization of routing logits

就是针对高斯分布,试了不同的标准差,发现模型很健壮,几乎不影响模型效果

3. Power number in label-aware attention

p越大,效果越好

p=0,其实就是没有attention,效果最差

p>=1时,其实就是与商品相似度越高的用户兴趣表示获得的关注度越高,p越大,受关注越多的与受关注越少的差别就越明显

p无穷大时,这种attention机制就成了hard attention,即只关注最大注意力的信息,而且这时候模型可以更快收敛

4. MIND在线上的表现

当兴趣数到达5时,CTR基本上就是峰值了,再增加到7,也没什么变化,表明天猫上的用户平均来看兴趣数就是5~7左右

动态兴趣数机制并没有带来CTR的收益,但是使得此模型应用到大规模场景中成为可能

五、模型效果的解释

1. 耦合系数的分析

从图中可以看出,同类型的商品可以对应到同一个兴趣上,耦合系数高,在其他兴趣上耦合系数就低,甚至在同一大类商品中,还能分出小类来,足见模型效果之好

2. 商品分布的分析

从图中可以看出,同类型的商品对应到同一个兴趣上且相似度很高,但是反观YouTube DNN的模型效果,召回的商品之间差异很大,且与用户行为的相似度也很低

六、对这篇论文的感受

多兴趣,这个思路就不错,而且有工程上的考量,搞了动态兴趣数的机制

PS:本文的所有公式和图表都来自于论文:Multi-Interest Network with Dynamic Routing for Recommendation at Tmall,有理解不对的地方,欢迎指正

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容