Multi-Interest Network with Dynamic Routing for Recommendation at Tmall笔记

一、这篇论文解决什么问题

召回问题,主要是文中提的多兴趣召回(在网上搜索了一圈,没找到专门定义多兴趣召回这个问题的文章):在推荐系统中,用户的兴趣是多方面的,确实更贴合实际

作者认为此论文发表前其他方法的不足:

1. YouTube DNN:用户对所有商品的兴趣都表达成同一个向量,无法准确表征用户的多兴趣

2. DIN(Deep Interest Network):计算量大,无法应用到大规模的召回场景中

二、作者提出的模型架构

MIND,针对多兴趣建模(胶囊网络是基础,动态路由+动态兴趣数+兴趣层面的attention)


三、这篇论文的几个核心点

1. 问题定义

与其他模型一样,本质上是得到表示用户的向量和表示商品的向量,然后根据这两种向量算一个得分。

这篇论文不一样的地方在于:会计算多个表示用户的向量,然后计算多个得分,取最大的得分为最终得分

K就代表有多少个表示用户的向量

2. 如何做embedding

用户信息embedding:多个相关embedding拼接得到

商品embedding:多个相关embedding经过一个平均池化层处理得到

label的embedding:其实和商品embeddng类似,只不过是作为label而已

3. Multi-Interest Extractor Layer

需要了解一下胶囊网络与普通神经网络的不同,胶囊网络的特性,使得这个模型比较适合学习到用户的多种兴趣

一般的动态路由:

两层:low-level胶囊和high-level胶囊

最终要得到的是:high-level胶囊的向量表示

需要学习的参数是:Sij

bij初始化成0,一般来说重复3次路由过程就能收敛,收敛之后,high-level胶囊的向量表示就是固定的了

B2I 动态路由(在一般的动态路由上有哪些主要的修改):

共享的S:作者的解释逻辑有两个,其中第一个解释我个人认为有一点站不住脚,因为针对用户行为序列的不同,既可以用灵活的S解释适配性,又可以用固定的S解释通用性,其实更多的原因是这样做更简单

利用高斯分布初始化bij:如果按照常规初始化成0,相当于给各个兴趣的胶囊相同的初始化,会导致不同的兴趣胶囊一直是一样的

动态的兴趣数:启发式规则,可避免过多的计算

4. Label-aware Attention Layer

attention的Q、K、V:Q是label;K、V是interest capsules

特别之处在于,计算表示用户u相对于商品i的向量时,会有一个幂运算的操作

可以看出,p=0其实就相当于没有attention,p越大,重要部分与不重要部分的差别就越大

5. 训练和预测

loss公式如下:实际计算时,也采用了sampled softmax,这个就比较熟悉了

这个模型是实时的,当用户有新的行为时,表示这个用户的向量也会发生变化

四、关于模型本身的几点分析

1. 和YouTube DNN、DIN的异同

YouTube DNN

同:都用深度神经网络对用户表示进行建模

异:YouTube DNN用一个向量表示,MIND用K个向量表示,K=1时可以退化成YouTube DNN

DNN

同:都获取用户的多个兴趣的特征

异:DIN是item层面的attention,MIND是兴趣层面的attention;DIN的机制导致无法应用在大规模的场景,MIND由于解耦了用户向量的计算过程和用户-商品之间相关性的衡量过程,可以应用到大规模场景

2. Initialization of routing logits

就是针对高斯分布,试了不同的标准差,发现模型很健壮,几乎不影响模型效果

3. Power number in label-aware attention

p越大,效果越好

p=0,其实就是没有attention,效果最差

p>=1时,其实就是与商品相似度越高的用户兴趣表示获得的关注度越高,p越大,受关注越多的与受关注越少的差别就越明显

p无穷大时,这种attention机制就成了hard attention,即只关注最大注意力的信息,而且这时候模型可以更快收敛

4. MIND在线上的表现

当兴趣数到达5时,CTR基本上就是峰值了,再增加到7,也没什么变化,表明天猫上的用户平均来看兴趣数就是5~7左右

动态兴趣数机制并没有带来CTR的收益,但是使得此模型应用到大规模场景中成为可能

五、模型效果的解释

1. 耦合系数的分析

从图中可以看出,同类型的商品可以对应到同一个兴趣上,耦合系数高,在其他兴趣上耦合系数就低,甚至在同一大类商品中,还能分出小类来,足见模型效果之好

2. 商品分布的分析

从图中可以看出,同类型的商品对应到同一个兴趣上且相似度很高,但是反观YouTube DNN的模型效果,召回的商品之间差异很大,且与用户行为的相似度也很低

六、对这篇论文的感受

多兴趣,这个思路就不错,而且有工程上的考量,搞了动态兴趣数的机制

PS:本文的所有公式和图表都来自于论文:Multi-Interest Network with Dynamic Routing for Recommendation at Tmall,有理解不对的地方,欢迎指正

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容