一、这篇论文解决什么问题
召回问题,主要是文中提的多兴趣召回(在网上搜索了一圈,没找到专门定义多兴趣召回这个问题的文章):在推荐系统中,用户的兴趣是多方面的,确实更贴合实际
作者认为此论文发表前其他方法的不足:
1. YouTube DNN:用户对所有商品的兴趣都表达成同一个向量,无法准确表征用户的多兴趣
2. DIN(Deep Interest Network):计算量大,无法应用到大规模的召回场景中
二、作者提出的模型架构
MIND,针对多兴趣建模(胶囊网络是基础,动态路由+动态兴趣数+兴趣层面的attention)
三、这篇论文的几个核心点
1. 问题定义
与其他模型一样,本质上是得到表示用户的向量和表示商品的向量,然后根据这两种向量算一个得分。
这篇论文不一样的地方在于:会计算多个表示用户的向量,然后计算多个得分,取最大的得分为最终得分
2. 如何做embedding
用户信息embedding:多个相关embedding拼接得到
商品embedding:多个相关embedding经过一个平均池化层处理得到
label的embedding:其实和商品embeddng类似,只不过是作为label而已
3. Multi-Interest Extractor Layer
需要了解一下胶囊网络与普通神经网络的不同,胶囊网络的特性,使得这个模型比较适合学习到用户的多种兴趣
一般的动态路由:
两层:low-level胶囊和high-level胶囊
最终要得到的是:high-level胶囊的向量表示
需要学习的参数是:Sij
bij初始化成0,一般来说重复3次路由过程就能收敛,收敛之后,high-level胶囊的向量表示就是固定的了
B2I 动态路由(在一般的动态路由上有哪些主要的修改):
共享的S:作者的解释逻辑有两个,其中第一个解释我个人认为有一点站不住脚,因为针对用户行为序列的不同,既可以用灵活的S解释适配性,又可以用固定的S解释通用性,其实更多的原因是这样做更简单
利用高斯分布初始化bij:如果按照常规初始化成0,相当于给各个兴趣的胶囊相同的初始化,会导致不同的兴趣胶囊一直是一样的
动态的兴趣数:启发式规则,可避免过多的计算
4. Label-aware Attention Layer
attention的Q、K、V:Q是label;K、V是interest capsules
特别之处在于,计算表示用户u相对于商品i的向量时,会有一个幂运算的操作
可以看出,p=0其实就相当于没有attention,p越大,重要部分与不重要部分的差别就越大
5. 训练和预测
loss公式如下:实际计算时,也采用了sampled softmax,这个就比较熟悉了
这个模型是实时的,当用户有新的行为时,表示这个用户的向量也会发生变化
四、关于模型本身的几点分析
1. 和YouTube DNN、DIN的异同
YouTube DNN
同:都用深度神经网络对用户表示进行建模
异:YouTube DNN用一个向量表示,MIND用K个向量表示,K=1时可以退化成YouTube DNN
DNN
同:都获取用户的多个兴趣的特征
异:DIN是item层面的attention,MIND是兴趣层面的attention;DIN的机制导致无法应用在大规模的场景,MIND由于解耦了用户向量的计算过程和用户-商品之间相关性的衡量过程,可以应用到大规模场景
2. Initialization of routing logits
就是针对高斯分布,试了不同的标准差,发现模型很健壮,几乎不影响模型效果
3. Power number in label-aware attention
p越大,效果越好
p=0,其实就是没有attention,效果最差
p>=1时,其实就是与商品相似度越高的用户兴趣表示获得的关注度越高,p越大,受关注越多的与受关注越少的差别就越明显
p无穷大时,这种attention机制就成了hard attention,即只关注最大注意力的信息,而且这时候模型可以更快收敛
4. MIND在线上的表现
当兴趣数到达5时,CTR基本上就是峰值了,再增加到7,也没什么变化,表明天猫上的用户平均来看兴趣数就是5~7左右
动态兴趣数机制并没有带来CTR的收益,但是使得此模型应用到大规模场景中成为可能
五、模型效果的解释
1. 耦合系数的分析
从图中可以看出,同类型的商品可以对应到同一个兴趣上,耦合系数高,在其他兴趣上耦合系数就低,甚至在同一大类商品中,还能分出小类来,足见模型效果之好
2. 商品分布的分析
从图中可以看出,同类型的商品对应到同一个兴趣上且相似度很高,但是反观YouTube DNN的模型效果,召回的商品之间差异很大,且与用户行为的相似度也很低
六、对这篇论文的感受
多兴趣,这个思路就不错,而且有工程上的考量,搞了动态兴趣数的机制
PS:本文的所有公式和图表都来自于论文:Multi-Interest Network with Dynamic Routing for Recommendation at Tmall,有理解不对的地方,欢迎指正