一、这篇论文解决什么问题

召回问题，主要是文中提的多兴趣召回（在网上搜索了一圈，没找到专门定义多兴趣召回这个问题的文章）：在推荐系统中，用户的兴趣是多方面的，确实更贴合实际

作者认为此论文发表前其他方法的不足：

1. YouTube DNN：用户对所有商品的兴趣都表达成同一个向量，无法准确表征用户的多兴趣

2. DIN(Deep Interest Network)：计算量大，无法应用到大规模的召回场景中

二、作者提出的模型架构

MIND，针对多兴趣建模（胶囊网络是基础，动态路由+动态兴趣数+兴趣层面的attention）

三、这篇论文的几个核心点

1. 问题定义

与其他模型一样，本质上是得到表示用户的向量和表示商品的向量，然后根据这两种向量算一个得分。

这篇论文不一样的地方在于：会计算多个表示用户的向量，然后计算多个得分，取最大的得分为最终得分

K就代表有多少个表示用户的向量

2. 如何做embedding

用户信息embedding：多个相关embedding拼接得到

商品embedding：多个相关embedding经过一个平均池化层处理得到

label的embedding：其实和商品embeddng类似，只不过是作为label而已

3. Multi-Interest Extractor Layer

需要了解一下胶囊网络与普通神经网络的不同，胶囊网络的特性，使得这个模型比较适合学习到用户的多种兴趣

一般的动态路由：

两层：low-level胶囊和high-level胶囊

最终要得到的是：high-level胶囊的向量表示

需要学习的参数是：Sij

bij初始化成0，一般来说重复3次路由过程就能收敛，收敛之后，high-level胶囊的向量表示就是固定的了

B2I 动态路由（在一般的动态路由上有哪些主要的修改）：

共享的S：作者的解释逻辑有两个，其中第一个解释我个人认为有一点站不住脚，因为针对用户行为序列的不同，既可以用灵活的S解释适配性，又可以用固定的S解释通用性，其实更多的原因是这样做更简单

利用高斯分布初始化bij：如果按照常规初始化成0，相当于给各个兴趣的胶囊相同的初始化，会导致不同的兴趣胶囊一直是一样的

动态的兴趣数：启发式规则，可避免过多的计算

4. Label-aware Attention Layer

attention的Q、K、V：Q是label；K、V是interest capsules

特别之处在于，计算表示用户u相对于商品i的向量时，会有一个幂运算的操作

可以看出，p=0其实就相当于没有attention，p越大，重要部分与不重要部分的差别就越大

5. 训练和预测

loss公式如下：实际计算时，也采用了sampled softmax，这个就比较熟悉了

这个模型是实时的，当用户有新的行为时，表示这个用户的向量也会发生变化

四、关于模型本身的几点分析

1. 和YouTube DNN、DIN的异同

YouTube DNN

同：都用深度神经网络对用户表示进行建模

异：YouTube DNN用一个向量表示，MIND用K个向量表示，K=1时可以退化成YouTube DNN

DNN

同：都获取用户的多个兴趣的特征

异：DIN是item层面的attention，MIND是兴趣层面的attention；DIN的机制导致无法应用在大规模的场景，MIND由于解耦了用户向量的计算过程和用户-商品之间相关性的衡量过程，可以应用到大规模场景

2. Initialization of routing logits

就是针对高斯分布，试了不同的标准差，发现模型很健壮，几乎不影响模型效果

3. Power number in label-aware attention

p越大，效果越好

p=0，其实就是没有attention，效果最差

p>=1时，其实就是与商品相似度越高的用户兴趣表示获得的关注度越高，p越大，受关注越多的与受关注越少的差别就越明显

p无穷大时，这种attention机制就成了hard attention，即只关注最大注意力的信息，而且这时候模型可以更快收敛

4. MIND在线上的表现

当兴趣数到达5时，CTR基本上就是峰值了，再增加到7，也没什么变化，表明天猫上的用户平均来看兴趣数就是5～7左右

动态兴趣数机制并没有带来CTR的收益，但是使得此模型应用到大规模场景中成为可能

五、模型效果的解释

1. 耦合系数的分析

从图中可以看出，同类型的商品可以对应到同一个兴趣上，耦合系数高，在其他兴趣上耦合系数就低，甚至在同一大类商品中，还能分出小类来，足见模型效果之好

2. 商品分布的分析

从图中可以看出，同类型的商品对应到同一个兴趣上且相似度很高，但是反观YouTube DNN的模型效果，召回的商品之间差异很大，且与用户行为的相似度也很低

六、对这篇论文的感受

多兴趣，这个思路就不错，而且有工程上的考量，搞了动态兴趣数的机制

PS：本文的所有公式和图表都来自于论文：Multi-Interest Network with Dynamic Routing for Recommendation at Tmall，有理解不对的地方，欢迎指正

Multi-Interest Network with Dynamic Routing for Recommendation at Tmall笔记