召回阶段的多兴趣模型——MIND

前言

2019年阿里团队发表在CIKM上的论文“Multi-Interest Network with Dynamic Routing for Recommendation at Tmall”,应用胶囊网络的动态路由算法来构建一个多兴趣网络MIND,是一个召回阶段的模型。

(一)背景

本文是在召回阶段的工作,来满足用户兴趣的物品的有效检索。建立「用户兴趣模型」「寻找用户兴趣表示」是非常重要的,但由于「用户的兴趣存在着多样性」并不是一件容易的事。

现有的一些用户兴趣表示方法:
1.基于协同过滤的方法通过历史交互物品或隐藏因子来表示用户兴趣:会遇到稀疏和计算问题。
2.基于深度学习的方法用低维Embedding向量表示用户兴趣:
作者认为这是多兴趣表达的一个瓶颈,因为必须压缩所有与用户多兴趣相关的信息到一个表示向量,所以关于用户多兴趣的所有信息是混合在一起的,导致召回阶段物品检测不准确。
3.DIN在Embedding的基础上加入Attention机智:但采用attention机制对于每个目标物品,都需要重新计算用户表示,因此无法使用在召回阶段。

关于胶囊网络:
囊间动态路由算法,Dynamic Routing胶囊算法的核心就在于此处参数b的更新方法:更新参数时,综合考量了低层特征 与输出胶囊特征,由于二者都是向量,当二者同向时,即二者相似度较高,当前的低层特征更能反映图像特征,乘积为正,b权重增加,表示当前低层胶囊更被高层胶囊所“接纳”;相反,当二者反向时,代表当前低层特征与输出胶囊匹配度并不高,乘积为负,b权重减小,表示当前低层胶囊被更高层胶囊所“排斥”。通过这样的权重更新方式建立起了低层特征与高层特征的关联,使模型更能“理解”图像。
“胶囊”是一组聚合起来输出整个向量的小神经元。采用动态路由学习胶囊之间的连接权值,并利用期望最大化算法(EM)对其进行改进,克服了一些不足,获得了更好的精度。

主要贡献:
文章关注的是在召回阶段用户的多兴趣的问题,提出了使用动态路由的多兴趣网络(MIND) 来学习用户表示。
最主要的「创新点」是:采用胶囊网络的动态路由算法来获得用户多兴趣表示,将用户的历史行为聚集成多个集合内容,每一组历史行为进一步用于推断对应特定兴趣的用户表示向量。这样,对于一个特定的用户,MIND输出了多个表示向量,它们共同代表了用户的不同兴趣。用户表示向量只计算一次,可用于在匹配阶段从十亿个尺度的物品中检索相关物品。

(二)MIND模型

MIND网络结构图
2.1MIND模型问题定义

任务目标
召回任务的目标是对于每一个用户u \in U从十亿规模的物品池检索出包含与用户兴趣相关的上千个物品集。

模型输入
对于模型,每个样本的输入可以表示为一个三元组(I_u,P_u,F_i),其中I_u代表与用户u交互过的物品集,即用户的历史行为;P_u表示用户的属性,例如性别、年龄等;F_i表示为目标物品i的一些特征,例如物品id和种类id等。

核心任务
学习一个函数可以将User-Item实例(原生特征)映射为用户兴趣Embedding表达集合V_u=f_u(I_u,P_u)=(v_u^1,...,v_u^k)\in R^{d\times k}为用户u的向量表示,d为embedding的维度,K表示向量数量即兴趣的数量。
K=1,即其他模型(如Youtube DNN)的Embedding表示方式,物品i的Embedding函数为:\overrightarrow{e_i}=f_{item}(F_i)其中\overrightarrow{e_i}\in R^{d\times 1}f_{item}(·)表示一个Embedding&Pooling层。

最终结果
根据评分函数检索得到top N个候选项:
f_{score}(V_u,\overrightarrow{e_i})=max\overrightarrow{e}_i^T\overrightarrow{v}_u^k
根据评分函数检索:即根据目标物品与用户表示向量的内积的最大值作为相似度依据,DIN的Attention部分也是以这种方式来衡量两者的相似度。

2.2Embedding和Pooling层

Embedding层的输入由三部分组成,用户属性P_u、用户行为I_u和目标物品标签F_i。每一部分都由多个id特征组成,则是一个高维的稀疏数据,因此需要Embedding技术将其映射为低维密集向量。

  • 对于P_u的id特征(年龄、性别等)是将其Embedding向量进行拼接,组成用户属性Embedding \overrightarrow P_u
  • 目标物品F_i通常包含其他分类特征id(品牌id、店铺id等) ,这些特征有利于物品的冷启动问题,需要将所有的分类特征的Embedding向量进行平均池化,得到一个目标物品向量\overrightarrow e_i
  • 对于用户行为I_u由物品的Embedding向量组成「用户行为Embedding列表」,E_u=\overrightarrow e_j,j\in I_u
2.3多兴趣提取层

相对于单一向量进行用户兴趣表示,作者采用多个表示向量来分别表示用户不同的兴趣。通过这个方式,在召回阶段,用户的多兴趣可以分别考虑,对于兴趣的每一个方面,能够更精确的进行物品检索。
为了学习多兴趣表示,作者利用胶囊网络表示学习的动态路由将用户的历史行为分组到多个簇中。来自一个簇的物品应该密切相关,并共同代表用户兴趣的一个特定方面。
动态路由
“胶囊”是一种用一个向量表示的新型神经元,而不是普通神经网络中使用的一个标量。基于向量的胶囊期望能够表示一个实体的不同属性,其中胶囊的方向表示一个属性,胶囊的长度用于表示该属性存在的概率。

动态路由是胶囊网络中的迭代学习算法,用于学习低水平胶囊和高水平胶囊之间的路由对数 (logit)b_{ij},来得到高水平胶囊的表示。
我们假设胶囊网络有两层,即低水平胶囊\overrightarrow c_i^l\in R^{N_h\times 1},i\in \lbrace 1,2,...m\rbrace和高水平胶囊\overrightarrow c_j^h\in R^{N_h\times 1},j\in \lbrace 1,2,...n\rbracem,n表示胶囊的个数N_l,N_h表示每个胶囊内的神经元个数(向量长度)。路由对数 b_{ij}通过以下计算得到并进行更新:b_{ij}=(\overrightarrow c_j^h)^TS_{ij}\overrightarrow c_i^l其中S_{ij}\in R^{N_h\times N_t}表示待学习的双线性映射矩阵(在胶囊网络的原文中称为转换矩阵)。
通过计算路由对数,将高阶胶囊j的候选向量计算为所有低阶胶囊的加权和:


其中w_ij定义为连接低阶胶囊i和高阶胶囊j的权重【称为耦合系数】,而且其通过对路由对数执行softmax来计算:

最后,应用一个非线性的“压缩”函数来获得一个高阶胶囊的向量【胶囊网络向量的模表示由胶囊所代表的实体存在的概率】

路由过程重复进行3次达到收敛。当路由结束,高阶胶囊值\overrightarrow c_j^h固定,作为下一层的输入。
B2I动态路由
作者认为原始路由无法直接应用于处理用户行为数据,于是提出了行为到兴趣(B2I)动态路由自适应地将用户行为聚合到用户的兴趣表示中去。三个创新点:

  • 共享双向映射矩阵:一方面,用户行为是可变长度的,从几十个到几百个不等,因此使用适应的双线性映射矩阵是可推广的。另一方面,希望兴趣胶囊在同一个向量空间中,但不同的双线性映射矩阵将兴趣胶囊映射到不同的向量空间中。

    其中\overrightarrow{e_i}\in R^{d}是历史物品i的embedding,\overrightarrow{u_j}\in R^{d}是兴趣胶囊j的向量,双向映射关系矩阵S是在每一对行为胶囊低阶和兴趣胶囊高阶之间共享。
  • 随机初始化路由对数。由于利用共享双向映射矩阵S,初始化路由对数为0将导致相同的初始的兴趣胶囊,为了避免不同兴趣胶囊在所有时刻都保持相同的情景,我们对矩阵通过高斯分布进行随机采样来初始化路由对数。类似于K-Means聚类算法。
  • 动态兴趣数量。不同用户可能拥有的兴趣胶囊数量不同,引入一种启发式规则动态调整不同用户的K值。
    K_u^,=max(1,min(K,log_2(|I_u|)))

采用多个向量来表达 User 不同的兴趣,将 User 的历史行为分组到多个 Interest Capsules 的过程。实现逻辑如下:


输入:

  • User行为序列特征Embedding,E_u = \{ e_i, i \in I_u \} \
  • 迭代次数r
  • 兴趣胶囊个数K

输出:

  • 兴趣胶囊Embedding,\{u_j,j=1,...K’_u \}\

定义:
(1) 动态兴趣个数K’_u = max(1,min(K,log_2(|I_u|)))
(2)低阶行为向量Embedding表达:c_i^l\in R^{N_l \times1 },i \in \{ 1,...,m\}\代表User的行为向量(同e_i
(3)高阶兴趣向量Embedding表达:c_j^h\in R^{N_h \times1 },j \in \{ 1,...,m \}\代表User的兴趣向量(同v^j_u,u_j
(4)行为向量i与兴趣向量j之间的路由logit:b_{ij}=(c_j^h)^TS_{ij}c_i^l=u_jS_{ij}e_i
(5)双线性映射矩阵:S_{ij} \in R^{N_h \times N_t}=R^{d\times d}
步骤:
(1) 计算兴趣Embedding个数K’_u
(2)初始化b_{ij}(使用正态分布初始化)
(3)遍历迭代次数 r
\quad(3.1)对所有的行为路由i,计算w_{ij}=softmax(b_{ij}) =\frac {\rm exp \mit b_{ij}} {\sum_{k=1}^{m} {b_{kj}}}
\quad(3.2)对所有的兴趣路由j,计算z_j = \sum_{i\in I_u}^{} {w_{ij}S_{ij}e_i}u_j = squash(z_j)=\frac {||z_j^h ||^2} {1+||z_j^h ||^2}\frac {z_j^h } {||z_j^h ||}
\quad(3.3)迭代更新b_{ij}=b_{ij}+u_jS_{ij}e_i其中S_{ij}是一个共享矩阵S

2.4标签意识的注意力层

通过多兴趣提取层,多个兴趣胶囊从用户行为embedding建立。在训练期间,我们设计一个标签意识注意力层:让标签(目标)物品选择使用过的兴趣胶囊。特别的,对于每一个标签物品,计算兴趣胶囊和标签物品embedding之间的相似性,并且计算兴趣胶囊的权重和作为目标物品的用户表示向量,通过相应的兼容性确定一个兴趣胶囊的权重。


2.5训练与服务

训练
得到用户向量\overrightarrow{v_u}和标签物品embedding\overrightarrow{e_i}后,计算用户u和标签物品i交互的概率:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容