推荐系统遇上深度学习(三十一)--使用自注意力机制进行物品推荐

论文名称:《Next Item Recommendation with Self-Attention》
论文地址:https://arxiv.org/abs/1808.06414?context=cs

在这篇文章中,我们将介绍一种基于self-attention 的序列推荐算法,该算法使用 self-attention 从用户短期的交互记录中学习用户近期的兴趣,同时该模型也使用度量学习的方式保留了用户的长久的兴趣。

整个网络是在度量学习(metric learning)的框架下进行训练,实验表明该方法可以在很大程度上改善序列化推荐的效果。接下来,我们就一探究竟。

1、为什么要用自注意力机制?

推荐系统中,很多情况下我们使用用户的历史交互数据进行推荐,比如点击数据、浏览数据、购买数据等等。使用这些交互数据进行推荐,我们可以把推荐问题当作一个序列问题,即通过历史交互中的物品序列来预测用户下一个可能发生交互的物品。

既然是序列问题,常用的解法主要有RNN和CNN。RNN中,相邻的物品之间的关系可以被捕获,而物品之间的长期关系被保存在隐层状态中;在CNN中,通过卷机核的窗口滑动来捕获物品之间的关系。但是,这两种方式都没有显式地建模物品之间的关系,而建模这种可能存在的关系是很有必要的。

这里写一下个人的理解,不一定是对的,求大佬轻喷。使用自注意力机制可能得到的结果类似于聚类,相似的物品之间相关性权重高,加权的结果使得它们在空间中的距离越来越近。举个例子,假设用户最近看过的10部电影中有5部科幻电影,5部爱情电影。科幻电影之间的相关性较高,极端一点,均为0.2,假设五部电影对应的向量为n1,n2,n3,n4,n5,那么n1 = 1/5(n1+n2+n3+n4+n5),n2 = 1/5(n1+n2+n3+n4+n5),..,n5 = 1/5(n1+n2+n3+n4+n5),最终的结果就是n1=n2=n3=n4=n5。当然上面的只是极端情况,实际中很难实现,不过只是想通过这个例子说明一下个人的理解。

接下来,我们介绍一下模型的原理。

2、模型原理

2.1 问题定义

序列推荐问题的定义如下,假设我们有用户的集合U和物品的集合I,用户的总数为M,物品的总数为N,使用Hu表示用户的交互序列:

我们的目标是在给定user交互序列的情况下,预测user下一个将要进行交互的item。

2.2 使用自注意力机制建模短期兴趣

用户近期的交互行为反映了用户的近期兴趣,这里使用自注意力机制来进行建模。如下图所示:

这里,我们假定使用用户最近的L条记录来计算短期兴趣。如果我们使用X表示整个物品集合的embedding,那么,用户u在t时刻的前L条交互记录所对应的embedding表示如下:

Xut也将作为transformer 中block的输入。接下来,就是自注意力机制的计算过程 :

对于上面的过程不清楚的同学,可以看一下参考之前的博客:https://www.jianshu.com/p/b1030350aadb

这里,作者做了以下几点处理:
1、首先,作者还在计算softmax前先掩掉Q′K′T得到的矩阵对角线值,以避免对角线上物品自身的内积分配过大的权重;
2、其次,作者直接使用输入的Xut与attention score相乘,而不是先计算一个V′,使用V′与attention score相乘;
3、最后,作者在embedding乘上attention权重后,直接将embedding在序列维度求平均,作为用户短期兴趣向量;

除上面的基础结构外,作者还提到了可以增加poistional embeddings,这主要是给输入加入时间信号。时间信号的计算如下:

时间信号的大小跟Q′和K′的形状是一样的,二者可以直接对位相加。

2.3 长期兴趣建模

上面的self-attention模块只使用了近期的L个交互,我们还希望建模用户的长期兴趣,不同于之前的矩阵分解,认为用户和物品属于两个不同的空间,这里我们把用户和物品放入同一个空间中。我们可以认为这是一个兴趣空间,用户的长期兴趣可以表示成空间中的一个向量,而一个物品也可以想象成是一种兴趣,同样映射到这个兴趣空间中的一个向量。那么,如果一个用户对一个物品的评分高的话,说明两个兴趣是相近的,那么它们对应的向量在空间中距离应该较近。这个距离用平方距离计算:

上式中,U是用户的兴趣向量,V是物品的兴趣向量,这与之前定义的X是物品的两种表示。

2.4 模型训练

综合短期兴趣和长期兴趣,模型的整体架构如下:

综合两部分,我们便可以得到用户对于某个物品的推荐分,这里推荐分越低,代表用户和物品越相近,用户越可能与该物品进行交互:

而模型采用pair-wise的训练方法进行训练,即输入一个正例和一个负例,希望负例的得分至少比正例高γ,否则就发生损失。所以损失函数是如下的加入L2正则项的合页损失函数:

好啦,模型部分就介绍到这里啦,总体来说,模型的思想还是比较简单的,综合了用户的短期兴趣和长期兴趣。比较创新的一点就是使用了自注意力机制来表示物品之间的相关性吧。

由这篇论文也可以看出,自注意力机制、Transformer不仅仅在NLP领域得到应用,推荐系统领域也开始尝试,所以学好这个模型是十分必要的呀!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容

  • 本系列已经写了二十篇了,但推荐系统的东西还有很多值得探索和学习的地方。不过在这之前,我们先静下心来,一起回顾下之前...
    文哥的学习日记阅读 14,997评论 2 43
  • 这篇文章的技术难度会低一些,主要是对推荐系统所涉及到的各部分内容进行介绍,以及给出一些推荐系统的常用算法,比起技术...
    我偏笑_NSNirvana阅读 12,050评论 5 89
  • 我想当天使或者蚂蚁,天使圣洁祥和,不会有不安的心。蚂蚁是群居动物,永远不会孤独。 讽刺的是,想像越是夸张,就越是渴...
    西班阅读 209评论 0 2
  • 牡丹亭中挂谁的游魂隐在牡丹下不是那年牡丹好只是你在花旁绕飘来摇去笑声里有你如花的怀抱杜鹃开的艳醉不倒牡丹的逍遥摇摇...
    墨上城阅读 1,155评论 18 36
  • 千千万万中一个人,一篇文章献桃苑。 赤胆忠心真情呈现,前世今生缘不断。 抗魔路上意志更坚,聚合离散简书牵。 断鹂神...
    鸣鸥阅读 90评论 0 3