推荐系统论文阅读(九)-神经协同过滤(NCF)

最近期末了,赶了几篇期末论文,都没时间去写这个系列的博客了,今天抽空赶一篇吧~~

论文:

论文题目:《Neural Collaborative Filtering》

一 、背景

在前面的第五篇博文中,详细介绍了协同过滤算法,传统的协同过滤算法分为ItemCF和UserCF算法,协同过滤算法在推荐系统的召回任务中扮演着重要的角色。最近几年来,深度学习,神经网络都被大规模的使用在推荐系统中了,本文将神经网络运用在协同过滤算法中,利用用户的隐式反馈来建立一个神经协同过滤算法。

首先介绍下什么是显式反馈和隐式反馈:

显式反馈行为包括用户明确表示对物品喜好的行为。

隐式反馈行为指的是那些不能明确反应用户喜好。

简单来说就是,显式反馈就是用户对商品对评分,这表面了用户是喜欢某个物品还是不喜欢;隐式反馈就是把用户浏览过对商品作为正样例,其他的作为负样例。

我们知道,用户的浏览行为是很少的,相比于几亿的商品来说,用户浏览的是十分稀疏的,也就是隐式反馈矩阵具有稀疏性。

用Yui来代表用户u是否对物品i有交互的行为,用1表示用户有交互行为,0代表没有,注意,用户对某个物品有交互行为,不一定代表用户就是喜欢物品i,同样,用户对物品i没有浏览行为,不代表用户不喜欢i,因为可能是用户还没见到这个商品,也就是不确定用户会不会喜欢。

用户的数量为M,物品对数量为N,那么这个反馈矩阵就是M✖️N的矩阵,这是一个是十分稀疏的矩阵,这在从隐式数据中学习时提出了挑战,因为它仅提供有关用户偏好的嘈杂信号。 虽然观察到的条目至少反映了用户对商品的兴趣,但未观察到的条目可能只是缺少数据,而且自然缺乏负面反馈。

隐式反馈在推荐系统上的问题被定义为估算矩阵Y中用户u对物品i的分数:


二 、从隐式反馈数据中学习

2.1传统矩阵分解的缺陷

传统的求解方法是矩阵分解(MF,Matrix Factorization),为每个user和item找到一个隐向量,问题变为:


也就是用用户u和物品i隐向量的内积作为评分,这里的 K表示隐式空间(latent space)的维度。正如我们所看到的,MF模型是用户和项目的潜在因素的双向互动,它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此,MF可视为隐向量(latent factor)的线性模型。

如果采用内积来计算物品跟用户的相似性,那么其实用户的相似度也可以用内积来计算了,这也就导致了下面要说的矛盾:隐向量空间的相似度跟矩阵分解中相似度排名矛盾了。

论文中用一个例子解释了传统矩阵分解的缺点:


简单说一下就是,在矩阵分解中,如果用jaccard来计算用户的相似读,那么用户u4跟其他用户的相似度排排名是u1>u3>u2,在(b)中,假如要保证用户u4的隐向量p4离u1的隐向量p1最相近,那么把p4放到这两个虚线位置都能保住跟p1最相近,但是会让p4跟p2比跟p3更相近,这个哥相似度排名的结果跟MF中的排名是矛盾的。

上面的示例显示了MF因为使用一个简单的和固定的内积,来估计在低维潜在空间中用户-项目的复杂交互,从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响(e.g. 数据的过拟合问题),特别是在稀疏的集合上。论文通过使用多层DNN从数据中学习交互函数,突破了这个限制。

2.2 NCF:神经协同过滤算法


通用的框架

本文提出了一个通用的神经协同过滤算法框架,针对这个通用的框架提出了三种实现方式:GMF,MLP,GMF+MLP三种方式。

(1)使用GMF(广义矩阵分解):

p_{u}, q_{i}分别是用户u和物品i的embedding向量,\odot 是向量点乘element-wise product,然后经过一层FC和激活函数得到分数。

(2)使用MLP(多层感知机):

根据这个公式可以简单的得到:将用户和物品的embedding连接后直接送到MLP,MLP的激活函数使用ReLU,最后用sigmoid激活得到分数。

(2)使用GMF+MLP:

看这个模型图可以知道知道这个模型是怎么work的了,MLP跟GMF并没有共用embedding,这是因为,GMF和MLP的共享embedding可能会限制融合模型的性能。 例如,这意味着GMF和MLP必须使用相同大小的embedding; 对于两个模型的最佳embedding大小相差很大的数据集,此解决方案可能无法获得最佳效果。

模型的关键就是先各自取得隐向量后concate后再进行sigmoid激活得到分数。

三、实验

论文通过三个角度进行了试验:

RQ1我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法?

RQ2我们提出的优化框架(消极样本抽样的logloss)怎样为推荐任务服务?

RQ3更深的隐藏单元是不是有助于对用户项目交互数据的学习?

RQ1的结果:


RQ2的结果:


负样本的比例其实很影响模型的性能,如果是负样本的比例一般是5左右,当然这个是个人的经验,当然,如果是10或者更高的话没有试过,可能模型的能力会衰减。

RQ3的实验效果:


可以看到,在增加embedding大小和MLP层数的时候是可以优化模型效果的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,198评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,334评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,643评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,495评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,502评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,156评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,743评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,659评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,200评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,282评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,424评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,107评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,789评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,264评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,798评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,435评论 2 359

推荐阅读更多精彩内容