Factorization Machines

论文地址

Abstract

摘要 - 在本文中,我们介绍了分解机(FM),它是一种新的模型类,它结合了支持向量机(SVM)和分解模型的优点。与SVM相比,FM使用分解后的参数模拟变量之间的所有交互。因此,即使在SVM失败在于巨大稀疏性(如推荐系统)的问题中,但是也能够估计相互作用。我们证明了FM的模型方程可以在线性时间内计算,因此FM可以直接优化。因此,与非线性SVM不同,不需要双重形式的变换,并且可以直接估计模型参数,而无需解决方案中的任何支持向量。 我们展示了与SVM的相应关系以及FM在稀疏设置中进行参数估计的优势
另一方面,有许多不同的因子分解模型,如矩阵分解,并行因子分析或特别的模型,如SVD ++,PITF或FPMC。这些模型的缺点是它们不适用于一般预测任务,但仅适用于特殊输入数据。 他们的模型方程和优化算法是针对每个任务单独导出的。 我们通过指定输入数据(即特征向量)表明FM可以模仿这些模型。 这使得即使对于没有分解模型专业知识的用户,FM也很容易适用。
关键字- 分解机; 稀疏数据; 张量化; 支持向量机

1 INTRODUCTION

支持向量机是机器学习和数据挖掘中最受欢迎的预测器之一。然而,在协同过滤等设置中,SVM不起重要作用,最好的模型可以是PARAFAC [1]等标准矩阵/张量分解模型的直接应用,也可以是使用分解参数的专用模型。在本文中,我们展示了标准的唯一原因SVM预测器在这些任务中不成功就是它们无法在复杂的情况下学习可靠的参数('hyperplanes')非常稀疏数据下的(非线性)内核空间。 在另一手,张量分解模型的缺点甚至更多的专业分解模型是(1)它们不适用于标准预测数据(例如真实价值的数据R n)。中的特征向量和(2)特殊模型通常为需要致力于特定任务单独派生在学习算法的建模和设计中。在本文中,我们引入了一个新的预测器,即分解机(FM),它是像SVM这样的通用预测器但也能够可靠的估计高稀疏性参数。分解机器模拟所有嵌套变量交互(与SVM中的多项式内核相比),但使用分解参数化而不是像SVM中那样的密集参数化。我们证明了FM的模型方程可以在线性时间内计算,并且它仅取决于线性数量的参数。 这允许直接优化和存储模型参数,而无需存储任何用于预测的训练数据(例如,支持向量)。 与此相反,非线性SVM通常以双重形式进行优化,并且计算预测(模型方程)取决于训练数据的部分(支持向量)。我们还表明,FM包含许多最成功的协同过滤任务方法,包括偏置MF,SVD ++ [2],PITF [3]和FPMC [4]。

总的来说,我们提出的FM的优点是:
1)FM允许在非常稀疏的数据下进行参数估计而这是SVM失败的地方。
2)FM具有线性复杂度,可以在中进行优化原始并且不依赖于支持向量,如SVM。我们展示了FM扩展到像Netflix这样的大型数据集拥有1亿个培训实例。
3)FM是可以与任何真实一起使用的一般预测器有价值的特征向量 与此相反,其他最先进的分解模型仅在严格的输入数据要求下才起作用。 我们将仅仅通过定义输入数据的特征向量,FM可以模仿最先进的技术偏置MF,SVD ++,PITF或FPMC等模型。

2 PREDICTION UNDER SPARSITY

最常见的预测任务是估计函数 y: \mathbb{R}^n \rightarrow \ T 从目标域T中的一个真实值的特征向量 x \in \ \mathbb{R}^n(例如:T = \mathbb{R}^n是回归,或者T = \lbrace\ +,- \rbrace是分类)。在监督设置中,假设为有一个训练数据集D \lbrace\ (x_1,y_1) ,(x_2,y_2) ....\rbrace给出了目标函数y的例子。我们还研究了排名任务,其中具有目标T =\mathbb{R}^n的函数y可用于对特征向量x进行评分并根据其得分对它们进行排序。评分函数可以通过成对训练数据[5]学习,其中一个特征元组(x^A,x^B) \in D表示x^A的排名应高于x^B。 由于排序关系是反对称的,仅使用积极的训练实例就足够了。
在本文中,我们处理x高度稀疏的问题,即矢量x的几乎所有元素x_i都为零。 令m(x)为特征向量x中的非零元素的数量,\vec{m}D为所有向量x\in D的非零元素m(x)的平均数。巨大的稀疏性(\vec{m}D << n)出现在许多现实世界的数据中,例如事件交易的特征向量(例如,在推荐系统中的购买)或文本分析(例如,单词方法)。巨大稀疏性的一个原因是潜在的问题涉及大的分类变量域。
Example 1
2路FM(2-way FM)捕获了样本自身以及样本之间的交互, 详解如下
w_0是全局偏置
w_i是第i个样本的强度
\hat{w}_{i,j}:=<\mathbf{v}_i, \mathbf{v}_j>代表第i个样本和第j个样本的交互. 与其为每个样本对都设置一个参数w_{i,j}, FM模型将其分解成两个向量之间的乘积.
通常来说, 对于任一正定矩阵\mathbf{W}, 只要k充分大, 都可以找到一个矩阵\mathbf{V}使得 \mathbf{W}= \mathbf{V} \cdot \mathbf{V}^t. 然而如果数据比较稀疏, 因为数据量不够估计复杂的交互矩阵\mathbf{W}, 通常需要选择小一点的k. 而FM把这种交互分解后, 会学习的更好, 因为FM通过分解来打破了交互之间的依赖性, 减少了参数. 下图是一个用于预测用户对电影打分的数据集:

图1

易知式的计算复杂度为, 但是其可以做如下化简:





根据上述化简, 式的计算复杂度可以变为
FM可以用作回归, 二分类以及排序. 为了防止过拟合, 最好添加正则化项.
回归 直接使用MSE作为Loss
二分类 使用hinge loss或者logit loss.
排序 对样本对进行优化, 使用pairwise的分类loss
模型学习
FM的参数可以通过梯度下降方法来学习, 比如SGD.

其中独立于, 可以提前计算. 所以所有的梯度都可以在时间内计算得到, 而每个样本的参数更新可以在内完成.
2路FM可以扩展到k路:

Summary

FMs模拟了值之间所有可能的相互作用特征向量x使用分解交互而不是完整参数化的。 这有两个主要优点:
1)甚至可以估计值之间的相互作用在高稀疏度下。 特别是,可以概括为未观察到的相互作用。
2)参数的数量以及时间预测和学习是线性的。 这直接使用SGD优化可行并允许优化反对各种损失功能。在本文的其余部分,我们将展示关系分解机器和支持向量机之间以及矩阵,张量和专门的分解模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容