推荐系统与深度学习(3):[WWW'18]认识一下带权重的FFM模型——FwFM

以下为个人对文章的理解记录,如有错误,欢迎指正~~
如果觉得有帮助或者写的还行,点个赞呗~~~

引用:Pan J, Xu J, Ruiz A L, et al. Field-weighted factorization machines for click-through rate prediction in display advertising[C]//Proceedings of the 2018 World Wide Web Conference. 2018: 1349-1357.

2010年Rendle发表的《Factorization Machines》已经成为推荐系统中最经典的模型之一,在深度学习兴起之后,有许多工作在FM的基础上进行,例如FFM、AFM、NFM、DeepFM、xDeepFM等。最近看的这篇FwFMs也是在FM、FFM的基础上做的工作,主要的思想:特征交互的重要性不同,因此要赋予不同的特征交互不同的权重。

一、相关工作简介

多领域分类数据

多领域分类数据的特性对建立有效的机器学习模型进行CTR预测提出了几个独特的挑战:

  1. 特征交互很普遍,需要特别建模
  2. 一个Field中的特征和另一个Field中的特征的交互方式通常不相同
  3. 需要考虑潜在的高模型复杂性

LR模型:
LR模型

Poly2模型:
Poly2模型

FM模型:
FM模型

FFM模型:
FFM

以上是文中提及的模型,不过基于FM的模型除了DeepFM等用到DNN的模型之外,其他的例如AFM、NFM也可以拿出来讨论,尤其是AFM,在思路上,和本文模型挺像的。

二、不同Field Pairs交互项之间的强弱

文中通过Mutual information和Heat map可视化特征交互和结果之间的关系。


从而提出了如何通过有效的机器学习模型来捕捉这种交互的强弱。


Mutual Information计算

三、FwFMs模型

1、对交互项的改进

为了实现上述的想法,捕捉交互之间的权重,提出了以下模型:

FwFMs模型公式

可以看到,主要的改动在于为交互项添加了权重:
为交互项添加了权重

通过模型学习
r_{F(i),F(j)}
。可以看到模型表达还是很简洁的。要是小伙伴实现过FM或者FFM模型,稍加改变就可以得到这个模型。而且从复杂度分析,比FFM简洁很多。

2、模型的复杂度分析:

3、改进Linear Terms

在之前,普遍用二元特征x_i来表示feature i,然后学习权重w_i。然后本文中通过embedding vectors来表示feature i,用x_iv_i来表示每一个特征。
然后,为每一个feature学习一个线性权重w_i, 此时线性部分变成了:


通过这种方式模型的参数量是
2mK+n*(n-1)/2
。因为m是比较大的,所以又提出了为每个Field学习一个线性权重向量
w_{F(i)}
。此时参数量为
nK+mK+n*(n-1)/2
,n<<m,模型更加简洁。 公式表示如下:

前者用FwFMs_FeLV(FwFMs with feature-wise linear vectors)表示,后者用FwFMs_FiLV(FwFMs with field-wise linear vectors)表示。

四、实验结果与可视化分析

文中对比使用的数据集:


Criteo和oath数据集

(什么都别说了,我是最好的)

1、和FM、FFM等模型的对比:

2、不同线性部分模型对比

3、特征交互强弱可视化

这一部分还是挺有意思,应该是第一次在研究FM的模型中看到将Field interaction 的强弱可视化。而且始终围绕自己的Key Idea。

计算了皮尔逊相关系数。

五、个人小结

第一次看到对特征交互强弱的直观展示,虽然不是特别难,但是其他文章没有做呀。实验对比也是常规的,和SOTAs对比,和自己对比,消融分析等;我超过了SOTAs,我的这个结构有必要。
在阅读中有部分开始不是很理解,在FM中,通过<v_i,v_j>代替Poly2中的w_{h(i,j)},后者已经表示权重了,所以在FwFMs中再提出一个权重又是表示什么?个人的理解是<v_i,v_j>表示的是特征相乘,因为x_ix_j都是1,无法表示有用的信息,所以<v_i,v_j>表示真正的特征交互指,然后用r_{F(i),F(j)}表示权重。在Linear Term部分也可以这么理解,就说得通了。
其次,在实验部分,还是觉得,AFM模型的想法和本文是相同的。看一下AFM的计算模型:


可以看出来除了实现方式不同,思想是相同的,而且AFM在参数方面也是占优的, 2017年的文章,应该要拿出来对比。

关于文中提到的FM、FFM、AFM、NFM、DeepFM都还没有写,先看新的,旧的再补。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,692评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,482评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,995评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,223评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,245评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,208评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,091评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,929评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,346评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,570评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,739评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,437评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,037评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,677评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,833评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,760评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,647评论 2 354