推荐系统论文阅读(四)-万能的DeepFM模型

论文原文:


论文地址:https://arxiv.org/pdf/1703.04247.pdf

论文题目:《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》

一 、背景

特征的组合交叉

对于基于CTR预估的推荐系统,特征的组合交叉对整个模型的性能和准确率提升的意义是非常大的。在输入的特征中,低阶特征组合和高阶特征组合在不同的推荐任务中发挥着不同的作用,让特征更好地进行交互能让模型学习到用户的隐藏兴趣。

特征交叉,可以想到用内积,外积等操作来对两个特征进行组合,在FM(Factorization Machines)中,特征的交叉通过对于每一维特征的隐变量内积来提取特征组合。其实FM只是简单的进行来二阶特征的交叉,但是由于业务,场景复杂性的要求,我们需要对高阶特征组合进行建模,在推荐系统中特征处理是最重要的部分之一了,如果能把特征处理好,那么一个模型就能在准确率上达到理想的水平。

特征的交互,自然而然的联想到了用DNN,把特征输入到DNN中进行自动交互,但是这样低阶特征和高阶特征就都在DNN隐层体现了,但是我们想自己把低阶特征的交互跟DNN中的高阶特征分开怎么办?


ps:图均来自于张俊林老师AI大会
ps:图均来自于张俊林老师AI大会

我们怎么将这两部分进行组合呢?


ps:图均来自于张俊林老师AI大会

可以把这两部分并行操作,也可以进行串行操作:


ps:图均来自于张俊林老师AI大会


ps:图均来自于张俊林老师AI大会

其实并行的很好理解,但是串行的个人无法理解,要把低阶特征跟高阶特征分开,那么并行的结构中,低阶特征经过FM后再输入到DNN中不还是把低阶特征和高阶特征都在DNN隐层中了吗?

二、模型结构


整个DeepFM分为两部分,两部分共享embedding层,一部分得到FM的结果,另一部分得到DNN的结果,最终的结果是两部分结果的和:


FM部分



<w, x>是一次项,后面是二次项,这里乍一看会觉得yFM的输出是一个值,其实不是,看DeepFm源码可以知道,一次项跟二次项得到的都是向量,后面会稍微讲一下为什么这里的输出是向量。

FM公式推导:


前面也说了DNN部分跟FM部分是共享embedding层的,所以公式中的v就是one-hot经过embedding后得到的向量。公式中的x是特征的值,如果是离散的特征,那么x就是1,如果特征是连续特征,那么x就是整个特征本身的值。

举个例子 比如特征是 男/女 星期 工资

这里有三组特征,或者说3个field的特征,分别是性别、星期几、工资。对应的特征数量分别为2、7、1。我们总的特征数量feature-size为2 + 7 + 1=10。如果转换为one-hot的话,每一个取值都会对应一个特征索引feature-index。

男 ->0, 女->1, 周一->2,周二->3,周三->4,周四->5,周五->6, 周六->7,周日->8,工资->9

那么如果有一个输入特征:男,周三,工资5000

对应的feature-index就是 0,4,9

在FM中每一个feature都对应着一个feature-value,就是公式里面的x,离散特征的feature-value是1,连续特征的feature-value是值本身

接着上面的例子,

这个输入特征的feature-value 就是 1,1,5000

有了feature-index,就可以得到对应的Vi了,其实就是去embedding矩阵里面按照index去找对应的向量。

现在Vi,x都有了,就可以进行FM的运算了.

假设embedding size大小为3,batch_size为2

batch[0] :特征 男 周一 5000

batch[1]:特征 女 周二 6000

embedding矩阵: [ [0.1, 0.2, 0.3], [0.2, 0.3, 0.1 ], [0.3, 0.2, 0.1],[0.3, 0.1, 0.2], ... , [0.1, 0.1, 0.1] ]

依然举个例子,根据上面FM公式的推导,计算如下:

batch[0] 经过embedding后变成

[0.1, 0.2, 0.3] -----------------feature-value :1

[0.3, 0.2, 0.1] -----------------feature-value :1

[0.1, 0.1, 0.1] -----------------feature-value :5000

batch[1] 经过embedding后变成

[0.2, 0.3, 0.1 ]-----------------feature-value :1

[0.3, 0.1, 0.2]-----------------feature-value :1

[0.1, 0.1, 0.1] -----------------feature-value :5000

计算FM的第一部分(先乘feature-value,后求和再平方)

(1)乘feature-value,2✖️3✖️3

batch[0] 变成:

[0.1, 0.2, 0.3] 

[0.3, 0.2, 0.1] 

[500, 500, 500]

batch[1] 变成:

[0.2, 0.3, 0.1 ]

[0.3, 0.1, 0.2]

[600, 600, 600]

(2)求和 2✖️3

沿axis = 1求和

batch[0] 变成:

[500.4, 500.4, 500.4]

batch[1] 变成:

[600.5, 600.4, 600.3]

(3)平方 2✖️3

batch[0] 变成:

[250400.16, 250400.16, 250400.16]

batch[1] 变成:

[360600.25, 360380.16, 360360.09]

计算FM的第二部分(先乘feature-value,后平方再求和)

(1)乘feature-value,2✖️3✖️3

batch[0] 变成:

[0.1, 0.2, 0.3]

[0.3, 0.2, 0.1]

[500, 500, 500]

batch[1] 变成:

[0.2, 0.3, 0.1 ]

[0.3, 0.1, 0.2]

[600, 600, 600]

(2)平方 2✖️3✖️3

batch[0] 变成:

[0.01, 0.04, 0.09]

[0,09, 0.04, 0.01]

[250000, 250000, 250000]

batch[1] 变成:

[0.04, 0.09, 0.01]

[0.09, 0.01, 0.04]

[360000, 360000, 360000]

(3)求和 2✖️3

batch[0] 变成:

[250000.10, 250000.08, 250000.10]

batch[1] 变成:

[360000.13, 360000.10, 360000.05]

FM第一部分减第二部分 2✖️3

batch[0] 变成:

[250400.16, 250400.16, 250400.16] - [250000.10, 250000.08, 250000.10] = [400.06, 400.08, 400.06]

batch[1] 变成:

[360600.25, 360380.16, 360360.09] - [360000.13, 360000.10, 360000.05] = [600.12, 600.06, 600. 04]

FM输出

batch[0] 沿着横轴求sum,变成:

[400.06+400.08+400.06] = [1200.20]

batch[1] 沿着横轴求sum,变成:

[600.12+600.06+600. 04] = [1800.22]

至此,我们一经把FM部分计算完成.

总体来看,FM的输入是batch*field*emb_size,输出是bacth*1

DNN部分


这里就不深入介绍DNN了,就是输入one-hot,转化为embedding后进行MLP层,输出一个向量yDNN

output层


之前我们得到yFM和yDNN都是向量,但是原论文里把他们当成了标量了,其实意思是一样的,把他们当成标量的意思是各自得到一个分数后求和并进行sigmoid,把他们当成向量的意思就是concat后直接送sigmoid,这也是代码与原论文不一样的地方,但是结果是一样的。

三、实验结果


DeepFM不愧是ctr预估的神,一出来就领先其他传统的模型,很多小公司在自己数据集不是很大的情况下,都是直接上的DeepFM模型进行调参,在自己数据量上去并且理解了自己的业务后才逐渐从DeepFM模型转换出来。而且,这种双塔模型是工业界特别喜欢用的模型,模型简单不复杂,线上ctr高,性能好,属实是万能的模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容