DeepFM模型

1、提出背景

DeepFM是2017年哈工大和华为公司联合提出的一个模型,DeepFM的提出是针对先前提出的所有模型

【解决方案】在Wide&Deep的基础上,将Wide部分的LR,替换成能够考虑低阶交叉的FM

2、层及结构

最下面的都是一些特征域,Sparse Features是我们的一些稀疏的特征,输进来之后,放进一个Embedding层,然后在放入两个不同的位置,最后两个连接到一起在输出。

2.1、Input和Embedding部分

与Wide&Deep不同的是,DeepFM中的Wide部分与Deep部分共享了输入Embedding向量

Embedding层参数更新的方式:结构图中的黑线表示的是embedding这里的这些参数是通过深度神经网络这边进行更新的,更新好了之后,FM这端直接拿过来用,也就是红线这部分是直接拿过来用就行了无需同时进行参数更新

2.2 FM部分

y_{FM}=<w,x>+\sum_{j_1}^{d}\sum_{j_2=j_1+1}^dx_{j_1}\cdot  x_{j_2}

区别于FNN:这里的FM不需要单独预训练。作者发现,在共享Embedding输入的策略前提下,通过高阶和低阶交互特征一块来进行反向传播更新参数反而会使得模型表现更佳

2.3 Deep部分

Deep部分就是一个全链接层,它的作用就是学习高阶的一些特征交互

3、论文中的细节

3.1 关于特征交互

在CTR预测中, 学习用户点击行为背后的特征隐式交互非常重要。

1、二阶特征交互原来是这个意思:通过对主流应用市场的研究,我们发现人们经常在用餐时间下载送餐的应用程序,这就表明应用类别和时间戳之间的(阶数-2)交互作用是CTR预测的一个信号。

2、三阶或者高阶特征交互是这个意思:我们还发现男性青少年喜欢射击游戏和RPG游戏,这意味着应用类别、用户性别和年龄的(阶数-3)交互是CTR的另一个信号。

3、根据谷歌的W&D模型的应用, 作者发现同时考虑低阶和高阶的交互特征,比单独考虑其中之一有更多的改进

这也就是作者要进行本篇文章研究的原因或者动机之一(改进了LR,FM,DNN)。

3.2 为啥人工特征工程有挑战性

一些特征工程比较容易理解,就比如上面提到的那两个, 这时候往往我们都能很容易的设计或者组合那样的特征。 然而,其他大部分特征交互都隐藏在数据中,难以先验识别(比如经典的关联规则 "尿布和啤酒 "就是从数据中挖掘出来的,而不是由专家发现的),只能由机器学习自动捕捉,即使是对于容易理解的交互,专家们似乎也不可能详尽地对它们进行建模,特别是当特征的数量很大的时候.

所以,尽量的避免人工特征工程, 构建端到端的推荐系统时作者研究该篇论文的另一动机所在(改进了W&D)

挖掘隐藏的特征交互(特征组合)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容