DeepFM的一些理解和代码示例(Pytorch)

之前因为项目的需要,我开始接触深度学习的推荐系统。网上一搜索,啪!很快啊,上来就是协同过滤、FM、FFM、DeepFM,我看他们都是有备而来。点进去发现这样公式,那样公式,也不推导,反正我看不懂,但我大受震撼。他们可能大都是乱“打”的,他们也承认,标注“转载”。苦苦思索后,我把自己理解的一些DeepFM关键点以及相应的Pytorch代码写在下面(至于DeepFM详解,大家可以看看最后的参考),希望跟我一样的小白能够不要再犯迷糊。也求求算法大佬们讲讲武德,以后把细节说得清楚友好一些,orz。

先回顾一下FM(Factorization Machine),由于某些特征是类别型数据,需要进行one-hot转换处理。这样后果是产生高维稀疏矩阵,特别是CTR/CVR任务中,
有大量的类别型数据。FM解决办法是对特征进行两两组合,产生二阶特征:
y(X) = w_0+\sum^n_{i=1}w_ix_i+\sum^{n-1}_{i=1}\sum^n_{j=i+1}w_{ij}x_ix_j (1)
其中,n代表样本的特征数量,x_i就是第i个特征值,w_0,w_i, w_{ij}都是模型参数。大家可以对比一下这个公式和多项式线性回归,其实两者是差不多的。我们知道,要训练w_{ij}需要x_ix_j非零,但实际情况是样本存在大量的零值。那FM是怎么解决这个问题的呢?很简单,将W矩阵分解,用隐向量去表示某一维特征,用隐向量的内积来替代两个维度的交叉项系数,即是w_{ij}
W=\begin{bmatrix}w_{11} &w_{12} &...& w_{1n}\\ w_{21} & w_{22} &...& w_{2n} \\ ... & ... & ...& ... \\ w_{n1} & w_{n2} &..& w_{nn} \end{bmatrix} =V^TV = \begin{bmatrix}V_1 \\ V_2 \\...\\V_n\end{bmatrix} \begin{bmatrix}V_1 & V_2 &...&V_n\end{bmatrix}=\begin{bmatrix}v_{11} &v_{12} &...& v_{1k}\\ v_{21} & v_{22} &...& v_{2k} \\ ... & ... & ...& ... \\ v_{n1} & v_{n2} &..& v_{nk} \end{bmatrix} \begin{bmatrix}v_{11} &v_{21} &...& v_{k1}\\ v_{12} & v_{22} &...& v_{k2} \\ ... & ... & ...& ... \\ v_{1k} & v_{2k} &..& v_{nk} \end{bmatrix}
这里要留意,实际用到的w_{ij}是W矩阵的上三角元素。
那么公式1可以改写为:y(X) = w_0+\sum^n_{i=1}w_ix_i+\sum^{n-1}_{i=1}\sum^n_{j=i+1}<v_i,v_j>x_ix_j (2)
<v_i,v_j>=\sum^k_{f=1}v_{i,f} \cdot v_{j,f}
公式2中的最后一项可以进一步改写为:
\begin{equation}\begin{split}\sum^{n-1}_{i=1}\sum^n_{j=i+1}<v_i,v_j>x_ix_j&=\cfrac12\sum^n_{i=1}\sum^n_{j=1}<v_i,v_j>x_ix_j-\cfrac12\sum^n_{i=1}<v_i,v_i>x_ix_i\\&=\cfrac12\sum^n_{i=1}\sum^n_{j=1}\sum^k_{f=1}v_{i,f}v_{j,f}x_ix_j-\cfrac12\sum^n_{i=1}\sum^k_{f=1}v_{i,f}v_{i,f}x_ix_i\\&=\cfrac12\sum^k_{f=1}[(\sum^n_{i=1}v_{i,f}x_i)\cdot(\sum^n_{j=1}v_{j,f}x_j)-\sum^n_{i=1}v^2_{i,f}x^2_i]\\&=\cfrac12\sum^k_{f=1}[(\sum^n_{i=1}v_{i,f}x_i)^2-\sum^n_{i=1}v^2_{i,f}x^2_i]\end{split}\end{equation} (3)
有了这个公式,我们就可以很好地理解DeepFM了。

DeepFM的结构如下图所示:


图1 DeepFM论文中展示的结构

具体的数据输入格式,是下面这个图:


图2 DeepFM数据传输形式

DeepFM论文中提到原始数据的处理方式:

Each categorical field is represented as a vector of one-hot encoding, and each continuous field is represented as the value itself, or a vector of one-hot encoding after discretization.

什么意思呢?请师爷给大家翻译翻译,什么叫TMD惊喜!不好意思,串场了。。
就是说类别型的呢,咱就one-hot,连续数值型的呢,咱就直接用它。当然,连续型的也可以作离散化处理,再转one-hot,但这样比较麻烦,体现不了end-to-end的优势,咱就不做。
与FFM相同的是,DeepDM里仍然按照field转换数据。目光再次回到图1,我们看到field数据经过Dense Embedding后,再分别传入FM和DNN中。如何理解这个dense embedding呢,隐向量v在哪里呢?熟悉NLP word2vec的朋友应该很容易理解权矩阵跟隐向量v的关系,其实隐向量就是embedding的权重矩阵,只是因为原数据是one-hot的原因,有人会误以为隐向量v就是embedding vector,这其实是错误的。

下面用代码来演示一些示例,这里我用Pytorch。

import torch
import torch.nn as nn

# 单个field,10000个可能取值
feature_size = 10**4
embedding_size = 30
embed_layer = nn.Embedding(feature_size, embedding_size)

# 多个field
features = ['job', 'country', 'hobby']
feature_sizes = [10**3, 10**2*3, 100]
embed_layer = nn.ModuleDict({features[i]:\
  nn.Embedding(feature_sizes[i], embedding_size, sparse=False) for i in range(len(features)))

# 最后所有field拼接起来传入DNN
dense_dim = n_sparse_fields * embedding_size + n_dense_fields
hidden_units = [dense_dim, 256, 128, 32, 16, 1]
dnn = nn.ModuleLists([
  nn.Linear(hidden_units[i], hidden_units[i+1]) for i in range(len(hidden_units) - 1)])

想必,少数人可能对上面的dense_dim有点疑问,接下来我就讲一讲如何在实际中处理sparse和dense的数据,也就是one-hot和连续型数值数据。
回到公式2,也就是FM里,我们还是要处理数据的一阶形式。通过图1,我们可以看到一阶计算也是通过不同的field乘以权重相加。在论文中第二页的注脚也提到"a Normal Connection in black refers to a connection with weight to be learned"。好了,那我们就可以把不同field的one-hot vectors先embedding成1维,和dense vectors对应。

# 这里代码只是示意,方便理解,具体可实施的请看参考3
sparse_embedding_dict = nn.ModuleDict(
  feat: nn.Emebedding(feat_sizes[feat], 1, sparse=False)
    for feat in sparse_features)
sparse_embd_lists = [sparse_embedding_dict[feat](data[:, feature_index[feat]].long())
  for feat in sparse_features]
weights_dense = nn.Parameter(torch.Tensor(len(dense_features), 1))
linear_dense = torch.cat(dense_values, dim=-1).matmul(weights_dense)
linear_sparse = torch.sum(torch.cat(sparse_embd_lists, dim=-1), dim=-1, keepdim=False)
linear_sum = linear_dense + linear_sparse

为什么dense要乘weights,而sparse不用呢?因为我们已经把sparse的weights放在了embedding里去学习啦~

二阶计算怎么做呢?把公式3写成代码就好啦!只是用到的embedding vector不再是一维的,而是我们设定的超参数embedding_size。我就直接搬用参考3的代码了:

# 注意这里的sparse_embedding_list是二阶的embedding vector
# 也是我们后面DNN的输入
fm_input = torch.cat(sparse_embedding_list, dim=1)  # shape: (batch_size,field_size,embedding_size)
square_of_sum = torch.pow(torch.sum(fm_input, dim=1, keepdim=True), 2)  # shape: (batch_size,1,embedding_size)
sum_of_square = torch.sum(torch.pow(fm_input, 2), dim=1, keepdim=True)  # shape: (batch_size,1,embedding_size)
cross_term = square_of_sum - sum_of_square
cross_term = 0.5 * torch.sum(cross_term, dim=2, keepdim=False)  # shape: (batch_size,1)
FM =linear_sum + cross_term

好了,FM的计算就完成了。DNN的计算就更简单了,只要你清楚网络的输入由什么组成,把输入直接丢给网络就好啦!

 #  sparse_embedding_list、 dense_value
dnn_sparse_input = torch.cat(sparse_embedding_list, dim=1)
batch_size = dnn_sparse_input.shape[0]
dnn_sparse_input=dnn_sparse_input.reshape(batch_size,-1)
dnn_dense_input = torch.cat(dense_value, dim=-1)
dnn_total_input = torch.cat([dnn_sparse_input, dnn_dense_input], dim=-1)
dnn_input = dnn_total_input
dnn_output = dnn_model(deep_input)

最后DeepFM的结果就是FM+DNN,再做sigmoid:

pred = torch.sigmoid(FM+dnn_output)

结语:
希望本文,能帮助一些朋友更好地理解DeepFM。欢迎提问,共同进步~

[参考]
知乎-FM算法解析
原创 [深度学习] DeepFM 介绍与Pytorch代码解释
原创 DeepFM Pytorch实现(Criteo数据集验证)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容