FFM模型

论文《Field-aware Factorization Machines for CTR Prediction》

ffm模型其实相对于fm模型的改进并不大，主要改动是embedding向量区分了特征的类别，fm的embedding向量并不区分特征类别。

假设存在三个特征性别，年龄和购物商品，每个特征都对应与一个向量。在fm里，对于特征性别的向量，其会和年龄与购买商品两个特征的向量分别做点积运算，但是后两者之间在人类的认知中是非常迥异且不可比较的，那么实际上我们是要求特征性别的向量可以同时的兼顾其在年龄和购买商品两个不同空间中的特性，这会对性别这个特征的向量的学习造成一定的麻烦。而且从另一个角度上说，性别这个特征的向量里就会包含了购买商品相关的信息，带着这个信息和年龄特征进行运算的时候，很难说是好还是坏。解决的办法是不再使用一个向量来表示一个特征，而是对于一个特征在不同领域内都会训练一个独立的向量来表示。对于上面这个例子，性别=男这个特征最后会训练得到4个向量：性别=男->性别，性别=男->年龄，性别=男->购买，性别=男->差评。因此当我们计算性别和年龄这两个特征的联合权重时，实际上使用的是：性别=男->年龄点乘年龄=18->性别，这样我们就避免了上述问题中要求一个向量可以同时精确表达其在不同领域中的意义造成的困难

也就是说，ffm用多个embeeding向量表示一个特征和不同领域的交互。这从直觉来说是合理的。
不过field的引入，是需要人类先验知识的，人为经验的引入，感觉有一个潜在的影响

因为field的引入，fm的二阶式参数量是输入size $*$ embeeding的size, $n*k$ 。ffm的参数量是 $n*f*k$ 。但是由于每个embedding只需要学习特定field，所以 $k_{ffm} << k_{fm}$

梯度优化

论文是把正样本看成1，负样本标记成-1。因此loss function和一般的logloss不太一样。

$min \frac{\lambda}{2}\left\|w\right\|_2^2+\sum_{i=1}^m{log(1+exp(-y_i\phi(w_i,x_i)))}$
其中对于ffm来说
$\phi(w,x)=\sum_{j_1=1}^{n}\sum_{j_2=j_1+1}^{n}(w_{j_1,f_2}w_{j_2,f_1}x_{j_1}x_{j_2})$

ffm采用sgd优化，同时使用了AdaGrad算法，因此需要计算累计梯度。具体的梯度计算：

ffm中w的梯度g的计算

在计算出对于权重 $w_{j_1,f_2}$ 的梯度g之后, 就可以更新权重和累积梯度了。如下图所示， $\eta$ 是学习率

更新累积梯度和权重

论文里对w初始化采用了的均匀分布，累计梯度刚开始设成了1，以防止算的时候过大。同时发现，将每条样本归一化成单位长度，可以提升性能。

实验结果

与线性模型，poly不同，ffm对number of epoches比较敏感，因此设计了一个early stopping策略。
ffm训练采用的是随机梯度下降法，每次选取一个样本来进行梯度更新
evaluation采用logloss指标来衡量
在实现上，发现提升bias和线性项在某些数据集上提升了表现，并且这些很少发现是对模型表现有损对。这也证明了，低阶特征在点击率模型中的重要性。

参数设置

embedding长度k对loss影响不大
正则项参数 $\alpha$ 比较大的时候，模型效果不好，较小时能取得较好的性能，但是容易过拟合
学习率较大容易收敛，不如狗容易过拟合

early stop策略

如果在验证集的logloss下降了，stop或者重新训练

结果比较

ffm效果超过其他模型，但是训练时间最长。
fm取得了训练效果和训练效率的良好平衡
ffm取得最显著的两个数据集是 KDD2010-bridge and KDD2012。这两个数据集具有大多数特征是类别特征，且高度稀疏的特点。
非稀疏数据上，ffm没有表现出显著的提升。
对于数值特征，如果每个值作为一个特征，ffm没有显著超过fm。如果对数值特征离散化，ffm效果最好，但是不如每个值做一个特征。
综上可以得出：ffm适用于离散特征，如果特征不够sparse或者偏数值，ffm带来的提升较小

FFM模型

FFM模型

梯度优化

实验结果

参数设置

early stop策略

结果比较

相关阅读更多精彩内容

友情链接更多精彩内容