FM算法

问题

传统线性模型问题:
1 稀疏性:onehot带来数据稀疏性(尤其是id特征),使得特征空间变大;
2 线性组合的权重,训练不充分,也会带来稀疏性;观察样本中未出现交互的特征分列,不能对相应的参数进行估计;
解决方案:
引入隐向量,相当于对特征embedding,使用隐向量内积作为交叉特征向量;交叉特征参数W=VV,所以也被称为矩阵分解。


模型

模型

复杂度

可由O(kn**2)将至O(kn),平均复杂度更低


image.png

策略

一般回归和二分类(多分类权重系数过多)

回归

lse最小平方误差

二分类

hinge损失或者ligit loss

算法

参数分三部分,梯度如下



正则


image.png

超参

image.png

问题

1改进点有哪些:
a.控制k的取值,k高,表达能力强,k小,利用低秩近似的优势,提高泛化性;
b.特征交叉,引入embedding思想,对每一个特征embedding;
c. 复杂度线性。

参考:

https://www.cnblogs.com/pinard/p/6370127.html
http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。