FM模型简介与推导

一、FM简介

在一般的回归线性模型中,模型可表示为y=b+\sum_{i}^n{w_ix_i}然而这样的线性模型并未考虑到特征与特征之间交叉的影响,当加入特征交叉时,模型可表示为y=b+\sum_{i}^n{w_ix_i}+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}w_{ij}x_ix_j
从上面的式子可以很容易看出,组合部分的特征相关参数共有n(n−1)/2个。但是某些情况下x_i为categorical特征,需要通过one-hot编码处理,因而样本的特征就会变的稀疏。在大规模稀疏特征存在的场景下,比如CTR预估和推荐排序,这些场景的最大特点就是特征的大规模稀疏,此时满足x_ix_j都不为0的情况非常少,这样将导致w_{ij}无法通过训练得出。
为了解决这一问题,FM对于每个特征,学习一个大小为k的一维向量,于是特征x_i与特征x_j的特征组合权重值,通过特征对应的向量v_iv_j的内积表示。因此FM模型可表示为y=b+\sum_{i}^n{w_ix_i}+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}\left<v_i,v_j\right>x_ix_j
FM对特征的处理方式本质上是在对特征进行embedding化表征。那么为什么说FM的这种特征embedding模式,在大规模稀疏特征应用环境下比较好用?为什么说它的泛化能力强呢?根据上式,即使在训练数据里两个特征并未同时在训练实例里同时出现过,但是因为FM是学习了单个特征的embedding,并不依赖某个特定的特征组合是否出现过,所以只要特征x_i和其它任意特征组合出现过,那么就可以学习自己对应的embedding向量。于是,尽管样本中并没有x_ix_j这样的特征组合,但他们与其他特征有过组合并学习到了自身的embedding,就可以通过内积算出这个新特征组合的权重。因而FM模型泛化能力强。

二、梯度推导

\begin{equation} \begin{aligned} \sum_{i=1}^{n-1}\sum_{j=i+1}^{n}\left<v_i,v_j\right>x_ix_j\\ &=\frac{1}{2}(\sum_{i=1}^{n}\sum_{j=1}^{n}\left<v_i,v_j\right>x_ix_j-\sum_{i=1}^{n}\left<v_i,v_i\right>x_ix_i)&\\ &=\frac{1}{2}(\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{f=1}^{k}v_{if}v_{jf}x_ix_j-\sum_{i=1}^{n}\sum_{f=1}^{k}v_{if}v_{if}x_ix_i)&\\ &=\frac{1}{2}\sum_{f=1}^k((\sum_{i=1}^nv_{if}x_i)(\sum_{j=1}^nv_{jf}x_j)-\sum_{i=1}^nv_{if}^2x_{if}^2)\\ &=\frac{1}{2}\sum_{f=1}^k((\sum_{i=1}^nv_{if}x_i)^2-\sum_{i=1}^nv_{if}^2x_{if}^2) \end{aligned} \end{equation}
经过这样的简化之后,再对FM中需要训练学习的参数计算梯度
对于b \frac{\partial y}{\partial b}=1
对于w_i \frac{\partial y}{\partial w_i}=x_i
对于v_{if} \frac{\partial y}{\partial v_{if}}=x_i\sum_{i=1}^nv_{if}-v_{if}x_{if}^2

三、FM与其他模型的联系

https://medium.com/@yaoyaowd/%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BAfm%E5%92%8C%E7%B1%BB%E4%BC%BC%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95-8e9cf836d146

四、FM代码

import tensorflow as tf
class fm(object):
    """
    """

    def _init_graph(self,feature_dim,vector_dim,learning_rate):
        self.input_x = tf.placeholder(tf.int32, [None, feature_dim], name="input_x")
        self.input_y = tf.placeholder(tf.float32, [None, 1], name="input_y")

        #input_x shape is [B, N], w shape is [N,1], v shape is [N, K]
        w0 = tf.Variable(tf.random_uniform([1]))
        w = tf.Variable(tf.truncated_normal([feature_dim, 1]))
        linear_part = tf.add(w0, tf.matmul(self.input_x, w))

        v = tf.Variable(tf.truncated_normal([feature_dim, vector_dim]))
        head = tf.pow(tf.matmul(self.input_x, v), 2)
        tail = tf.matmul(tf.pow(self.input_x, 2), tf.pow(v, 2))
        pair_part = 0.5*tf.reduce_sum(head - tail)

        final = tf.add(linear_part, pair_part)
        lambda_w = tf.constant(0.0001)
        lambda_v = tf.constant(0.0001)
        w_l2_loss = tf.reduce_sum(tf.multiply(lambda_w, tf.pow(w, 2)))
        v_l2_loss = tf.reduce_sum(tf.multiply(lambda_v, tf.pow(v, 2)))
        l2_loss = tf.add(w_l2_loss, v_l2_loss)
        error = 0.5*tf.reduce_mean(tf.pow(self.input_y - final, 2))
        self.loss = tf.add(error, l2_loss)
        self.optimal = tf.train.AdagradOptimizer(learning_rate=learning_rate)
        self.train_op = self.optimal.minimize(self.loss, global_step=self._global_step)

参考

https://cloud.tencent.com/developer/article/1099532
https://zhuanlan.zhihu.com/p/58160982
https://www.zhihu.com/question/58312854

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342