推荐系统排序之FFM

回顾一下FM


image.png
image.png

在FFM(Filed-aware Factorization Machines)中每一维特征(feature)都归属于一个特征的filed,field和feature是一对多的关系。比如


image.png

1.对于连续特征,一个特征就对应一个Field。或者对连续特征离散化,一个分箱成为一个特征。比如


image.png

2.对于离散特征,采用你one-hot 编码,同一种属性的归到一个Field不论是连续特征还是离散特征,他们都有一个共同点,同一个filed下只有一个feature的值不是0,其它的feature的值都是0
不论是连续特征还是离散特征,它们都有一个共同点,同一个field下只有一个feature的值不是0,其它的feature的值都是0。
image.png

FFM 将隐向量进一步细分,每个特征具有多个隐向量 (等于 field 的数目)。公式如下:

image.png

image.png

3 总结

优点:

引入 field 域的概念,让某一特征与不同特征做交互时,可发挥不同的重要性,提升模型表达能力;
可解释性强,可提供某些特征组合的重要性。
缺点:

复杂度高,不适用于特征数较多的场景。

4 代码实战

理论结合代码食用更佳, 代码中会加入充分注释,以易理解。

Tips: 模型搭建代码使用 TF2.0 实现

FFM层代码:

(将 FFM 封装成 Layer,随后在搭建 Model 时直接调用即可)

import tensorflow as tf
from tensorflow.keras.layers import Input, Layer
from tensorflow.keras.regularizers import l2

class FFM_Layer(Layer):
    def __init__(self, feature_columns, k, w_reg=1e-4, v_reg=1e-4):
        super(FFM_Layer, self).__init__()
        # FFM需要提前指定field的数目,因此需要传入数值特征与类别特征的列表feature_columns(具体可参照github中utils.py文件中对数据的处理过程)
        self.dense_feature_columns, self.sparse_feature_columns = feature_columns 
        self.k = k         # 隐向量v的维度
        self.w_reg = w_reg # 权重w的正则项系数
        self.v_reg = v_reg # 权重v的正则项系数

        self.feature_num = sum([feat['feat_onehot_dim'] for feat in self.sparse_feature_columns]) \
                           + len(self.dense_feature_columns) # 类别特征onehot处理之后数据集的总维度
        self.field_num = len(self.dense_feature_columns) + len(self.sparse_feature_columns) # field个数=数值特征个数+类别特征个数

    def build(self, input_shape):
        self.w0 = self.add_weight(name='w0', shape=(1,),   # shape:(1,)
                                  initializer=tf.zeros_initializer(),
                                  trainable=True) 
        self.w = self.add_weight(name='w', shape=(self.feature_num, 1),  # shape:(n, 1)
                                 initializer=tf.random_normal_initializer(),
                                 regularizer=l2(self.w_reg),
                                 trainable=True)
        self.v = self.add_weight(name='v',  # shape:(n, field, k),比FM的V矩阵多一个维度
                                 shape=(self.feature_num, self.field_num, self.k),
                                 initializer=tf.random_normal_initializer(),
                                 regularizer=l2(self.v_reg),
                                 trainable=True)

    def call(self, inputs, **kwargs):
        # 输入为Criteo数据集,前13维为数值特征,后面为类别特征,可参照github中Data文件夹)
        dense_inputs = inputs[:, :13]  # 数值特征
        sparse_inputs = inputs[:, 13:] # 类别特征

        # one-hot encoding
        x = tf.cast(dense_inputs, dtype=tf.float32)  # 类型转换
        for i in range(sparse_inputs.shape[1]):      # 类别特征onehot处理
            x = tf.concat(
                [x, tf.one_hot(tf.cast(sparse_inputs[:, i], dtype=tf.int32),
                                   depth=self.sparse_feature_columns[i]['feat_onehot_dim'])], axis=1)                    # shape:(None, n)

        linear_part = self.w0 + tf.matmul(x, self.w) # 线性部分 shape:(None, 1)

        inter_part = 0
        field_f = tf.tensordot(x, self.v, axes=1)    # 为了方便,先计算公式中的Vij*Xi. shape:[None, n] x [n, field, k] = [None, field, k]
        for i in range(self.field_num):              # 域之间两两相乘,[None, field, k]->[None, k],(因为公式无法化简,所以无法避免嵌套for循环的计算,导致了较高的复杂度)
            for j in range(i+1, self.field_num):
                inter_part += tf.reduce_sum(
                    tf.multiply(field_f[:, i], field_f[:, j]), # [None, k]
                    axis=1, keepdims=True
                )
        return linear_part + inter_part              # [None, k]

Model 搭建:

from layer import FFM_Layer
from tensorflow.keras import Model

class FFM(Model):
    def __init__(self, feature_columns, k, w_reg=1e-4, v_reg=1e-4):
        super(FFM, self).__init__()
        self.dense_feature_columns, self.sparse_feature_columns = feature_columns
        self.ffm = FFM_Layer(feature_columns, k, w_reg, v_reg)  # 定义FFM层

    def call(self, inputs, **kwargs):
        output = self.ffm(inputs)       # 输入FFM层
        output = tf.nn.sigmoid(output)  # 非线性转换
        return output

到此模型搭建就结束了。

完整的代码 (包括数据的处理以及模型的训练) 可参考以下 Github仓库,自行下载数据集到本地运行即可。

Githubgithub.com

写在最后

下一篇预告:Wide&Deep 推荐算法与深度学习的碰撞

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容