CTR预估模型(与POI推荐关系)

业界 | 从FM推演各深度CTR预估模型
本文对该文章的keypoint进行整理,同时对CTR预估模型与POI推荐进行比较。

  • CTR预估模型与POI推荐中预测user对POI的check-in预测是等价的。本质上,二者都是二分类问题。因此,对CTR预估模型也可以应用到POI预测中

  • CTR背景:以移动端展示广告推荐为例,依据日志中的用户侧的信息(比如年龄,性别,国籍,手机上安装的app列表)、广告侧的信息(广告id,广告类别,广告标题等)、上下文侧信息(渠道id等),去建模预测用户是否会点击该广告。

  • 模型1:早期的人工特征工程+线性模型(e.g. LR),人工特征工程存在的问题:特征爆炸、组合特征难设计等

  • 模型1_plus: 为解决模型1中存在的问题,将线性模型替换为二阶多项式模型(模型能自动考虑特征间二阶组合信息),存在问题:特征权重矩阵中参数多,计算复杂度很高

  • 模型2: FM (Factorization Machines),为解决模型1_plus中存在问题,利用FM实现降维的效果,去除了重复项与特征平方项,特征两两相乘(组合)的权重是相互不独立的,它是一种参数较少但表达力强的模型。和POI推荐中的MF(Matrix Factorization)相似。

  • 模型3:embedding+FM,利用NN(neural network),将W*x[注:利用特征权重矩阵对特征进行组合,此外通过矩阵乘法将结果降维成低维稠密向量,等价于NN中的embedding]

    • step1: FM首先是对离散特征进行嵌入
    • step2: 通过对嵌入后的稠密向量进行内积来进行二阶特征组合
    • step3: 再与线性模型的结果求和进而得到预估点击率
      image.png
  • 模型3_plus: 模型3+领域信息,模型3中FM对离散特征的embedding并未考虑领域信息,使得同领域内的特征也被当做不同领域特征进行两两组合了,而我们假设领域内的信息是相似的,这样假设是合理的同时也能达到降维的目的。

    • 具体做法:同领域的特征嵌入后直接求和作为一个整体嵌入向量,进而与其他领域的整体嵌入向量进行两两组合。而这个先嵌入后求和的过程,就是一个单领域的小离散特征向量乘以矩阵的过程。


      image.png

以上的FM/embedding+FM/embedding+FM+领域信息均为浅层网络,表现力有限——>将浅层网络“深化”来增加表现力

  • 模型4:Embedding+MLP(multilayer perceptron,前馈NN),它是对于分领域离散特征进行深度学习CTR预估的通用框架,
    image.png

也是利用深度学习的POI推荐系统的通用框架,如图,图中架构以embedding+MLP作为baseline,利用邻域信息(即各种contexts,e.g. user context, POI context etc.)进一步提高推荐性能:

image.png

Embedding+MLP存在的问题:只学习高阶特征组合,对于低阶或者手动的特征组合不够兼容,而且参数较多,学习较困难

  • 模型5:FNN(Factorisation Machine supported Neural Network),存在的问题:需要预训练

    • 采用FM预训练得到的隐含层及其权重作为神经网络的第一层的初始值,之后再不断堆叠全连接层,最终输出预测的点击率。
    • 可以将FNN理解成一种特殊的embedding+MLP,其要求第一层嵌入后的各领域特征维度一致,并且嵌入权重的初始化是FM预训练好的。
    • 不是一个端到端的训练过程,有贪心训练的思路。而且如果不考虑预训练过程,模型网络结构也没有考虑低阶特征组合
  • 模型6:DeepFNN,与FNN相比,不需要预训练,将考虑领域信息的FM部分与MLP部分并联起来(对两个模型进行联合训练)。
    考虑领域信息的FM部分的嵌入向量拼接起来作为MLP部分的输入特征,也就是是两个模型共享嵌入后的特征。

    image.png

  • 模型7:NFM(Neural Factorization Machines),特点如下:

    • 利用二阶交互池化层(Bi-Interaction Pooling)对FM嵌入后的向量两两进行元素级别的乘法,形成同维度的向量求和后作为前馈神经网络的输入。计算图中用圈乘⨂表示逐元素乘法运算
    • NFM与DeepFM的区别是没有单独的FM的浅层网络进行联合训练,而是将其整合后直接输出给前馈神经网络。
      当MLP的全连接层都是恒等变换且最后一层参数全为1时,NFM就退化成了FM。可见,NFM是FM的推广,它推迟了FM的实现过程,并在其中加入了更多非线性运算。
    • 另一方面,我们观察计算图会发现NFM与FNN非常相似。它们的主要区别是NFM在embedding之后对特征进行了两两逐元素乘法。因为逐元素相乘的向量维数不变,之后对这些向量求和的维数仍然与embedding的维数一致。因此输入到MLP的参数比起直接concatenate的FNN更少
      image.png
  • 模型8: AFM(Attentional Factorization Machine)引入了注意力机制,NFM的主要创新点是在FM过程中添加了逐元素相乘的运算来增加模型的复杂度。但没有在此基础上添加更复杂的运算过程,比如对加权求和,AFM就是在这个方向上的改进

    • AFM与NFM都是致力于充分利用二阶特征组合的信息,对嵌入后的向量两两进行逐元素乘法,形成同维度的向量。而且AFM没有MLP部分。
    • AFM通过在逐元素乘法之后形成的向量进行加权求和,而且权重是基于网络自身来产生的。其方法是引入一个注意力子网络(Attention Net)。
    • 当权重都相等时,AFM退化成无全连接层的NFM。
      “注意力子网络”的主要操作是进行矩阵乘法,其最终输出结果为softmax,以保证各分量的权重本身是一个概率分布。


      image.png
  • 模型8: PNN(Product-based Neural Networks,PNN):AFM、NFM可以通过添加逐元素乘法的运算来增加模型的复杂度,那向量乘法有这么多,也可以用其他的方法增加FM复杂度(PNN),其特点如下:

    • 利用二阶向量积层(Pair-wisely Connected Product Layer)对FM嵌入后的向量两两进行向量积,形成的结果作为之后MLP的输入。计算图中用圆点•表示向量积运算。PNN采用的向量积有内积与外积两种形式。
    • 需要说明的是,本计算图中省略了PNN中向量与常数1进行的乘法运算。这部分其实与FNN类似,不是PNN的主要创新点。故在此图中省略。
    • 对于内积形式的PNN,因为两个向量相乘的结果为标量,可以直接把各个标量“拼接”成一个大向量,就可以作为MLP的输入了。
    • 当MLP的全连接层都是恒等变换且最后一层参数全为1时,内积形式的PNN就退化成了FM。
    • 对于外积形式的PNN,因为两个向量相乘相当于列向量与行向量进行矩阵相乘,得到的结果为一个矩阵。各个矩阵向之前内积形式的操作一样直接拼接起来维数太多,论文的简化方案是直接对各个矩阵进行求和,得到的新矩阵(可以理解成之后对其拉长成向量)就直接作为MLP的输入。
    • 观察计算图发现外积形式的PNN与NFM很像,其实就是PNN把NFM的逐元素乘法换成了外积。


      image.png

再比如一般的推荐系统[Joint User Modeling Across Aligned Heterogeneous Sites Using Neural Networks]分别对豆瓣电影用户打分和用户发微博进行建模,文中在Embedding+MLP的基础上,将MF中内积特性与NN结合(PNN),利用PNN捕捉强关联,如图:
image.png

以上的FM推广形式,主要是对FM进行二阶特征组合(通过向量embedding之间的内积来实现)。高阶特征组合是通过MLP实现的(在向量embedding之后一层一层进行权重矩阵乘法实现)——>能否将FM的过程在高阶特征组合上进行推广

  • 模型9:DCN(深度与交叉神经网络 Deep & Cross Network)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • 13. 经典模型融合办法:线性模型和树模型的组合拳 推荐系统在技术实现上一般划分为三个阶段:挖掘、召回、排序。挖掘...
    andyham阅读 984评论 0 9
  • FNN 如果有办法将每个特征用其所属的 field 来表示,原始输入将大大减少不少。Factorisation-m...
    初七123阅读 3,549评论 0 9
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,895评论 2 64
  • 这是在准备大学第一场期末考的时候为了解压听的。寒假过去了,整理一下。 这本书网上查不到 作者:佩奇(不详) 性研究...
    _瑾瑾_阅读 555评论 0 0
  • 四 我和周舟算是从此冰释前嫌,握手言和。几个路过而不由自主凑过来的小家伙,和我...
    金指尖的花园阅读 435评论 1 1