简单介绍一下CTR
CTR:click-through-rate,找到用户的反馈行为(例如点击、收藏、购买等)与各种特征(包括用户特征、广告特征等)之间的关系。
特征数据特点:原始数据通常包括的特征特别多,而且一般会用one-hot-coding的方法进行记录,但是这样构成的数据高维、稀疏。
特征的编码:直接用one-hot会有问题,就像上边提到的,高纬稀疏不利于后面的处理,所以大部分的CTR预估模型都会对one-hot特征进行embedding。压缩编码的方式有:神经网络模型(nnlm, word2vec)、矩阵分解(MF)、因子分解机(FM)等。
一些经典的CTR预估模型
CTR预估模型本质是个二分类的问题,因为主要是去建模预测用户是否会点击某个广告。
图1展示了两条CTR预估模型推演的过程。
红色的展示了:从FM开始推演其在深度学习上的各种推广;
黑色的展示了:从embedding+MLP自身演变的过程并结合CTR预估本身的业务场景推进的过程。
LR
LR模型一般是CTR预估问题的基线模型,简单、可解释性强,但是由于本身的局限,不能处理特征和目标之间的非线性关系,尤其是在特征选择上,严重依赖于工程师的经验。
为了让线性模型能学习到原始特征和拟合目标之间的非线性关系,通常会对原始特征做非线性转换,例如:连续特征离散化、特征交叉(即利用领域知识,融入到模型中)等。
GBDT+LR
先将特征通过GBDT学习到每个叶子节点的编号做为新的特征,做为LR的输入。原因:GBDT能学习到高阶非线性特征组合。
FM
Reference
CTR: LR、GBDT、FM、FNN、PNN、wide & Deep、DeepFM、DCN(Deep cross network)、xDeepFM
https://zhuanlan.zhihu.com/p/35465875
https://fuhailin.github.io/Deep-and-Cross-Network/
https://arxiv.org/pdf/1803.05170.pdf
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
https://zhuanlan.zhihu.com/p/57162373
https://zhuanlan.zhihu.com/p/83784018
Deep Interest Evolution Network for Click-Throug(阿里的一篇文章,2019 AAAI)