-
DLP-KDD 2019
摘要
目前点击率 (CTR) 预测模型已经从浅层方法发展到深层神经网络, 大多数深度 CTR 模型遵循 Embedding&MLP 范式,即首先映射离散的 id 特征,例如用户访问的物品,使用嵌入模块转换为低维向量,然后学习MLP。学习嵌入对模型性能至关重要。
在许多实际应用中,深度 CTR 模型往往泛化性能不佳,这主要是由于嵌入参数的学习。
本文关键贡献在于: 使用兴趣延迟模型(interst delay model)对用户行为进行建模,仔细研究嵌入机制,并获得两个重要结果:
(i)从理论上证明了属于同一用户兴趣域的物品的嵌入向量的小聚合半径将使得 CTR 模型具有良好的泛化性能。
(ii) 设计了一种新嵌入结构res-embedding。在重新嵌入模块中,每个物品的嵌入向量是两个分量的总和:(i)从基于物品的兴趣图计算的中心嵌入向量(ii)规模相对较小的残差嵌入向量。
Main Story
嵌入模块往往以look-up table的方式实现,每个离散的特征对应于一个低维向量,模型参数从CTR任务的训练数据中学习。而嵌入模块和MLP模块的参数都是端到端的学习,那么embedding模块实际上是作为一个特征映射来执行的,并决定了后续MLP模块的输入分布。
根据数据依赖的泛化理论,输入分布将影响模型的泛化性能。因此, 嵌入模块对于深度CTR模型的泛化性能至关重要.
在实践中,深度CTR模型的训练中普遍存在过拟合现象,特别是在具有大规模离散特征的工业应用中。我们认为,可能是嵌入模块导致泛化性能不佳。原因在于两个方面:
(i) 在实际系统中,特征的数量可以扩展到数十亿,导致嵌入参数的数量巨大。这将提高记忆能力,但降低泛化能力。
(ii) 在只有点击标签数据下,传统的嵌入模块可能很难学到具有高泛化能力的代表性映射。例如,在端到端训练中,两个相似物品的嵌入向量的距离可能会随着不同的初始化而发生很大的变化。
受上述观察的启发,在本文中提出
(i) 定量分析哪些变量参与了深度CTR模型的泛化误差边界
(ii) 根据这种定量关系设计相应的解决方案来提高泛化能力
Methods
定义D层的MLP模型如下:
用户行为建模
每次点击可以表示为一个时间步 time step, 具有相同兴趣的时间步可以成为一个时间段 period, 称为interest delay模型。
对于具体的某个时间步而言, 用户单个点击行为由当前用户的兴趣觉得, 从数学角度上定义个兴趣域(interest domain), 兴趣隐藏状态. 假设P(x)表示用户点击物品x的概率,那么该点击概率可以表示为:
那么interest delay模型建模过程可以定义如下:论文基于以上模型进行泛化误差边界的理论分析:
但这样同时降低了embedding的容量和表征能力。 而通过分别降低每个兴趣域的包围半径,可以使得同一兴趣域内在embedding空间上更近,但在不同兴趣域上存在差异,能够同时控制泛化误差和模型性能。
基于该理论分析, 本文提出了一个原型框架: 同一兴趣域内的物品共相同的中心嵌入向量(central), 每个物品有不同的小范围的残差嵌入向量(ersidual).
最终通过两部分向量相加,得到最终的物品表征,通过控制residual部分的范围,可以有效的降低同一兴趣域在嵌入空间上的距离,即
假设具有I个兴趣域和H个物品,中心向量矩阵表示为, 表示每个物品和每个域的关系, 其为0-1二元矩阵。 表示物品的残差向量:
为了解决这个问题,我们重新审视假设1,并注意到一个隐藏的兴趣状态z将保持T个时间步骤来影响用户点击行为。因此,可以推导出这样一个结论:如果两个物品在用户点击行为的短期内出现得更频繁,它们就更有可能处于相同的兴趣域。从这个结论出发,定义了一个由每个物品对的共同出现频率构建的物品兴趣图(item interest graph)Z,来描述物品之间兴趣域的相似性关系
具体实现
使用残差向量矩阵来表示物品和中心向量基的相关性:
具体的g()函数有三种实现方式:
-
线性:
-
GCN/图聚合操作:
-
注意力机制:
实验结果
-
泛化性能:
-
res-embedding对推荐性能的影响
总结
- 本文从推荐算法中最基础却最关键的embedding优化入手,通过理论分析对其泛化性能影响因素进行提取
- 并在此基础上,提出res-embedding,将物品embedding拆分为中心向量和残差向量两部分
END
本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c