embedding技术(1): Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling

  • DLP-KDD 2019


摘要

目前点击率 (CTR) 预测模型已经从浅层方法发展到深层神经网络, 大多数深度 CTR 模型遵循 Embedding&MLP 范式,即首先映射离散的 id 特征,例如用户访问的物品,使用嵌入模块转换为低维向量,然后学习MLP。学习嵌入对模型性能至关重要。

在许多实际应用中,深度 CTR 模型往往泛化性能不佳,这主要是由于嵌入参数的学习。
本文关键贡献在于: 使用兴趣延迟模型(interst delay model)对用户行为进行建模,仔细研究嵌入机制,并获得两个重要结果:
(i)从理论上证明了属于同一用户兴趣域的物品的嵌入向量的小聚合半径将使得 CTR 模型具有良好的泛化性能
(ii) 设计了一种新嵌入结构res-embedding。在重新嵌入模块中,每个物品的嵌入向量是两个分量的总和:(i)从基于物品的兴趣图计算的中心嵌入向量(ii)规模相对较小的残差嵌入向量

Main Story

嵌入模块往往以look-up table的方式实现,每个离散的特征对应于一个低维向量,模型参数从CTR任务的训练数据中学习。而嵌入模块和MLP模块的参数都是端到端的学习,那么embedding模块实际上是作为一个特征映射来执行的,并决定了后续MLP模块的输入分布
根据数据依赖的泛化理论,输入分布将影响模型的泛化性能。因此, 嵌入模块对于深度CTR模型的泛化性能至关重要.

在实践中,深度CTR模型的训练中普遍存在过拟合现象,特别是在具有大规模离散特征的工业应用中。我们认为,可能是嵌入模块导致泛化性能不佳。原因在于两个方面:
(i) 在实际系统中,特征的数量可以扩展到数十亿,导致嵌入参数的数量巨大。这将提高记忆能力,但降低泛化能力。
(ii) 在只有点击标签数据下,传统的嵌入模块可能很难学到具有高泛化能力的代表性映射。例如,在端到端训练中,两个相似物品的嵌入向量的距离可能会随着不同的初始化而发生很大的变化。

受上述观察的启发,在本文中提出
(i) 定量分析哪些变量参与了深度CTR模型的泛化误差边界
(ii) 根据这种定量关系设计相应的解决方案来提高泛化能力

Methods

数据定义如下:

定义D层的MLP模型如下:

泛化误差边界(Generalization error bound)
包围半径:即反映空间的分布范围

用户行为建模

当用户再电商网站上浏览商品时,用户会由于不同的兴趣点击不同的商品, 基于经验和直观常识,我们假设用户兴趣在浏览过程中会持续一段时间

每次点击可以表示为一个时间步 time step, 具有相同兴趣的时间步可以成为一个时间段 period, 称为interest delay模型。

对于具体的某个时间步而言, 用户单个点击行为由当前用户的兴趣觉得, 从数学角度上定义\mathcal{N}_z个兴趣域(interest domain), 兴趣隐藏状态z\in \{1, 2,..., \mathcal{N}_z \}. 假设P(x)表示用户点击物品x的概率,那么该点击概率可以表示为:P(x) = \sum_z P(x|z)P(z)

那么interest delay模型建模过程可以定义如下:

更详细的假设如下:

论文基于以上模型进行泛化误差边界的理论分析:

那么最终影响泛化误差的因素包含W和R_{max}. 降低embedding向量的整体范围似乎证明了在某些情况下使用embeddding层正则化的有效性。

但这样同时降低了embedding的容量和表征能力。 而通过分别降低每个兴趣域的包围半径,可以使得同一兴趣域内在embedding空间上更近,但在不同兴趣域上存在差异,能够同时控制泛化误差和模型性能。

基于该理论分析, 本文提出了一个原型框架: 同一兴趣域内的物品共相同的中心嵌入向量(central), 每个物品有不同的小范围的残差嵌入向量(ersidual).

最终通过两部分向量相加,得到最终的物品表征,通过控制residual部分的范围,可以有效的降低同一兴趣域在嵌入空间上的距离,即R_{max}

假设具有I个兴趣域和H个物品,中心向量矩阵表示为C\in \mathbb{R}^{I \times d}, P \in \mathbb{R}^{H \times I} 表示每个物品和每个域的关系, 其为0-1二元矩阵。 R\in \mathbb{R}^{H \times d} 表示物品的残差向量:


然而,关系矩阵P是未知的,很难获得,不知道每个物品属于哪个兴趣领域。错误的P可能会给深度CTR预测模型带来更糟糕的泛化性能。有必要确定物品和兴趣领域之间的合理关系。此外,一个项目很可能不只属于一个兴趣领域。也就是说,中心嵌入的约束关系可能是软的,这意味着同一兴趣域中的物品的中心嵌入可能不完全相同,而只是更相似

为了解决这个问题,我们重新审视假设1,并注意到一个隐藏的兴趣状态z将保持T个时间步骤来影响用户点击行为。因此,可以推导出这样一个结论:如果两个物品在用户点击行为的短期内出现得更频繁,它们就更有可能处于相同的兴趣域。从这个结论出发,定义了一个由每个物品对的共同出现频率构建的物品兴趣图(item interest graph)Z,来描述物品之间兴趣域的相似性关系

具体实现

使用残差向量矩阵W来表示物品和中心向量基的相关性:

物品的中心嵌入应该是物品兴趣图中与之相连的物品的中心嵌入基础的线性组合,具体的兴趣图是基于物品共现构建的,

计算过程可以如下图所示:

具体的g()函数有三种实现方式:

  • 线性:
  • GCN/图聚合操作:
  • 注意力机制:

最终模型目标函数如下:

实验结果

  • 泛化性能:


  • res-embedding对推荐性能的影响

总结

  • 本文从推荐算法中最基础却最关键的embedding优化入手,通过理论分析对其泛化性能影响因素进行提取
  • 并在此基础上,提出res-embedding,将物品embedding拆分为中心向量和残差向量两部分

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容