【论文总结】Youtube深度学习推荐系统

论文内容总结

1. Introduction

视频推荐的难点:

  • 规模:用户/视频量大,计算量大
  • 新鲜度:新视频多,EE问题
  • 噪音:缺乏用户的实际反馈(评价/评分),只有隐式反馈(点击/停留);视频信息不完善(简介/标题/分类)

2. System Overview

分召回(candidate generation)和排序(ranking)两阶段

  • 召回:为每个人从百万以上商品中选择比较好的几百个。作为协同过滤的拓展,使用视频ID,搜索词和用户画像特征
  • 排序:为了对这几百个商品排序,对每一个商品评分

3. Candidate Generation

可以看作是矩阵分解的非线性拓展

3.1 推荐定义为分类问题

每个用户u,每个视频v都用向量表示,u*v内积表示用户对该视频的喜好程度。每个用户对N个视频做softmax得到喜欢每一个视频的概率。
负样本太多,需要做负采样。为什么不用 hierarchical softmax?
线上应用时对百万个item取topN计算量太大,所以改为最近邻搜索ANN

3.2 模型架构

采用word2vec思想,将每一个one-hot的视频ID压缩到低维空间,再对视频序列取平均(也可以是求和,逐元素最大值等)。视频向量和模型的其他参数一起学习

3.3 其他特征Heterogeneous Signals

神经网络比矩阵分解优势在很容易把特征当作输入(矩阵分解只能用ID)。搜索词做unigram,bigram处理。用户画像特征对新用户也有效。地理位置和设备信息也做embedding处理。简单特征(性别,登陆状态,年龄)直接归一化

Example Age

描述视频的新鲜程度,训练时作为特征,线上预测时置0或者一个很小的负数

3.4 Label and Context Selection

训练样本从youtube全站来,不仅仅采用推荐产出的,避免新商品难以被推荐出来。用户在非推荐场景点击了视频,也可以通过协同过滤(神经网络版)拓展出去。
每个用户采样相同数量的样本,避免活跃用户占比大影响整体效果。
刚刚搜索过“taylor swift”,接下来在推荐页面展示同样的搜索页面,体验不好。解决方案:放弃序列特征,将搜索词当作无序词袋处理。
co-watch现象:系列剧/节目按顺序看,某一个作曲家的曲子从热门曲开始之后过渡到小众曲。不用随机held-out的方法,按时间顺序,过去历史预测下一个

3.5 Experiements with Features and Depths

全部语料:100万视频,100万搜索词。每个用户:50个视频,50个搜索词。
网络深度/宽度增加到没有收益,不收敛为止。最多2048->1024->512->256

4. Ranking

经过召回阶段减小了候选集合,排序阶段就可以使用更多特征(计算量考虑)了。也可以融合不同的召回集合。优化目标是播放时长,不按点击率排序的原因是为了排除“标题党”内容。

4.1 特征表达

特征工程

找用户和相关/类似商品的交互信息(同一个channel下看了哪些其他视频,上一次看这个channel是什么时间)对预测评分很重要
加入历史特征有助于避免“重复”现象,连续请求返回同样的结果,体验不好

离散特征Embedding

高维稀疏的ID类特征(视频ID,搜索词)Embedding到低维稠密的向量中,按照出现频次去掉低频长尾部分。词典外的内容用0向量表示,多值特征取平均值。
在不同特征中的同一个对象共享同一个Embedding(被曝光的视频ID,上一次播放的视频,触发召回的种子视频ID),作为不同的特征输入,后续可以学到不同的表达。增加泛化性,加快训练,减少内存占用

连续特征规范化

神经网络(和树模型比)对数据量级、分布敏感,规范化有助于收敛。把特征scaling到[0,1)的均匀分布
规范化

积分是按分位数做差值的近似。
增加平方开方值作为网络输入。

4.2 建模预期观看时间

不仅仅预测是否观看视频(0/1),还要预测观看时长,使用weighted LR方法。不用常规的sigmoid输出,改用e^(Wx+b)


预测目标.png

odds推导

4.3隐藏层实验

评估:对预估观看时间与实际观看时间的差距加权平均
网络加到1024->512->256基本收敛

5. 总结

把推荐问题分成召回和推荐两步。
深度CF模型,通过连续观看视频的先后信息,避免引入未来信息,解决场景切换问题(surrogate problem)。刚刚搜过的内容出现在首页的问题。
引入时间特征平衡新老内容。
排序模型中的特征处理:离散特征embedding,连续特征规范化。
weighted LR建模预期播放时长,比预估ctr效果好很多。

一些思考和实现
知乎参考
论文地址

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容