新闻推荐(3): 基于用户长短期表示的新闻推荐: Neural News Recommendation with Long- and Short-term User Representations

本文是自己在推荐系统研究中研读的论文翻译及解读,原文:Neural News Recommendation with Long- and Short-term User Representations

  • ACL2019会议论文,微软亚研团队出品
  • 本篇笔记为本人原创,如需转载引用,请务必在文中附上原链接及相应说明,包括作者信息(阿瑟)
  • 本篇笔记非标准译文,其中包含了笔者自己对问题的部分理解,仅供参考,欢迎学习交流

摘要

个性化新闻推荐对于帮助用户发现感兴趣的新闻,提高阅读体验具有重要意义。新闻推荐中的一个关键问题是学习准确的用户表征以获取他们的兴趣。用户通常有长期偏好和短期兴趣。然而,现有的新闻推荐方法通常只学习用户的单一表示,这可能是不够的。

本文提出了一种能同时学习长期和短期用户表示的神经新闻推荐方法。
方法的核心是新闻编码器和用户编码器。

  • 在新闻编码器中,我们从新闻的标题和主题类别中学习新闻的表示,并使用注意力网络来选择重要的词。
  • 在用户编码器中,从用户id的嵌入中学习长期的用户表示。
  • 通过GRU网络从用户最近浏览的新闻中学习短期用户表示。
  • 提出了两种方法来结合长期和短期的用户表示。第一种是在短期用户表示中,利用长期用户表示来初始化GRU网络的隐藏状态。第二种是将长期和短期用户表示连接起来作为统一的用户向量。
  • 在实际数据集上的大量实验表明,该方法能够有效地提高神经新闻推荐的性能。

引言

在线新闻平台汇集各种来源的新闻并推荐给用户,用户群体庞大。然而,每天都会产生大量的新闻,使得用户无法阅读所有的新闻。因此,个性化的新闻推荐对于在线新闻平台帮助用户找到感兴趣的内容,缓解信息过载非常重要。

学习准确的用户表示对于新闻推荐至关重要。现有的新闻推荐方法通常为每个用户学习一个表示,如有工作提出使用去噪自动编码器学习新闻的表示,并使用GRU网络从用户浏览的新闻中学习用户的表示。然而,像GRU这样的RNN网络很难捕捉到非常长的新闻浏览历史的全部信息。有工作提出使用knowledge-aware的CNN学习新闻的表征,并基于候选新闻和浏览新闻的相似性从用户浏览的新闻中学习用户的表征。然而,这种方法需要在在线新闻推荐阶段存储每个用户的整个浏览历史,这可能会给存储带来巨大的挑战,并可能造成较大的延迟。

本文的工作是基于这样一种观察:即网络用户对新闻的兴趣是非常多样化的。一些用户兴趣可能会持续很长一段时间,并且对于同一个用户来说是一致的。例如,如果用户是“金州勇士”的粉丝,则该用户可能倾向于在数年内阅读有关该NBA球队的许多篮球新闻。我们称这种用户偏好为长期兴趣。此外,许多用户兴趣可能随着时间的推移而变化,并可能由特定的上下文或时间需求触发。例如,浏览电影“波希米亚狂想曲”上的新闻会导致用户阅读一些相关新闻,例如“Rami Malek赢得2019年奥斯卡奖”,因为“Rami Malek”是该电影中的重要演员,尽管该用户可能永远不会阅读有关“Rami Malek”的新闻。我们称这种用户兴趣为短期兴趣。因此,长期和短期用户兴趣对于个性化新闻推荐都很重要,区分长期和短期用户兴趣有助于学习更准确的用户表示

模型设计

News Encoder

主要结构包括:

  • Embedding层,利用预训练的词向量模型获取新闻标题每个词汇对应的embedding
  • CNN文本特征提取层, 对词embedding进行特征提取,类似于KimCNN的操作,卷积窗口为3,图中也做了相应的表示
  • Attention层,对词汇特征做soft-attention得到新闻标题的文本特征
  • 主题编码器 Topic encoder 从新闻主题和子主题学习新闻表示。在MSN news等许多在线新闻平台上,新闻文章通常标有主题类别(如“体育”)和副标题类别(如“足球NFL”),以帮助目标用户兴趣。
  • 新闻的主题和副标题类别对于学习新闻和用户的表现形式也是有影响的。它们可以揭示新闻的一般和详细主题,并反映用户的偏好。例如,如果用户浏览了许多带有“体育”主题类别的新闻文章,那么我们可以推断出该用户可能对体育感兴趣,并且向该用户推荐“体育”主题类别中的候选新闻可能是有效的。
  • 为了将主题和副标题信息合并到新闻表示中,本文提出从主题和副标题id的嵌入中学习主题和副标题的表示。

定义e_ve_{sv}作为主题和副标题的表示。新闻的最终表现是标题、主题和副标题的串联,即e=[e_t,e_v,e_sv]

笔者注:新闻编码部分总体看来平平无奇,常规操作,包括主题副标题使用的部分,也很简单

User Encoder

  • 用户短期表征 Short-Term User representation
    在线用户在阅读新闻文章时可能会有动态的短期互动,这可能会受到特定语境或时态信息需求的影响。

例如,如果一个用户只是阅读了一篇关于“Mission: Impossible 6 – Fallout”的新闻文章,她可能想更多地了解这部电影中的演员“汤姆克鲁斯”,并点击与“汤姆克鲁斯”相关的新闻,尽管她不是他的粉丝,可能以前从未读过他的新闻。

本文提出从用户最近的浏览历史中学习用户的短期表示以捕捉他们的时间兴趣,并使用GRU来限定顺序新闻阅读模式。表示按时间戳按升序排序的用户的新闻浏览序列为C={c_1,c_2,…,c_k},其中k是此序列的长度。我们应用新闻编码器来获得这些新闻的表示,表示形式为{e_1,e_2,...,e_k}

最终用gru网络的隐藏状态来表示短期表征
u_s=h_k

  • 用户长期标准 Long-Term User representation
    除了暂时的兴趣,网络用户也可能对阅读新闻有长期的兴趣。

例如,一个篮球迷可能倾向于在几年内浏览许多与NBA有关的体育新闻。因此,本文提出学习用户的长期特征,以获取他们一致的偏好。长期的用户描述是从用户ID的嵌入中学习的,这些用户ID在模型训练期间是随机初始化和微调的。表示u为用户的ID,W_u为用户长期表征的查找表look-up table,该用户的长期表示为u_l=W_u[u]

这个长期表征很让人迷惑,直接用用户ID真的能让模型学到用户的长期特征么,因为模型并没有真正用到历史较远的新闻数据


文中提出了两种的具体表征结合方法:

  1. 将用户长期兴趣表示作为用户短期用户表示计算中GRU的初始状态(LSTUR-ini)
  2. 将用户长短期兴趣表示拼接作为最终用户表示(LSTUR-con)。

候选新闻的个性化分数通过用户表示向量和新闻表示向量的内积计算,作为众多候选新闻针对特定用户个性化排序的依据。
注: 第一种结合方法稍有创新,总体仍然平平无奇

训练过程基于负采样进行,对于一个用户浏览的每一条新闻(作为正例),随机抽取来自同一页面的K篇新闻文章,这些文章没有被这个用户点击作为负例子。我们的模型将联合预测正负样本的点击概率得分。这样,新闻点击预测问题被重新定义为一个K+1类 分类任务。我们将训练期间所有阳性样本的负对数似然之和最小化,其公式如下:

由于并非所有的用户都能被纳入到新闻推荐模型的训练中(例如,新来的用户),因此在预测阶段假设所有用户在我们的模型中都有长期表征是不合适的。

无法学习新到来用户的长期兴趣的表示向量。在预测的过程中简单地将新用户的长期兴趣表示置为零向量可能无法取得最优的效果。为了解决这个问题,该论文提出在模型训练的过程中模拟新用户存在的情况,具体做法是随机掩盖(mask)部分用户的长期兴趣表示向量,即用户的长期兴趣表示向量会以概率p被置为全零向量。实验表明,无论是LSTUR-ini还是LSTUR-con,在训练过程中加入长期兴趣随机掩盖(random mask)的做法均能明显提升模型效果。

,按照伯努利分布进行随机mask
这种设计方法在实际模型训练中很有帮助

实验

由于没有现成的新闻记录数据集,论文在2018年12月23日至2019年1月19日的4周内,通过收集MSN News的日志,自行构建了一个。把前三周的日志用于模型训练,上一周的日志用于测试;还随机抽取了训练集中10%的日志作为验证数据。对于每个用户,收集了过去7天的浏览历史,以了解短期用户表示

具体的实验参数设置包括,使用Glove获取词向量,mask的概率为0.5;超参数在的验证集上训练得到。

对比实验效果如下:

总结

该文总体而言相对比较流畅,但创新性一般,有一些小的track,总体平淡无奇。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容