前言
-
Recsys 2020中一篇关于新闻推荐的短文
- 关键点:关注短期兴趣,session-based,基于图挖掘用户阅读序列的语义结构和关联
由于实际新闻系统中登录用户相应的交互记录相对比较有限,会话级(短序列)的新闻推荐比较具有挑战性。现有的基于会话(短序列 session-based)的新闻推荐方法主要侧重于从新闻文章中提取特征和用户与条目之间的连续交互,但这些方法往往忽略了新闻文章之间的语义层次结构信息,没有利用外部知识。
session-based 推荐理解:对于没有完整历史记录的游客(忽略ID信息),根据短序列,借助短序列中内容的相似性进行个性化推荐,每个序列对应一个session,需要做一次推荐;如下图所示:
- 主要工作:
- CAGE 利用辅助知识图谱,丰富了新闻的表征。
- 利用图卷积神经网络利用文章间的结构信息和建模文章之间相似性
模型结构
1. 文章内容表征
基于KIM-CNN对文章词汇进行提取,得到嵌入
2. 语义级表征
为了利用文章内容的语义信息,使用wikidata知识图谱,提取文章中关联到的实体,并构成一个子图,对该子图做一跳扩展,以避免图过于稀疏。然后使用TransE获取图中节点的嵌入,得到实体嵌入。
3. 基于GNN优化文章嵌入
文中将文章嵌入由三个部分构成:分别为内容嵌入、语义嵌入(知识图谱)和用户属性特征(one-hot编码的特征)对于基于会话的新闻推荐,利用文章之间的近邻结构信息是非常关键的,这有助于增强文章的嵌入。例如,具有相似概念的文章其在嵌入空间上也应该比较接近。
文章提出构造新闻级图模型,利用图神经网络进一步完善文章嵌入。文章新闻是图上的节点,而文章嵌入两两之间的相似值则是边上的权重。并去除低相似度的边,得到一个稀疏图。
使用2层GCN对这个图进行处理
4. 序列处理
最后在GCN处理后得到session内每个新闻的最终表征,通过GRU对该序列进行处理,得到最终session的表征,该嵌入用于最后的推荐任务
模型优化
Rel()评估session和候选新闻的匹配程度但没有指明新闻表征采用哪种向量
优化同样采用了Pairwise的思想,进行负采样,最大化点击正例的先验概率:实验
使用Adressa-2w的数据集,根据wikidata构建了一个知识图谱,但并没有开源...
模型评估方面除准确率外,还评估了推荐的新颖度和多样性总结
该文从session-based的角度进行新闻推荐,是新闻推荐在学术论文里面比较少的研究角度;主要创新点在于把知识图谱信息引入,并通过GCN对文章间结构进行分析,而非传统的序列模型或者CNN。但对于知识图谱的利用可能过于简单直接。
END
本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和CSDN等站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的笔记/博文进行更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c