本文是自己在推荐系统研究中研读的论文翻译及解读,原文:Heterogeneous Information Network Embedding for Recommendation
- 发表于信息检索顶刊TKDE(发表时间2018)
- 第一作者为:大佬 石川
- 论文所对应的实验数据已开源:https://github.com/librahu/HIN-Datasets-for-Recommendation-and-Network-Embedding
- 论文源码为 https://github.com/librahu/HERec/tree/master/code 感谢论文作者团队
- 本篇笔记为本人原创,如需转载引用,请务必在文中附上原链接及相应说明,包括作者信息(阿瑟)
- 本篇笔记非标准译文,其中包含了笔者自己对问题的部分理解,仅供参考,欢迎学习交流
关于异质信息网络(HIN),初次接触感觉跟知识图谱非常相似,具体的特点和性质尚未了解,后续继续学习更新
background
推荐的核心问题包括
- 对物品建模
- 对用户建模
- 对用户-物品交互关系/匹配关系建模
传统的方法基本上都是在交互关系上下功夫,利用历史交互记录学习交互关系,目前主流的研究方向就是引入更多的辅助信息,获取更多的交互关联,提取更深的交互关系。 包括基于知识图谱的相关研究
HIN基本的概念即为有向图,节点表示实体,边表示关系,与KG特别相似
针对基于HIN的主流算法(基于元路径meta-path),作者指出了两个问题:
- 基于元路径的相似度依赖于明显的路径关联,当图中路径稀疏或者混乱的时候就很难实现
- 此外,基于元路径的相似度刻画了HIN中语义关联,往往不能直接用到推荐中。之前的方法利用线性加权的方法将该相似度与矩阵分解相结合,不能很好地利用语义关联中的复杂关系。
相应地,论文在meta-path基础上提出
使用Random walk策略生成节点序列。对不同的meta-path都会学习其embedding,最后融和多个embedding作为HIN embedding。
将HIN embedding融合,尝试使用简单线性聚合、个性化线性聚合函数和非线性聚合三种聚合函数来表示一个Node,以此来得到适用于推荐的表示。
-
最后将得到的融合embedding和传统的矩阵分解结合做预测任务,生成推荐评分。
HIN基本概念
Heterogenous Information Network 异质信息网络在文中定义为包含多种类型客体或关系(object or link)的信息网络,个人理解异质即体现在不同的客体/关系 heterogenous可以理解为异质或异构,个人第一感觉是指数据的异构,没想到这个地方指的仅仅是区别
-
Network schema 网络架构/模式 可以理解为从HIN网络中获取路径信息的模版或方式,这个地方感觉与自动机非常相似
Meta-path 元路径 从Network Schema中获取的路径模版,如从上图a的架构中提取的元路径就包括: 这些路径可以直观地描述用户之间不同类型的关联,包含不同的语义信息。
基于HIN的推荐就是利用HIN中的用户和物品的关联,训练模型用于预测用户对于候选物品的评分或兴趣程度。
模型设计
原文的思路比较清晰,可以分为两部分: 1)特征表示学习, 构建embedding表示HIN,以有效地利用HIN中的语义信息表征用户和物品;2) 预测
HIN embedding 生成
作者在网络嵌入表示的工作基础上,提出HIN embedding模型,来学习图中节点的低秩表示。 作者也提到了其与已有图嵌入方法的区别,包括deepwalk 等方法等区别,以往方法是在同质网络上进行的,对节点和边没有区分对待。该文的工作看下来则是在节点生成的过程中引入了一些处理,论文源码中也是利用了deepwalk进行embedding生成的
相关基础知识:
deep walk
node2vec
deepwalk 源码
- 元路径算法
回到论文,为了获取embedding,首先需要从图中获取路径即信息。作者将HIN中的元路径与随机游走(random walk)结合提出路径 比较基础的操作
实际做法就是: 将图的随机游走加上元路径限制,仅对元路径进行随机游走即可。
对于随机游走得到的路径,再进行筛选过滤,获得推荐所需的节点序列,即用户序列和物品序列,而用户序列和物品序列就是所谓的同质序列。 对于这些同质序列就可以基于前面提到的deep walk或node2vec进行embedding学习,在其源码中就是基于deepwalk实现的embedding生成
-
embedding融合
对于图中同一节点,使用不同的元路径会得到不同的embedding表示,从模式设计和功能的角度都需要对节点的embedding 进行融合
预测
- MF与fused embeddings 的整合
基于前面的模块可以获取用户和物品的embedding表示,那么前面的embedding模型需要进行预训练用于下面的预测。
论文中将矩阵分解与HIN embedding结合,还是简单的线性方式:
关于embedding融合,论文也提出了三种不同的方式(简单线性,个性化线性,非线性),比较好理解,此处略过。。。
- 参数学习
总的来说,模型非端到端的模型,需要先进行embedding学习,再构建用于推荐的模型。
实验
实验具体的推荐任务为评分任务,而非排序任务,使用MAE和RMSE进行评估
总结
通过本文,自己首次接触到了HIN,给自己开扩了视野,HIN作为一种引入辅助信息的有效方式,在推荐中肯定会有很多研究,需要做更多的文献调研。同时也感觉到该类方法对信息利用比较低,有很多辅助信息并没有发挥其用途;此外,其与知识图谱的区别也并不大,可解释性方面的优势也没有体现。