基于异质信息网络(HIN)的推荐(1):Heterogeneous Information Network Embedding for Recommendation

本文是自己在推荐系统研究中研读的论文翻译及解读,原文:Heterogeneous Information Network Embedding for Recommendation

关于异质信息网络(HIN),初次接触感觉跟知识图谱非常相似,具体的特点和性质尚未了解,后续继续学习更新

background

推荐的核心问题包括

  • 对物品建模
  • 对用户建模
  • 对用户-物品交互关系/匹配关系建模

传统的方法基本上都是在交互关系上下功夫,利用历史交互记录学习交互关系,目前主流的研究方向就是引入更多的辅助信息,获取更多的交互关联,提取更深的交互关系。 包括基于知识图谱的相关研究
HIN基本的概念即为有向图,节点表示实体,边表示关系,与KG特别相似

那么基于HIN的推荐就是利用HIN获取在物品与用户交互关系的基础上引入更多的信息,通过图中的路径,建立用户/物品间语义相似度评估,进而用于推荐。HIN的基础知识后续会补充

针对基于HIN的主流算法(基于元路径meta-path),作者指出了两个问题:

  1. 基于元路径的相似度依赖于明显的路径关联,当图中路径稀疏或者混乱的时候就很难实现
  2. 此外,基于元路径的相似度刻画了HIN中语义关联,往往不能直接用到推荐中。之前的方法利用线性加权的方法将该相似度与矩阵分解相结合,不能很好地利用语义关联中的复杂关系。

相应地,论文在meta-path基础上提出

  1. 使用Random walk策略生成节点序列。对不同的meta-path都会学习其embedding,最后融和多个embedding作为HIN embedding。

  2. 将HIN embedding融合,尝试使用简单线性聚合、个性化线性聚合函数和非线性聚合三种聚合函数来表示一个Node,以此来得到适用于推荐的表示。

  3. 最后将得到的融合embedding和传统的矩阵分解结合做预测任务,生成推荐评分。

HIN基本概念

  • Heterogenous Information Network 异质信息网络在文中定义为包含多种类型客体或关系(object or link)的信息网络,个人理解异质即体现在不同的客体/关系 heterogenous可以理解为异质或异构,个人第一感觉是指数据的异构,没想到这个地方指的仅仅是区别

  • Network schema 网络架构/模式 可以理解为从HIN网络中获取路径信息的模版或方式,这个地方感觉与自动机非常相似

    如原文中列举的图,不同的数据集中采用不同的架构获取信息 架构中的客体往往为应用中比较关注的内容,推荐中即为用户和物品,

  • Meta-path 元路径 从Network Schema中获取的路径模版,如从上图a的架构中提取的元路径就包括: U->U, U->M->U 这些路径可以直观地描述用户之间不同类型的关联,包含不同的语义信息。

基于HIN的推荐就是利用HIN中的用户和物品的关联,训练模型用于预测用户对于候选物品的评分或兴趣程度。

模型设计

原文的思路比较清晰,可以分为两部分: 1)特征表示学习, 构建embedding表示HIN,以有效地利用HIN中的语义信息表征用户和物品;2) 预测

HIN embedding 生成

作者在网络嵌入表示的工作基础上,提出HIN embedding模型,来学习图中节点的低秩表示。 作者也提到了其与已有图嵌入方法的区别,包括deepwalk 等方法等区别,以往方法是在同质网络上进行的,对节点和边没有区分对待。该文的工作看下来则是在节点生成的过程中引入了一些处理,论文源码中也是利用了deepwalk进行embedding生成的
相关基础知识:
deep walk
node2vec
deepwalk 源码

  • 元路径算法
    回到论文,为了获取embedding,首先需要从图中获取路径即信息。作者将HIN中的元路径与随机游走(random walk)结合提出路径 比较基础的操作
    实际做法就是: 将图的随机游走加上元路径限制,仅对元路径进行随机游走即可。
    随机游走,就是对一个节点按照随机均等概率的形式选择相邻节点进行遍历 那么加上元路径如UMU,随机游走得到的路径就是u_1m_1u_2m_2u_3...,实际实现中往往采用截断式随机游走,即固定长度,可以理解为从图中进行长度固定的随机采样。

对于随机游走得到的路径,再进行筛选过滤,获得推荐所需的节点序列,即用户序列和物品序列,而用户序列和物品序列就是所谓的同质序列。 对于这些同质序列就可以基于前面提到的deep walk或node2vec进行embedding学习,在其源码中就是基于deepwalk实现的embedding生成

这样就得到了最基本的节点embedding表示,也就是HIN embedding.

  • embedding融合

    对于图中同一节点,使用不同的元路径会得到不同的embedding表示,从模式设计和功能的角度都需要对节点的embedding 进行融合

预测

  • MF与fused embeddings 的整合
    基于前面的模块可以获取用户和物品的embedding表示,那么前面的embedding模型需要进行预训练用于下面的预测。

论文中将矩阵分解与HIN embedding结合,还是简单的线性方式:

也很好理解,第一项即矩阵分解的因子乘积,后两项则是结合的embedding项,为了得到最后的标量形式,需要对embedding做向量乘法,并设置不同的权重. 按理两类embedding应该是同样维度的,做乘法的时候顺序应该一样,但公式中还是分了前后

关于embedding融合,论文也提出了三种不同的方式(简单线性,个性化线性,非线性),比较好理解,此处略过。。。

  • 参数学习

那么最后的推荐模型的目标函数如上,比较常见的形式,基于梯度下降即可对模型参数进行更新学习,具体的参数包含融合embedding中的参数和相应的权重向量
该部分内容比较基础,给人一种水篇幅的感觉

总的来说,模型非端到端的模型,需要先进行embedding学习,再构建用于推荐的模型。

实验

实验具体的推荐任务为评分任务,而非排序任务,使用MAE和RMSE进行评估

进行了包括模型表现和灼烧实验,实验内容还是比较充实的 毕竟是期刊论文嘛

总结

通过本文,自己首次接触到了HIN,给自己开扩了视野,HIN作为一种引入辅助信息的有效方式,在推荐中肯定会有很多研究,需要做更多的文献调研。同时也感觉到该类方法对信息利用比较低,有很多辅助信息并没有发挥其用途;此外,其与知识图谱的区别也并不大,可解释性方面的优势也没有体现。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容