Temporal Heterogeneous Information Network Embedding

论文链接:https://www.ijcai.org/proceedings/2021/0203.pdf

摘要:异质信息网络嵌入,学习多类型节点的低维表示,已经被广泛应用并取得了优异的性能表现。然而,大多数已有工作关注于静态异质信息网络或学习特定快照网络中的节点嵌入,很少关注整个网络的演化过程以及捕捉相关的演化动态特性。为了通过考虑演化过程中的所有时序动态来填补获得多类型节点低维嵌入的空白,我们提出了一种新的时序HIN嵌入方法(THINE)。该方法不仅使用注意力机制和元路径来保留HIN中的结构和语义信息,而且还结合Hawkes过程来模拟时序网络演化。我们对各种真实时间中的时序HIN进行了广泛评估,实验结果表明THINE在静态和动态任务(包括节点分类、链路预测和时序链路推荐)中都实现了SOTA的性能表现。

1、Introduction

近年来,网络嵌入因其优异的性能表现已经受到了越来越多的人的关注。它将网络节点映射到一个低维向量空间,并同时保留了网络的属性特征和结构特征。许多优秀的算法,如Deepwalk、LINE等被提出,并被成功应用到各种网络相关的任务中,如节点分类、节点聚类以及链路预测等。

然而,这些方法都关注于同质网络,而现实世界中的绝大多数网络数据是异质的,其中包含了多种类型的节点和连边关系。例如一个学术网络通常由三类节点:作者(A)、论文(P)以及会议(C);与多种类型的连边关系构成:作者与论文之间有合著、引用及撰写等关系;论文与会议之间有出版关系等。在HIN中,不同类型的节点与连边关系可以生成各种类型的嵌入表示,包含更为复杂的结构及相互关系。也就是说,越来越多的研究人员开始关注于HIN的表示学习领域,如PTE、Metapath2Vec以及MAGNN等。

尽管如此,目前大多数工作都是针对静态HIN提出的,而现实中的HIN是随时间演化的。如学术网络中作者可能在不同年份发表不同的论文,业务等级根据用户在Yelp中的评论随时间变化而变化。因此简单地将时序HIN视为静态不变的,将会无法准确捕捉HIN变化时的结构和语义特征。

因此对于时序HIN的了解与日俱增。然而它却面临两个严峻的挑战:首先,如何有效的保留时序HIN中的结构和语义动态特征?动力学描述了HIN在其演化过程中节点和边的所有变化情况,包括节点的添加、边的删除等。因此准确捕捉动态特性对于研究时序HIN至关重要。而像DHNE等之前的大多数工作,通过简单的将时间划分为几个时期来使用快照对时序HIN进行建模,这会失去快照内的动态特性。

另一个挑战是如何捕捉异质节点之间的时序影响?不同于同质网络,HIN包含了多种类型的节点和边,因此它包含了更复杂的网络结构和更丰富的语义信息。例如在学术网络中,我们通常会考虑来自相同类型节点的时序影响(如作者-作者,或论文-论文)。此外,在HIN中,我们还应考虑来自不同类型节点的时序效应(如作者-论文)。但由于难以模拟异质节点之间的影响,以前的大多数工作如HDGAN、DyHNE仅考虑来自相同类型节点的时序影响。

为此我们提出了THINE,一种新颖的时序异质网络嵌入模型,用于捕捉所有类型节点之间的动态特征。我们首先定义各种元路径来捕捉HIN的语义和结构,再对于特定的下游任务,生成与任务相关的候选元路径集。通过使用Hawkes过程对节点之间的时序影响进行建模,我们获得了每个节点的低维嵌入。此外,还应用了两个级别的注意力机制来区分各个方面的权重。一种针对不同类型的元路径,一种针对邻居节点的距离。在各种真实世界数据集上的实验结果表明,与几种SOTA方法相比,我们的THINE在静态和动态任务中表现更好。

本文中我们的主要工作总结如下:

1、我们在时序异质信息网络嵌入问题中考虑了网络的演化动态特性;

2、我们提出了新的时序异质信息网络嵌入模型,该模型使用元路径来捕捉HIN中的结构信息和语义信息,并通过Hawkes过程来建模了网络的演化动态特性,同时应用了两个注意力层来分别捕捉不同的结构特征和语义特征。

3、进行了实验,结果表明在三个真实数据集上,THINE表现更好。

2、Preliminaries

一个HIN的演化可以视为在不同时间步上,节点或边的添加或删除。我们通常对时序HIN的定义如下:

定义1(时序HIN):一个时序HIN被定义为G=(V,E,T,\phi ,\varphi ),其中V为节点集,E为边集,T表示时间戳。此外有两个映射函数,\phi :V\rightarrow A,\varphi :E\rightarrow R,其中A和R分别表示节点类型集合和边类型集合。对于任意HIN,满足|A|+|R|>2

特别的,边e_{ij}^t\in E表示节点v_i与节点v_j在时间步 t 建立连边关系。值得注意的是,两个节点可能在不同时间建立多个关系。例如会议(C)可能会发表同一作者(A)的多篇论文,因此学术网络中A和C之间可能存在大量关系。

定义2(节点对的影响):节点对的影响表示两个节点对建立它们之间连边关系的贡献。给定一个节点对(v_i,v_j),其中v_i,v_j\in V,V为节点集,两节点的影响为\eta _{x,y},则:

\eta _{x,y}=-||u_x - u_y||^2        (1)

其中u_x,u_y分别表示节点v_x,v_y的嵌入表示。

定义3(元路径):给定一个时序HIN,G=(V,E,T,\phi ,\varphi ),元路径M是一个定义如下的路径:

其中r_i\in R,a_i \in A,A和R分别表示节点的类型和边的类型。显然,一个元路径被描述为一个类型为a_1到a_l的复杂关系。特别的,满足元路径M的节点序列(v_1,v_2,…,v_l)是元路径M的一个路径实例m。

定义4(候选元路径集):一个时序边e_{ij}^t\in E的候选元路径集S(t)是一个包含了所有涉及源节点v_i,并且在时间 t 之前生成的元路径实例的集合。请注意,在时间 t 之前形成的路径实例,意味着它包含的所有时序边都在时间 t 之前生成。

在本文中,我们的目标是在考虑时间动态的情况下获得多类型节点嵌入。 形式上,我们将问题定义如下:

问题:时序HIN嵌入:给定一个时序HING=(V,E,T,\phi ,\varphi ),目标是学习一个映射函数f:V\rightarrow R^d,其中 d<<|V|,且 d 表示嵌入维度。函数 f 不仅要捕捉到网络的演化时序动态特征,还需要考虑所有类型的节点间的相互影响。

3、The Propsed Model

3.1 Model Overview

在本节中,我们将解释我们提出的模型 THINE 的细节,它可以结合时间动态的影响来捕捉 HIN 的结构和语义。如图 1 所示,THINE 通过基于元路径的随机游走获得不同类型节点之间的结构交互。然后,我们获得每个边的候选元路径集,以使用 Hawkes 过程对时序 HIN 的动态结构和语义进行建模。此外,通过区分不同关系影响的结构级和语义级注意机制进行优化,我们聚合每个节点的效果以获得多类型节点嵌入。

3.2 THINE Model

使用元路径捕获语义。THINE 首先使用基于元路径的随机游走来提取 HIN 的信息。元路径的构建决定了我们可以捕捉到哪些语义和结构。因此,元路径的选择对于研究 HIN 至关重要。定义元路径的关键是包含尽可能多的语义。例如,对于学术网络,除了之前模型考虑的作者-论文关系的配对路径外,我们还考虑了论文-论文关系的元路径,写为APPA。总的来说,我们定义的元路径列在表 1 中。使用这些元路径,我们可以很好地保留 HIN 中的语义。此外,网络中的节点和边受节点本身和相关候选元路径集的影响。因此,基于节点对的影响,我们对候选集的影响进行建模以理解时序 HIN。

候选元路径集的建模动力学。此外,我们模拟候选元路径集的影响,以使用Hawkes过程捕获时序 HIN 的语义和结构。通常,Hawkes过程用于模拟过去事件对现在的影响。显然,事件越久,它们对当前的影响就越小。具体来说,对于THINE,我们对每一个影响都应用了Hawkes过程的关注。因此,候选元路径集的影响,以及所有相关元路径实例的影响,正式定义为:

其中 m 是一个元路径实例,t_m < t表示在时间 t 之前生成的元路径实例 m。为方便起见,我们使用\eta _i,i \in (s,m,e)来表示候选元路径集、一个元路径和一个时序边的影响。因此,\eta _s(t),\eta _m(t)和\eta _e(t)表示时间 t 之前的相应影响。因此我们需要对一个元路径实例\eta _m(t) 的影响进行初步建模,这可以被认为是它包含的所有边的影响。 因此,它被定义为:

其中e_{ij}表示节点 v_iv_j之间的一条边。一条边可以由它连接的两个节点表示。因此,我们通过使用节点对和霍克斯过程的影响来模拟一个时间边缘的影响,这意味着

其中t_{i,j}表示边缘e_{ij}^t的时间戳,k(t-t_{i,j})描述了时间衰减效应,我们定义 k(t-t_{i,j})=e^{(-\sigma _i(t-t_{i,j}))}。 δ 是与节点相关的可训练参数,用于调整时间衰减效果的比例。

请注意,由于计算复杂性,我们选择候选元路径集的子集进行训练。具体来说,我们选择从时间 t 最近生成的 n 个元路径实例,n 是一个超参数。很可能,对于一个元路径实例,我们选择最接近源节点的 z 个候选边进行训练,z 也是一个超参数。

使用注意力机制优化。我们展示了THINE如何计算候选元路径集的详细过程。如图1(c)所示,边e_{a_3p_4}^t的候选元路径集包含m_1:(a_1,p_2,c_1,p_3,a_3),m_2:(a_2,p_3,a_3)等。因此\eta _s(t)=\eta _{m_1}(t)+\eta _{m_2}(t)。显然m_1m_2是由不同元路径APCPA和APA生成,它们将影响不同的任务。为了捕捉这种微妙的区别,我们应用了语义级注意机制。形式上,我们定义不同类型元路径的权重如下:

其中 c 是任务中定义的所有元路径的集合,\omega _b 表示第 b 个元路径的权重。考虑到不同元路径的语义,我们将候选元路径集的影响重新表述为:

其中\omega _M为元路径M的权重,而元路径实例m属于M。根据上述定义,\eta _{m_1}(t)=\eta _{e_{a_1p_2}}(t)+\eta _{e_{p_2c_1}}(t)+\eta _{e_{c_1p_3}}(t)+\eta _{e_{p_3a_3}}(t)。显然,由于训练边e_{a_3p_4}^t的跳数,每条边的影响应该是不同的。因此,使用结构级别的注意力机制来捕捉这种差异,我们将与跳数相关的权重表示为:

其中h_{oq}表示边e_{oq}到源节点的跳数,第h_{oq}跳的权重表示为\theta _{h_{oq}}z^/正相关于候选边 z 的数量。即一个元路径实例的影响可重新定义为:

通过元路径、两级注意力机制和霍克斯过程,我们对每个时序边的演化进行建模。通过这种方式,THINE 能够在静态和动态网络中获得具有保留语义和结构的多类型节点嵌入。基于以上公式,我们定义条件强度函数\tilde{\lambda } _{x,y}(t)来表示在时间 t 处节点v_xv_y之间生成时序边的强度:

\tilde{\lambda } _{x,y}(t)=\eta _{x,y}+\eta _s(t)=\eta _{x,y}+\sum_{t_m<t} (\omega _M\times \sum_{e_{ij}\in m}\theta _{h_ij}\times \eta _{e_ij}(t))    (9)

因为条件强度函数应该返回一个正实数,因此使用指数函数来转换\tilde{\lambda } _{x,y}(t),即有{\lambda } _{x,y}(t)=exp(\tilde{\lambda } _{x,y}(t)){\lambda } _{x,y}(t)取值为0到1,表示节点v_xv_y之间建立连边的概率。

损失函数:因此,我们可以表示在时间 t 节点v_xv_y之间建立连接的概率。特别是,考虑到时间 t 之前的条件强度函数和候选元路径集 S(t),我们将这个概率定义为

其中y^/表示时序 HIN 中除v_x 之外的所有节点,所有节点对的对数似然可以表示为:

显然,p(v_x,v_y|S(t))的计算需要汇总全网节点的信息。我们应用负采样技术使我们的模型降低计算开销。所以损失函数可以重新表述为:

其中K为根据P_n(v)采样到负样本个数,P_n(v)正相关于d_v^{3/4},且d_v表示节点 v 的度。\sigma 为sigmoid函数,表示为\sigma (x)=\frac{1}{1+e^{-x}} 。最后,我们通过Adam方法优化模型。

4、Experiments and Discussions








©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容