基于标注提升的ID-GNN: Identity-aware Graph Neural Networks

今天学习斯坦福2021年Jure Leskovec发表在AAAI的工作《Identity-aware Graph Neural Networks》

由Jure Leskovec组 2019 年的工作《How Powerful are Graph Neural Networks?》证明GNN 算法的表达能力,具有与 Weisfeiler-Lehman 图同构测试一样的表达上限,是不适用于计算集聚系数(cluster coefficient),求图内最短距离问题,判断d-regular图的区别任务的。

本文提出选取中心节点,并通过多轮对异构图中中心节点进行message passing操作的模型ID-GNN,以求其表现能力超越WL-test,并基于此模型提出了一版简化过更快的,可以增强节点特征的ID-GNN网络。

实验效果表明,link prediction的AUC及ROC提升15%,图/节点分类提升3%。

  • WL限制内的GNN网络是什么样子的,为什么不适合以上三种问题?
  • WL test是什么?
  • d-regular图是什么?

预测节点分类相关系数,求图内最短距离问题,判断d-regular图的区别任务的问题介绍和实际效果。

1. Introduction


由于GNN受限于1度WL, 最近一些工作,提出模型解决了此类问题。其中包括Ring-GNN, Relative Pool GNN 和G-invariant networks,但他们都受限于复杂度的增长

  • (为什么?受限于1度WL,证明部分中区别是什么)

作者提出ID-GNN, 不同于聚合更新,他采用Message Passing做更新,并且提出简版的ID-GNN模型, 加入“图环计算”(cycle counts)用于增强节点信息。其计算由邻接矩阵的次方实现,计算效率较高。

本文有以下贡献

  • 证明了message passing表示能力超过WL test
  • 从理论和实验验证了ID-GNN的解集大于GNNs
  • 证明了GNN在实际问题的局限,做了case study

2. 前情提要


2.1 同构图测试(WL-test)与 GIN


Weisfeiler-Lehman(WL) test是判断两个graph 是否具有相同的结构(同构)的有效方法

GNN的目标是以图结构数据和节点特征作为输入,以学习到节点(或图)的embedding,用于分类任务。基于邻域聚合的GNN可以拆分为以下三个模块:

  • Aggregate:聚合一阶邻域特征。
  • Combine:将邻居聚合的特征 与 当前节点特征合并, 以更新当前节点特征。
  • Readout(可选):如果是对graph分类,需要将graph中所有节点特征转变成graph特征。

前文定理得:

  • 如果GNN中Aggregate、Combine 和 Readout 函数是单射,GNN可以和WL test 一样强大。

  • 基于mean、max aggregate的GNN 不如基于sum aggregate的结构表示性能强大。

h_v^{(k)} = \mathbb{M}LP^{(k)}((1+\epsilon^{(k)}) \cdot h_v^{(k-1)} + \sum_{u\in N_v} h_v^{(k-1)} ) \tag{1}

2.2 d-正则图(d-regular graph)


什么是d-正则图。

无向图中的正则图为中每个顶点具有相同数量的邻点; 即每个顶点具有相同的度。 正则的有向图中每个顶点的内外自由度都要彼此相等。并且满足,边的个数E = \frac{n*d}{2}, 其中n为节点个数,d为节点度数

图1. $d=2$的正则图

不同于完全图,边的个数E = \frac{n*(n-1)}{2},每个顶点度为n-1

由此,k正则图存在的必要和充分条件是n≥k+1

2.3 集聚系数(cluster coefficient)


节点局部集聚系数定义为,对图中具体的某一个点,它的局部集聚系数 C_i表示与它相连的点抱成(完全图/ clique/ complete graph)的程度。

左图与中心点连接的三个点,相互之间的连接边个数为3,则集聚系数 $C_i=1$

在无向图中,其计算公式为:
C_i = \frac{|e_{jk} \in N_i, e_{jk} \in E|}{\frac{k_i(k_i)-1}{2}}\tag2

3. Preliminaries


3.1 ID-GNN


归纳式(inductive)的颜色标注

从中心点v出发,选择他们的K-hop节点集合G_v^K, 并在这个集合网络中标注中心点v的颜色,如下图最左节点分类中所示

上图中可以看出,在这三类任务中,给原始节点标注颜色在massage passing建立树的过程中,是可以区分图结构,并进行有效标注的

异构图的信息传导(message passing)

\mathbb{M}SG(\cdot)有两种使用情景,当此点被颜色标注过使用下标为1[s=v]\mathbb{M}SG(\cdot)网络,反之下标为0[s=v]

m_s^{(k)} = \mathbb{M}SG_{1[s=v]}^{(k)} (h_s^{(k-1)}) \\ h_u^{(k)} = \mathbb{A}GG^{(k)}([m_s^{(k)},s \in N(u) ], h_u^{(k-1)}) \tag{3}

Proposition 1:当\mathbb{M}SG_1(\cdot) = \mathbb{M}SG_0(\cdot)时,是一个没有原始节点颜色标注的网络,如公式4,根据前情提要,此公式为公式1的变形。由此可见ID-GNN和GIN一样是可导的。
m_s^{(k)} = \mathbb{M}SG^{(k)} (h_s^{(k-1)}) \\ c = \mathbb{A}GG^{(k)}([m_s^{(k)},s \in N(u) ], h_u^{(k-1)}) \tag{4}

添加边信息(edge attribute)

边信息为f_{su}, 将其加入网络中

m_s^{(k)} = \mathbb{M}SG_{1[s=v]}^{(k)} (h_s^{(k-1)}, \pmb{f_{su}}) \\h_u^{(k)} = \mathbb{A}GG^{(k)}([m_s^{(k)},s \in N(u) ], h_u^{(k-1)}) \tag{5}

Proposition 2:添加了图环计算(cycle count),对于中心点v在embedding网络h_u^{(k)}上,添加了一维特征j,其中h_u^{(k)}[j]表示了中心点v出发并截至至中心点v,长度为j环的个数, j\in (1,k)

ID-GNN-Fast
该网络的增强ID-GNN-Fast,基于对图环计算(cycle count)计算的改进。由于使用稀疏矩阵,可以使得图环计算变得更快,该图环特征x_v ^{+}\in R^k, x_v ^{+}[k] = Diag(A^k)[v],其中A为邻接矩阵。

tips: 邻接矩阵乘法的特殊意义,其对角矩阵为对应节点的环个数。
A^n-A^{(n-1)}为节点的n-hop邻居位置。但此方法有弊端在于内存占用过高。

3.2 Case study


节点层面:预测聚类系数

本例中,输入节点one-hot特征,由公式2得,在此情境下:

C_v = \frac{h_v^{(k)}[3]}{h_v^{(k)}[2]*h_v^{(k)}[2]-1}\tag6

由此,C_v是一个连续函数,依据Universal Approximation,当网络为MLP时满足近似率为\epsilon

边层面:预测可达最短路径

由一对顶点预测其最短路径的方法,基于条件节点embedding:在G中的节点u对于节点vK-hop可达,则存在 h_{u|v}^{K}=1

m_{u|v}^{k}= \begin{cases} 1& \text{if 1[s=v]=1}\\ h_{u|v}^{k-1}& \text{else} \end{cases} \\ h_{u|v}^{k}= \mathbb{M}AX(m_{u|v}^{k}, s\in N_u) \tag{7}

图层面:分辨d度-正则图

依据Proposition 2对图环的计算,ID-GNN的正则图判定效率如下:

在节点大小为n,正则度为d的情况下

4. Experiments


实验结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容