图神经网络自监督学习工具箱 - AD-GCL(二)

文章名称

【NeurIPS-2021】【Purdue University/Georgia Tech/Microsoft Research】Adversarial Graph Augmentation to Improve Graph Contrastive Learning

核心要点

文章旨在解决现有图对比学习方法因随机(或者说没有针对性的)图增广,而造成学习到一些冗余的、不可靠的内在联系,进而导致学习得到的GNN在下游任务上效果不佳。作者提出了AD-GCL框架,利用对抗的方法学习图增广策略,并从理论上证明了这一方法的可行性。并基于此框架,对抗的学习edge-dropping图增广方法。

上节介绍了作者的研究背景和AD-GCL的框架,本节继续介绍AD-GCL的具体实例。

研究背景

图神经网络对比学习通过拉近经过不同图增广后的图(节点)表示来利用无标注数据进行自监督学习。采用适当的自监督学习任务至关重要(其实作者这里更偏重于损失函数的选取),不同的自监督学习任务会促使GNN从图数据中捕获不同的信息,任务的类型和参数选择严重影响学习到的向量表示在下游任务的表现。然而,现有的基于InfoMax的自监督方法容易学习到一些冗余的、不鲁邦的信息,导致GNN的效果并不是最优的[40]。而Information Bottleneck则能迫使GNN学习下游任务所需的最小的信息[41]。同时图增广方法是图自监督学习的重要组成部分,如何在训练时自适应的调整图增广方法,也是图(自动)自监督学习任务的核心目标之一。基于此,作者提出了AD-GCL框架。

方法细节

图对比学习

如上所述,一些GCL采用Graph Data-Augmentation的思路来扰动图数据,减少不必要的噪声期望扰动后的视图保留了核心信息,并利用InfoMax通过拉近扰动后向量表示的距离,来学习这种信息,其具体形式如下图所示。其中,{t}^{}_{i}, {T}^{}_{i}分别表示采用的图增广方法和增广方法的全集。

GDA-GCL

可以看出,为了保证增广后的向量表示彼此是真的相近,换句话说,真的只去掉了redundant信息,而没有引入额外的错误或噪声,需要大量的验证(trial and error)和领域知识。

AD-GCL

为解决上述问题,作者提出了AD-GCL框架,该框架基于graph information bottleneck(GIB)。原有方法[47, 48]采用的GIB目标函数如下图所示。其中,I表示两个随机变量的互信息。f是上述GNN,用来得到图的向量表示。

GIB objective

AD-GCL edge dropping

如上所述,AD-GCL的max部分,期望学习到的GNN {f}^{}_{\Theta}能够最大化原始图G和其扰动图{t}(G)的互信息,而min部分则不断地调整{T}^{}_{\Phi},并从这个参数化的GDA中采样t,使得上述互信息最小。

作者采用参数化的edge-dropping增广方法作为{T}^{}_{\Phi}。作者强调,AD-GCL可以同样应用于其他GDA,比如node-dropping等,只不过,如上所述,AD-GCL的结论2要求尽可能的和下游任务保持足够的互信息,并且很多下游任务(分子节点分类)都只需要结构信息,而edge-dropping对结构信息的噪声最小,所以作者选择这个增广方法。但其他的任务同样可以。

并且作者还强调,这个这种利用下游任务的一些信息来选择大的方向并不意味着利用领域知识来设计GDA,因为{T}^{}_{\Phi}仍然很宽泛,而且具体GDA(参数)还需要优化。此外,实验表明AD-GCL with edge-dropping在社交网络分类和分子属性回归方面的效果也非常好(看到这里时,刚想吐槽,这不是用了下游任务么,就被作者怼回来了,总之就是没用下游信息)。

作者提出的AD-GCL of edge-dropping的整体框架如下图所示,其中包含2个GNN模型{f}^{}_{\Theta},GNN-augmenter,以及两个MLP模型{MLP}^{}_{w_e}, g,并且GNN-augmenter{MLP}^{}_{w_e}共同组成了{T}^{}_{\Phi}

AD-GCL of edge-dropping

而对于{T}^{}_{\Phi},有包括2个重要的建模步骤,

  • Parameterizing {T}^{}_{\Phi}。如上所述,包括GNN-augmenter{MLP}^{}_{w_e}两部分,GNN-augmenter是GNN模型,与f_\Theta一样用来学习图的向量表示。不同的是,该模型得到的向量表示将交给{MLP}^{}_{w_e}得到edge-dropping的权重{w}^{}_{e},该权重用来模拟伯努利分布,也就是drop某一条边e的概率。具体流程如下图所示。

    dropping weighting
  • Regularizing {T}^{}_{\Phi}。由于没有下游的标签,不能直接GIB。但是,从上述理论1中可以理解,本质就是要求与下游任务具有更多的互信息呗。而尽可能的少drop掉边可以保留更多的与下游任务相关的信息。因此,作者加入了drop边的比例的正则项,即\sum_{e \in E}^{}{\frac{{w}^{}_{e}}{|E|}}{}。因此,整个min-max的目标函数如下图所示。

    total loss

这里作者采用InfoNCE[40, 59, 62]来进行对比学习,采用in-batch negative sampling。具体公式如下图所示。

InfoNCE

代码实现

AD-GCL的伪代码如下图所示。

algorithm of AD-GCL

心得体会

GDA-GCL的核心

个人感觉,GDA-GCL的核心是如何找到合适的增广方法,确保能够去掉作者提到的redundant information,并且不会引入误差或损失有用信息。 但似乎,现在的GCL方法并没有深入讨论方法是否会引入噪声,虽然有点方法会利用某种方式自动调节图增广,算是指导增广方法不要引入过多噪声,但是并没有形式化的界定和讨论,都需要靠大量的试验和专业知识来保证可靠。

下游信息和GDA Family

作者表示,GDA是参数化的,所以有个GDA Family的概念,下游任务的一些信息可以被用来选择这个Family(个人理解是个GDA的大方向),但是参数还需要人工优化,调整或实践。所以AD-GCL是自动化的,没有利用下游任务信息的。

个人理解,这里可能的局限是,不论怎么调参GDA Family是确定的,没法像等方法那样,在多个GDA Family上做组合。

不过,问题在于,AD-GCL的理论是完备的,并且详细的论证了与下游任务互信息的关系,以及如何确保不引入过多的冗余信息。因此,在单独一个GDA Family上是更优的。

或者可以理解为两类方法的侧重点不同。作者也在附录里对比了AD-GCL和JOAO[70],效果还是优于JOAO的。

理论和实际应用

个人感觉,文中对理论过渡到讲解并不详细,并且理论分析中Y是假设有的,但是没有的时候具体会不会影响或者影响有多少正文里没有讨论,只是说可以没有。也许需要细致的读一下附录。

文章引用

[39] R. Linsker, “Self-organization in a perceptual network,” Computer, vol. 21, no. 3, pp. 105–117, 1988.

[40] M. Tschannen, J. Djolonga, P. K. Rubenstein, S. Gelly, and M. Lucic, “On mutual infor�mation maximization for representation learning,” in International Conference on Learning Representations, 2020.

[47] T. Wu, H. Ren, P. Li, and J. Leskovec, “Graph information bottleneck,” in Advances in Neural Information Processing Systems, 2020.

[48] J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He, “Recognizing predictive substructures with subgraph information bottleneck,” International Conference on Learning Representations, 2021.

[59] A. v. d. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,” arXiv preprint arXiv:1807.03748, 2018.

[62] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International Conference on Machine Learning. PMLR, 2020, pp. 1597–1607.

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容