图神经网络自监督学习工具箱 - PGCL(一)

文章名称

【Arxiv-2021】【Sun Yat-sen University/Sea AI Lab/Tencent Jarvis Lab,】Prototypical Graph Contrastive Learning

核心要点

文章旨在解决现有图神经网络依赖标注数据,而图对学习方法采用均匀采样负样本的方式导致负样本可能存在与正样本具有相同语义信息的问题,提出PGCL方法,利用聚类的方法寻找样本的聚类中心(文章中每个图是一个样本),拉近不同图增广视图下,同聚类中的样本的向量表示。在构造负样本时只从与目标样本属于不同类别的聚类中采样。并且,利用聚类中心的距离对样本进行加权。

研究背景

为了解决对标注样本的依赖,许多图算法被提出,通过对比不同增广视图下的样本向量表示,学习可迁移的、鲁棒的向量表示。然而,作者认为现有图对比学习方法,存在两个问题,

  • 现有方法主要侧重于建模样本级别的结构相似性,并没有显示的建模图数据中整体结构的差异(其实就是区分局部结构在整体网络中的差别,也就是不同的聚类)。
  • 通过均匀随机负采样得到的负样本,很可能在不经意的情况下,语义上与目标样本相同。具体案例如下图Figure1所示,其中,fasle negative与目标样本具有相同的六边形环结构,因此,其实是“right positive”。这样的负样本会导致向量空间中本应该被拉近的点被推远,因而降低了模型性能[15]。


    sampling bias

方法细节

Prototypical Graph Contrastive Learning

PGCL的整体框架如下图所示。与现有的图对比学习方法一样,采用两个不同的图增广方法{T}^{}_{1}, {T}^{}_{2}对原始图数据进行增广,并得到两个增广后视图{G}^{}_{i}, {G}^{\prime}_{i}。随后,经过共享的GNN网络{f}^{}_{\theta}得到对应的向量表示{z}^{}_{i}, {z}^{\prime}_{i}。PGCL利用如下2个核心策略提升对比学习的效果。

framework of PGCL
  • Clustering Consistency for Correlated Views。通过GNN模型,可以得到给定图数据{G}^{}_{i}的向量表示{z}^{}_{i} = {f}^{}_{\theta}({G}^{}_{i})。利用随机初始化的K个聚类中心向量(后续会通过优化目标一起学习),{C}^{}_{} = \{ {c}^{}_{1},\ldots, {c}^{}_{k}, \ldots, {c}^{}_{K} \},可以计算出{z}^{}_{i}与每个聚类中心的相似程度,进而得到该样本属于其中一个聚类中心的概率,具体计算公式如下图所示。

    clustering assignment

    同理,可以得到另一个视图下样本属于每个聚类中心的概率,{p}^{}_{}(y | {z}^{\prime}_{i})。使得聚类分配统一,即使得两种视图下,概率分布近似一致。作者利用交叉熵损失优化这一目标,具体公式如下图所示。其中,为了区分两种视图的分配概率作者用{q}(y|{z}^{\prime}_{i})表示{z}^{\prime}_{i}的分配概率。

    Clustering Consistency Objective

    显然,这里是不对称的,可以通过交换{z}^{}_{i}, {z}^{\prime}_{i}实现对称的游湖目标。

    total consistency objective

    作者表示,这个优化目标可以视作通过对比不同视图间聚类分配的方法实现对比学习,而不是对比节点的表示。然而,优化上述目标会有平凡解的问题。例如,把所有节点都聚类到同一个聚类中心里。为了避免这个问题,作者引入约束条件,迫使聚类中包含的样本个数趋于平均(一致),也就是每个聚类的大小一致[29]。

    total consistency objective with equally partitioned constraint

    值得注意的是,均匀聚类分配是相对每个mini-batch而言的,N是mini-batch的大小。 但由于平均分配约束的存在该问题变成了一个组合优化问题,难以求解,因此作者基于[27,29],利用optimal transport问题的解法,将矩阵Q = \frac{1}{N}{q}(y| {z}^{}_{i})约束为transportation polytope,转化约束目标。具体约束可以形式化为如下图所示的形式。其中\boldsymbol{1}^{}_{N}, \boldsymbol{1}^{}_{K}分别表示长度为N, K的全1向量。

    transportation polytope

    改写的优化目标如下图所示,其中P = \frac{1}{N}{p}(y| {z}^{}_{i})<\cdot>表示Frobenius dot-product。

    rewrite objective

    作者利用Sinkhorn-Knopp algorithm[41]快速求解transport problem。其中{\alpha}^{}_{}, \beta是两个renormalization vectors,通过迭代Sinkhorn-Knopp算法[41]使用少量矩阵乘法计算得到。\eta用来平衡收敛速度和结果的最优性作者提到,这个指数操作是element-wise的

    solution of transport problem using Sinkhorn-Knopp algorithm

本节介绍了作者的研究背景和思路,以及如何利用聚类consistency进行对比,下节继续介绍reweithed的做法。

心得体会

聚类先验

其实很多文章提到[*1](LP这篇引用了当前这篇文章,后续也絮叨一下LP这篇)图增广(更准确应该说数据增广就是在引入先验知识。所以,从这个角度来说,文章做的聚类就是在引入某种角度下的先验,其实有点类似深度聚类,利用聚类标签指导监督学习。

这里存在两个值得讨论的地方,

  • 如何寻找聚类先验?
  • 聚类先验是否可靠?

作者采用引入随机初始化的聚类中心向量,并依据深度聚类的方法,共同学习聚类中心和编码器。文中作者表示可以直接把聚类中心当做Linear层的权重矩阵实现,因为是要和编码器学习的向量表示做矩阵相乘。

但是,作者的聚类是在mini-batch里做,并没有像没有想其他deep clustering的方法一样提纯聚类标签。并且,这样的做法和SimCLR等方法一样,需要较大的batch size(作者在消融实验里也提及了batch size的敏感度)。

平均分割

作者要求样本被聚类平均分割,个人感觉,这种做法符合最大熵原理,并且主要是为了消除平凡解。但是,这里的假设是不知道聚类中样本的比例大概是多少。如果可以用一些简单的聚类确定大致的聚类数量以及每个聚类下样本的个数,是否也可以在要求聚类不是平均分配的呢?

值得商榷的地方

如果没理解错,\boldsymbol{C}^{}_{}的dimension好像写错了。如果每列是一个聚类中心的话,\boldsymbol{C}^{}_{} \in {R}^{D \times K}_{}

case

此外,吹毛求疵的觉得不同的Augmentation view应该和数据对上,比如T, {T}^{\prime}_{}...

文章引用

[15] Ching-Yao Chuang, Joshua Robinson, Lin Yen-Chen, Antonio Torralba, and Stefanie Jegelka. Debiased contrastive learning. NeurIPS, 2020.

[27] Yuki Markus Asano, Christian Rupprecht, and Andrea Vedaldi. Self-labelling via simultaneous clustering and representation learning. ICLR, 2020.

[29] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. Unsupervised learning of visual features by contrasting cluster assignments. NeurIPS, 2020.

[41] Marco Cuturi. Sinkhorn distances: Lightspeed computation of optimal transport. NeurIPS, 26:2292–2300, 2013.

[*1] You, Yuning, Tianlong Chen, Zhangyang Wang and Yang Shen. “Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations.” Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining (2022): n. pag.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容