图神经网络自监督学习工具箱 - PT-HGNN(二)

文章名称

【KDD-2021】【Beijing University of Posts and Telecommunications/Singapore Management University】Pre-training on Large-Scale Heterogeneous Graph

核心要点

文章旨在解决现有图预训练任务只针对同构图的问题,提出了大规模异构图预训练框架PT-HGNN,利用节点级别和子图级别的预训练任务进行对比学习,并将学习到的语义知识和结构特性迁移到下游任务。为了适应大规模数据,作者还提出了基于异构图的Personal PageRank,来增加训练速度。

下节介绍了作者研究的问题背景和节点层级的预训练任务,本节继续介绍子图级别的预训练任务和加速大规模图训练的方法。

研究背景

如前所述,在进行异构图学习是挑战包括,

  • 如何在设计方法学习异构图中各类型节点的特征和语义差异,例如节点的出入度差异等。并利用对比是学习将这种特性encode到图节点的向量表示中。
  • 如何设计方法快速的学习大规模图数据中的上述特性。

方法细节

方法架构

PT-HGNN的整体框架如下图所示,大致可以分为3个主要的阶段,采用2种预训练任务进行pre-train,


framework of PT-HGNN
  • Schema-level Pre-training Task。节点级预训练任务只能捕获节点之间的一阶语义(直接相连)。因此,作者采用模式级预训练任务,来捕捉高阶语义和结构信息。一种常用的做法是meta-structures[7, 27] 和 motif,但是该类方法存在3个问题,

    • 由于只采用了某种原路径下的结构,元路径对复杂高阶结构信息的表达能力相对有限。而motif只能捕获高级结构但对语义捕获能力有限(这里有一点不太理解原因,看来需要补课motif)。
    • 在大规模的图网络中高效的发现meta-structure或motif是非常具有挑战的。
    • 选取原路径和原结构需要依赖领域知识。

    作者表示,异质图网络的schema是在捕获高阶语义和结构特性时具有得天独厚的优势(个人理解,是因为本身异质图就是依赖schema生成的)。并且不需要特殊的领域知识(因为schema,是可总结和抽象的)。利用Schema可以快速的从原始输入中采样样本(照着schema怼)。

    • Schema下正样本生成。作者表示,直接利用schema随机生成正样本,会造成节点不平衡的问题,例如,会议这种类型的节点,度比较大,可能会被多次采样。因此作者限制了每个类别下被采样的schema样本的数量。给定上图Figure 1中子图a中的schema,其中某个schema实例是\{{p}^{}_{1}, {a}^{}_{1}, {f}^{}_{1}, {v}^{}_{1}, {p}^{}_{3} \}。从该schema实例中可以构造出多个正样本对。例如,以{p}^{}_{1}为目标节点,则正样本对中的另一个节点,可以是{a}^{}_{1}, {f}^{}_{1}, {v}^{}_{1}, {p}^{}_{3}的任意一个节点,这个节点被称之为上下文节点。因此。正样本对可以形式化为如下图所示的公式。其中,u表示目标节点,\boldsymbol{s}^{}_{}表示如上所述的一个schema实例。而{{I}^{}_{}}(u)表示所有包含u的schema实例集合。

      schema positive pair
    • Schema下负样本生成。作者采用2种方式生成针对目标节点u的负样本。

      • 同类型但不同节点为target的不同schema,具体的逻辑可以形式化为如下图所示。其中,\mathcal{V}^{}_{B}表示一个batch中的所有节点。Schema负样本来自该batch中与目标节点{u}^{}_{}具有相同节点类型的其他节点{u}^{-}_{}的context \mathcal{P}^{sche}_{u^-}。例如,Figure 1中子图b,u可能是{p}^{}_{1}{u}^{-}_{}可能是{p}^{}_{2}\mathcal{P}^{sche}_{u^-}就可能包含{a}^{}_{3}

        negative schema sample of diffferent instance with the same node type
      • 采用队列(memory bank)[10]利用上一个batch的正样本,其具体逻辑可以形式化为如下图所示。其中,\mathcal{V}^{t-1}_{B}表示一个上一个batch中的所有节点。从中选取与目标节点u具有同样类型的节点v作为负样本。作者表示这种方法构造的负样本更不容易被区分,可以被认为是更hard的negative sample。

        negative schema sample of previous batch with the same node type

      最终schema级别的负样本集合是上述两种方法的并集。

      schema level negative samples

      在训练模型时,为了能够反映不同类型阶段的语义信息,作者对不同节点类型{\phi}(v)设计了单独的encoder。

      schema-level node encoder

      对于目标节点u,其上下文表示通过对目标节点的所有上下文节点做pooling得到,具体逻辑可以形式化如下图所示。

      schema-level context node embeding

      最终schema-level的对比学习目标如下图所示。其中,\tau为temperature参数。

      schema-level loss

本节介绍了子图级别的预训练任务,下节继续介绍加速大规模图训练的方法。

文章引用

[1] AleksandarBojchevski,JohannesKlicpera,BryanPerozzi,AmolKapoor,Martin Blais, Benedek Rózemberczki, Michal Lukasik, and Stephan Günnemann. 2020. Scaling graph neural networks with approximate pagerank. In KDD. 2464–2473.

[7] Yuan Fang, Wenqing Lin, Vincent Wenchen Zheng, Min Wu, Kevin Chen-Chuan Chang, and Xiaoli Li. 2016. Semantic proximity search on graphs with metagraph- based learning. In ICDE. 277–288.

[10] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2020. Mo- mentum contrast for unsupervised visual representation learning. In CVPR. 9729– 9738.

[27] Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S. Yu, and Tianyi Wu. 2011. Path- Sim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB. 992–1003.

[28] Aäron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. arXiv preprint arXiv:1807.03748 (2018).

[*1] Pedersen, Lilian, Francisco Rodríguez and Fernando for Secretaria de Transporte Brunstein. “Manual de manejo ambiental y social.” (2007).

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容