文章名称

【KDD-2021】【Beijing University of Posts and Telecommunications/Singapore Management University】Pre-training on Large-Scale Heterogeneous Graph

核心要点

文章旨在解决现有图预训练任务只针对同构图的问题，提出了大规模异构图预训练框架PT-HGNN，利用节点级别和子图级别的预训练任务进行对比学习，并将学习到的语义知识和结构特性迁移到下游任务。为了适应大规模数据，作者还提出了基于异构图的Personal PageRank，来增加训练速度。

下节介绍了作者研究的问题背景和节点层级的预训练任务，本节继续介绍子图级别的预训练任务和加速大规模图训练的方法。

研究背景

如前所述，在进行异构图学习是挑战包括，

如何在设计方法学习异构图中各类型节点的特征和语义差异，例如节点的出入度差异等。并利用对比是学习将这种特性encode到图节点的向量表示中。
如何设计方法快速的学习大规模图数据中的上述特性。

方法细节

方法架构

PT-HGNN的整体框架如下图所示，大致可以分为3个主要的阶段，采用2种预训练任务进行pre-train，

framework of PT-HGNN

Schema-level Pre-training Task。节点级预训练任务只能捕获节点之间的一阶语义（直接相连）。因此，作者采用模式级预训练任务，来捕捉高阶语义和结构信息。一种常用的做法是meta-structures[7, 27] 和 motif，但是该类方法存在3个问题，

由于只采用了某种原路径下的结构，元路径对复杂高阶结构信息的表达能力相对有限。而motif只能捕获高级结构但对语义捕获能力有限（这里有一点不太理解原因，看来需要补课motif）。

在大规模的图网络中高效的发现meta-structure或motif是非常具有挑战的。

选取原路径和原结构需要依赖领域知识。

作者表示，异质图网络的schema是在捕获高阶语义和结构特性时具有得天独厚的优势（个人理解，是因为本身异质图就是依赖schema生成的）。并且不需要特殊的领域知识（因为schema，是可总结和抽象的）。利用Schema可以快速的从原始输入中采样样本（照着schema怼）。

Schema下正样本生成。作者表示，直接利用schema随机生成正样本，会造成节点不平衡的问题，例如，会议这种类型的节点，度比较大，可能会被多次采样。因此作者限制了每个类别下被采样的schema样本的数量。给定上图Figure 1中子图a中的schema，其中某个schema实例是 $\{{p}^{}_{1}, {a}^{}_{1}, {f}^{}_{1}, {v}^{}_{1}, {p}^{}_{3} \}$ 。从该schema实例中可以构造出多个正样本对。例如，以 ${p}^{}_{1}$ 为目标节点，则正样本对中的另一个节点，可以是 ${a}^{}_{1}, {f}^{}_{1}, {v}^{}_{1}, {p}^{}_{3}$ 的任意一个节点，这个节点被称之为上下文节点。因此。正样本对可以形式化为如下图所示的公式。其中， $u$ 表示目标节点， $\boldsymbol{s}^{}_{}$ 表示如上所述的一个schema实例。而 ${{I}^{}_{}}(u)$ 表示所有包含 $u$ 的schema实例集合。

schema positive pair

Schema下负样本生成。作者采用2种方式生成针对目标节点 $u$ 的负样本。

同类型但不同节点为target的不同schema，具体的逻辑可以形式化为如下图所示。其中， $\mathcal{V}^{}_{B}$ 表示一个batch中的所有节点。Schema负样本来自该batch中与目标节点 ${u}^{}_{}$ 具有相同节点类型的其他节点 ${u}^{-}_{}$ 的context $\mathcal{P}^{sche}_{u^-}$ 。例如，Figure 1中子图b， $u$ 可能是 ${p}^{}_{1}$ 而 ${u}^{-}_{}$ 可能是 ${p}^{}_{2}$ ， $\mathcal{P}^{sche}_{u^-}$ 就可能包含 ${a}^{}_{3}$ 。

negative schema sample of diffferent instance with the same node type

采用队列（memory bank）[10]利用上一个batch的正样本，其具体逻辑可以形式化为如下图所示。其中， $\mathcal{V}^{t-1}_{B}$ 表示一个上一个batch中的所有节点。从中选取与目标节点 $u$ 具有同样类型的节点 $v$ 作为负样本。作者表示这种方法构造的负样本更不容易被区分，可以被认为是更hard的negative sample。

negative schema sample of previous batch with the same node type

最终schema级别的负样本集合是上述两种方法的并集。

schema level negative samples

在训练模型时，为了能够反映不同类型阶段的语义信息，作者对不同节点类型 ${\phi}(v)$ 设计了单独的encoder。

schema-level node encoder

对于目标节点 $u$ ，其上下文表示通过对目标节点的所有上下文节点做pooling得到，具体逻辑可以形式化如下图所示。

schema-level context node embeding

最终schema-level的对比学习目标如下图所示。其中， $\tau$ 为temperature参数。

schema-level loss

本节介绍了子图级别的预训练任务，下节继续介绍加速大规模图训练的方法。

文章引用

[1] AleksandarBojchevski,JohannesKlicpera,BryanPerozzi,AmolKapoor,Martin Blais, Benedek Rózemberczki, Michal Lukasik, and Stephan Günnemann. 2020. Scaling graph neural networks with approximate pagerank. In KDD. 2464–2473.

[7] Yuan Fang, Wenqing Lin, Vincent Wenchen Zheng, Min Wu, Kevin Chen-Chuan Chang, and Xiaoli Li. 2016. Semantic proximity search on graphs with metagraph- based learning. In ICDE. 277–288.

[10] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2020. Mo- mentum contrast for unsupervised visual representation learning. In CVPR. 9729– 9738.

[27] Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S. Yu, and Tianyi Wu. 2011. Path- Sim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB. 992–1003.

[28] Aäron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. arXiv preprint arXiv:1807.03748 (2018).

[*1] Pedersen, Lilian, Francisco Rodríguez and Fernando for Secretaria de Transporte Brunstein. “Manual de manejo ambiental y social.” (2007).

图神经网络自监督学习工具箱 - PT-HGNN（二）