以下内容纯属个人见解,欢迎大家交流。
发布于2020 NIPS
1 motivation
1.1 问题
1)当前的GNN都容易over-smoothing
2)因为大多数gnn采用确定性传播,gnn通常不具有鲁棒性。当然,确定性传播使得每个节点高度依赖于它的(多跳)邻居,使得节点很容易被潜在的数据噪声误导,并容易受到敌对的干扰。
3)半监督学习的一般设置,其中标准的训练方法(用于GNNs)很容易过度拟合稀缺的标签信息,解决这一广泛问题的大部分努力都集中在如何充分利用大量未标记数据。
1.2 解决方法
在这项工作中,我们通过设计用于半监督学习的图数据增强和一致性正则化策略来解决这些问题。具体来说,我们提出了图随机神经网络(GRAND),一个简单但强大的基于图的半监督学习框架
为了有效地扩充图数据,我们提出了在GRAND中随机传播的方法,即每个节点的特征可以被部分(dropout)或全部随机删除,然后扰动特征矩阵在图上传播。因此,每个节点都能够对特定的邻域不敏感,增加了GRAND的鲁棒性。此外,随机传播的设计可以很自然地将特征传播和变换分离开来,这两者在大多数gnn中通常是相互耦合的。这使得GRAND能够在不增加复杂性的情况下安全地执行高阶特征传播,降低了grand过度平滑的风险。更重要的是,随机传播使每个节点能够随机地将消息传递到它的邻居。在图数据[30]同质性的假设下,我们能够对每个节点随机生成不同的增广表示。然后,我们利用一致性正则化来加强预测模型,例如,一个简单的多层感知(MLP),对相同的未标记数据的不同扩展输出类似的预测,改善GRAND在半监督设置下的泛化行为。
最后,我们从理论上说明了随机传播和一致性正则化可以增强每个节点与其多跳邻域之间的分类置信度一致性。在经验上,我们也证明了这两种策略都可以改善GRAND的泛化,并缓解现有gnn普遍面临的非鲁棒性和过平滑问题。总之,大量的实验表明,GRAND在GNN基准数据集上获得了最先进的半监督学习结果。
2 模型
我们提出了用于图的半监督学习的图随机神经网络(GRAND),如图所示。其思想是设计一种传播策略:(a)随机生成多个图数据增广。(b)在此基础上提出了一种一致性正则化训练。(c)以提高半监督设置下的泛化能力
2.1 图数据增强的随机传播
随机传播有两个步骤。首先,我们通过随机剔除中的元素来生成一个扰动特征矩阵。其次,我们利用执行特征传播来生成增强特征。在这样做的过程中,每个节点的特征与它的邻居随机混合。
注意,同质性假设表明,相邻节点往往具有相似的特征和标签。这样,一个节点被丢弃的信息可以由它的邻居来补偿,在相应的增量中形成一个近似的表示。换句话说,随机传播允许我们为每个节点随机生成多个增广表示。
第一步,对输入数据有不同的扰动方法。直接来说,我们可以使用dropout策略,这种策略在神经网络的正则化中得到了广泛的应用。具体来说,dropout在训练过程中通过随机设置的一些元素为0来扰动特征矩阵
是伯努利分布。在这样做的过程中,dropout在不考虑图结构的情况下随机地去掉输入特征矩阵X的元素,从而使其具有噪声。考虑到结构效应,我们可以简单地删除一些节点的全部特征向量——称为DropNode,而不是删除单个特征元素。换句话说,DropNode使每个节点完全忽略某些节点的特性,只聚合其邻居的子集(多跳)的信息,减少了对特定邻居的依赖,从而提高了模型的鲁棒性。在经验上,它产生更多的随机数据增强,比dropout获得更好的性能。
再利用来伸缩,确保与相等。
在随机传播的第二步,我们采用混合阶传播
是的幂级数从0阶到K阶的平均值。这种传播规则使模型能够包含更多的局部信息,与直接使用相比,减少了过度平滑的风险
根据这个传播规则,我们可以观察到DropNode(删除的第i行)等同于删除的第i列。这类似于DropEdge,它的目的是通过随机删除一些边来解决超平滑问题。在实践中,这里也可以采用水滴法作为摄动法。具体地说,我们首先通过从中删除一些元素来生成一个损坏的邻接矩阵,然后在每个epoch上使用进行混合阶传播,作为的替代品。
2.2 predictor
随机传播S次后,我们生成S个增广特征矩阵
每一个这些增强的数据被送入一个两层MLP得到相应的输出:
2.3 训练
2.3.1 Supervised Loss
2.3.2 Consistency Regularization Loss
其中0 < T≤1作为“温度”,控制分类分布的锐度。当T→0时,锐化标签分布将接近one-hot分布.