部分内容转载自:https://blog.csdn.net/qq_41995574/article/details/99931294
其余内容为本人的一篇还在返稿的论文,由于论文还未见刊,本文只介绍后续研究的大体思路。
【嵌牛导读】
GAT是在GCN的基础上进行改进而得以实现的,不熟悉GCN的朋友可以阅读转载作者的另一篇文章【图结构】之图神经网络GCN详解,关于输入的特征矩阵的生成方式以及最后如何用GAT或GCN进行分类,都在这篇文章中有所讲述!
GAT源代码地址:https://github.com/PetarV-/GAT
GAT论文地址:https://arxiv.org/pdf/1710.10903.pdf
【嵌牛鼻子】图神经网络 注意力机制
【嵌牛提问】GAT可以在哪些方向上加以推广?
一、在GCN中引入注意力机制——GAT
在GCN详解那篇文章最后我们提出了GCN的两个缺点,GAT就是来解决这两个缺点的:
GCN缺点:
这个模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的(也就是GAT论文里说的:无法允许为邻居中的不同节点指定不同的权重)。这一点限制了模型对于空间信息的相关性的捕捉能力,这也是在很多任务上不如GAT的根本原因。
GCN结合临近节点特征的方式和图的结构依依相关,这局限了训练所得模型在其他图结构上的泛化能力。
Graph Attention Network(GAT)提出了用注意力机制对邻近节点特征加权求和。 邻近节点特征的权重完全取决于节点特征,独立于图结构。GAT和GCN的核心区别在于如何收集并累和距离为1的邻居节点的特征表示。 图注意力模型GAT用注意力机制替代了GCN中固定的标准化操作。本质上,GAT只是将原本GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。
GAT优点:
在GAT中,图中的每个节点可以根据邻节点的特征,为其分配不同的权值。
GAT的另一个优点在于,引入注意力机制之后,只与相邻节点有关,即共享边的节点有关,无需得到整张图的信息:(1)该图不需要是无向的(如果边缘不存在,我们可以简单地省略计算;(2)它使我们的技术直接适用于Inductive Learning——包括在训练期间完全看不见的图形上的评估模型的任务。
二、图注意力层Graph Attention layer
2.1图注意力层的输入与输出
图注意力层的输入是:一个节点特征向量集:
其中N为节点个数,F为节点特征的个数。矩阵h的大小是,代表了所有节点的特征,而R只代表了某一个节点的特征,所以它的大小为。输出同理。
每一层的输出是:一个新的节点特征向量集:
其中F'表示新的节点特征向量维度(可以不等于F)。
GAT与GCN同样也是一个特征提取器,针对的是N个节点,按照其输入的节点特征预测输出新的节点的特征。
2.2 特征提取与注意力机制
为了得到相应的输入与输出的转换,我们需要根据输入的特征至少进行一次线性变换得到输出的特征,所以我们需要对所有节点训练一个权重矩阵:,这个权重矩阵就是输入的F个特征与输出的F′个特征之间的关系。
针对每个节点实行self−attention的注意力机制,注意力系数(Attention coefficients)为:
注意:a不是一个常数或是矩阵,a()是一个函数,类似于f(x)那种自己定义好的函数。
这个公式表示了节点j对节点i的重要性,而不去考虑图结构的信息。
如前面介绍过的,向量h就是节点的特征向量。
下标i,j表示第i个节点和第j个节点。
什么是self−attention机制?
其作用是能够更好地学习到全局特征之间的依赖关系,self−attention通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。
Self−attention利用了attention机制,分三个阶段进行计算:(1) 引入不同的函数和计算机制,根据Query和某,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值;(2) 引入类似softmax的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果 即为对应的权重系数,然后进行加权求和即可得到attention数值。
作者通过masked attention将这个注意力机制引入图结构中,masked attention的含义是:仅将注意力分配到节点iii的邻居节点集上,即 在本文中,节点i也是的一部分)。为了使得注意力系数更容易计算和便于比较,我们引入了softmax对所有的i的相邻节点j进行正则化:
实验之中,注意力机制aaa是一个单层的前馈神经网络,是神经网络中连接层与层之间的权重矩阵,在该前馈神将网络的输出层上还加入了LeakyReLu函数,这里小于零斜率为0.2。
★什么是LeakyReLu函数?
ReLu是将所有的负值都设为零,相反,LeakyReLu是给所有负值赋予一个非零斜率,在本论文中以数学的方式我们可以表示为:
综合上述公式(1)和(2),整理到一起可得到完整的注意力机制如下:
||符号的意思是连接操作(concatenation operation)
表示为转置
注意:和都叫做"注意力系数",只不过是在基础上进行归一化后的。
上述过程可用下图来表示:
2.3 输出特征
通过上述运算得到了正则化后的不同节点之间的注意力系数,可以用来预测每个节点的输出特征:
W为与特征相乘的权重矩阵
α为前面计算得到的注意力互相关系数
σ为非线性激活函数
中遍历的j表示所有与i相邻的节点
这个公式表示就是:该节点的输出特征与和它相邻的所有节点有关,是它们的线性和的非线性激活后得到的。
2.4 multi-head attention
为了稳定self−attention的学习过程,作者发现扩展我们的机制以采用multi−head attention是有益的。具体而言,K个独立注意力机制执行公式(4),然后将它们的特征连接起来。但是,如果我们对最终的网络层执行multi−head attention,则连接操作不再合理,相反,我们采用K平均来替代连接操作,并延迟应用最终的非线性函数(通常为分类问题的softmax或logistic sigmoid),得到最终的公式:
共K个注意力机制需要考虑,k表示K中的第k个
第k个注意力机制为
第k个注意力机制下输入特征的线性变换权重矩阵表示为
★什么是multi−head attention?
这里面multi−head attention其实就是多个self−attention结构的结合,每个head学习到在不同表示空间中的特征,多个head学习到的attention侧重点可能略有不同,这样给了模型更大的容量。
multi−headattention图例:
由节点在其邻域上的multi−head attention(具有K=3个头)的图示。不同的箭头样式和颜色表示独立的注意力计算,来自每个头的聚合特征被连接或平均以获得'。
三、GAT实现分类
GAT的分类过程与GCN的分类过程十分相似,均是采用 softmax函数+交叉熵损失函数+梯度下降法来完成的,详细内容可参阅作者的另一篇文章【图结构】之图神经网络GCN详解。
四 、GAT的推广
GAT仅仅是应用在了单层图结构网络上,我们是否可以将它推广到多层网络结构呢?
这里我们假设一个有N层网络的结构,每层网络都定义了相同的节点,但是节点之间的关系有所差异。举一个简单的例子,假设有一个用户关系型网络,每层网络的节点都被定义成了网络中的用户,网络的第一层视图的关系可以定义为,两个用户之间是否具有好友关系;网络的第二层视图可以定义为,你评论过我的动态;网络的第三层视图可以定义为你转发过我的动态;第四层关系可以定义为,你at过我等等。
通过这样的定义我们就完成了一个多层网络的构建,他们共享相同的节点,但又分别具有不同的邻边,如果我们分别处理每一层视图视图,然后将他们得出的节点表示单纯相加的话,就可能会失去不同视图之间的协作关系,降低分类(预测)的精度。
基于以上观点,我们提出了一种新的方法:首先在每一层单视图中应用GAT进行学习,并计算出每层视图的节点表示。之后再不同视图之间引入attention机制来让网络自行学习不同视图的权重。之后根据学习的权重,将各个视图加权相加得到全局节点表示并进行后续的诸如节点表示,链接预测等任务。
同时,因为不同视图共享同样的节点,即使每一层视图都表示了不同的节点关系,最终得到的每一层的节点嵌入表示应具有一定的相关性。基于以上理论,我们在每层GAT的网络参数间引入正则化项来约束参数,使其向互相相近的方向学习。大致的网络流程图如下: