【图结构】之图注意力网络GAT详解以及GAT的推广

部分内容转载自:https://blog.csdn.net/qq_41995574/article/details/99931294

其余内容为本人的一篇还在返稿的论文,由于论文还未见刊,本文只介绍后续研究的大体思路。

【嵌牛导读】

GAT是在GCN的基础上进行改进而得以实现的,不熟悉GCN的朋友可以阅读转载作者的另一篇文章【图结构】之图神经网络GCN详解,关于输入的特征矩阵的生成方式以及最后如何用GATGCN进行分类,都在这篇文章中有所讲述!

GAT源代码地址:https://github.com/PetarV-/GAT

GAT论文地址:https://arxiv.org/pdf/1710.10903.pdf

【嵌牛鼻子】图神经网络 注意力机制 

【嵌牛提问】GAT可以在哪些方向上加以推广?

一、在GCN中引入注意力机制——GAT

GCN详解那篇文章最后我们提出了GCN的两个缺点,GAT就是来解决这两个缺点的:

GCN缺点:

这个模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的(也就是GAT论文里说的:无法允许为邻居中的不同节点指定不同的权重)。这一点限制了模型对于空间信息的相关性的捕捉能力,这也是在很多任务上不如GAT的根本原因。

GCN结合临近节点特征的方式和图的结构依依相关,这局限了训练所得模型在其他图结构上的泛化能力。

Graph Attention Network(GAT)提出了用注意力机制对邻近节点特征加权求和。 邻近节点特征的权重完全取决于节点特征,独立于图结构。GATGCN的核心区别在于如何收集并累和距离为1的邻居节点的特征表示。 图注意力模型GAT用注意力机制替代了GCN中固定的标准化操作。本质上,GAT只是将原本GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。

GAT优点:

GAT中,图中的每个节点可以根据邻节点的特征,为其分配不同的权值。

GAT的另一个优点在于,引入注意力机制之后,只与相邻节点有关,即共享边的节点有关,无需得到整张图的信息:(1)该图不需要是无向的(如果边缘j\to i不存在,我们可以简单地省略计算\alpha_{ij};(2)它使我们的技术直接适用于Inductive Learning——包括在训练期间完全看不见的图形上的评估模型的任务。

二、图注意力层Graph Attention layer

2.1图注意力层的输入与输出

图注意力层的输入是:一个节点特征向量集:h={ h  1	 , h  2	 ,⋯, h  N	 }, h  i	 ∈R F

其中N为节点个数,F为节点特征的个数。矩阵h的大小是N\times F,代表了所有节点的特征,而R只代表了某一个节点的特征,所以它的大小为F \times 1。输出同理。

每一层的输出是:一个新的节点特征向量集:h ′ ={ h ′   1	 , h ′   2	 ,⋯, h ′   N	 }, h ′   i	 ∈R F ′

其中F'表示新的节点特征向量维度(可以不等于F)。

GATGCN同样也是一个特征提取器,针对的是N个节点,按照其输入的节点特征预测输出新的节点的特征。

2.2 特征提取与注意力机制

为了得到相应的输入与输出的转换,我们需要根据输入的特征至少进行一次线性变换得到输出的特征,所以我们需要对所有节点训练一个权重矩阵:W \in \mathbb { R } ^ { F ^ { \prime } \times F },这个权重矩阵就是输入的F个特征与输出的F′个特征之间的关系。

针对每个节点实行self−attention的注意力机制,注意力系数(Attention coefficients)为:e _ { i j } = a \left( W \vec { h } _ { i } , W \vec { h } _ { j } \right)

注意:a不是一个常数或是矩阵,a()是一个函数,类似于f(x)那种自己定义好的函数。

这个公式表示了节点j对节点i的重要性,而不去考虑图结构的信息。

如前面介绍过的,向量h就是节点的特征向量。

下标i,j表示第i个节点和第j个节点。

什么是self−attention机制?

其作用是能够更好地学习到全局特征之间的依赖关系,self−attention通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。 

Self−attention利用了attention机制,分三个阶段进行计算:(1) 引入不同的函数和计算机制,根据Query和某Key_i,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值;(2) 引入类似softmax的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果a_i 即为value_i对应的权重系数,然后进行加权求和即可得到attention数值。 

作者通过masked attention将这个注意力机制引入图结构中,masked attention的含义是:仅将注意力分配到节点iii的邻居节点集N_i上,即 j \in N_i在本文中,节点i也是N_i的一部分)。为了使得注意力系数更容易计算和便于比较,我们引入了softmax对所有的i的相邻节点j进行正则化:

\alpha _ { i j } = \operatorname { softmax } _ { j } \left( e _ { i j } \right) = \frac { \exp \left( e _ { i j } \right) } { \sum _ { k \in N _ { i } } \exp \left( e _ { i k } \right) }

实验之中,注意力机制aaa是一个单层的前馈神经网络,\overrightarrow { \mathrm { a } } \in \mathbb { R } ^ { 2 F ^ { \prime } }是神经网络中连接层与层之间的权重矩阵,在该前馈神将网络的输出层上还加入了LeakyReLu函数,这里小于零斜率为0.2。

★什么是LeakyReLu函数?

ReLu是将所有的负值都设为零,相反,LeakyReLu是给所有负值赋予一个非零斜率,在本论文中以数学的方式我们可以表示为:

y _ { i } = \left\{ \begin{array} { l l } x _ { i } & \text { if } x _ { i } \geq 0 \\ 0.2 & \text { if } x _ { i } \leq 0 \end{array} \right.


综合上述公式(1)和(2),整理到一起可得到完整的注意力机制如下:

\alpha _ { i j } = \frac { \exp \left( \operatorname { Leaky } \operatorname { Re } L u \left( \overrightarrow { \mathrm { a } } ^ { T } \left[ W \vec { h } _ { i } | | W \vec { h } _ { j } \right] \right) \right) } { \sum _ { k \in N _ { i } } \exp \left( \operatorname { Leaky } \operatorname { Re } L u \left( \overrightarrow { \mathrm { a } } ^ { T } \left[ W \vec { h } _ { i } | | W \vec { h } _ { k } \right] \right) \right) }

||符号的意思是连接操作(concatenation operation)

\cdot ^T表示为转置

注意:e_{ij}\alpha_{ij}都叫做"注意力系数",只不过\alpha_{ij}是在e_{ij}基础上进行归一化后的。

上述过程可用下图来表示:


2.3 输出特征

    通过上述运算得到了正则化后的不同节点之间的注意力系数,可以用来预测每个节点的输出特征:

\overrightarrow { h ^ { \prime } } _ { i } = \sigma \left( \sum _ { j \in N _ { i } } \alpha _ { i j } W \vec { h } _ { j } \right)

W为与特征相乘的权重矩阵

α为前面计算得到的注意力互相关系数

σ为非线性激活函数

j\in N_i中遍历的j表示所有与i相邻的节点

这个公式表示就是:该节点的输出特征与和它相邻的所有节点有关,是它们的线性和的非线性激活后得到的。

2.4 multi-head attention

为了稳定self−attention的学习过程,作者发现扩展我们的机制以采用multi−head attention是有益的。具体而言,K个独立注意力机制执行公式(4),然后将它们的特征连接起来。但是,如果我们对最终的网络层执行multi−head attention,则连接操作不再合理,相反,我们采用K平均来替代连接操作,并延迟应用最终的非线性函数(通常为分类问题的softmaxlogistic sigmoid),得到最终的公式:

\vec { h } _ { i } = \sigma \left( \frac { 1 } { K } \sum _ { k = 1 } ^ { K } \sum _ { j \in N _ { i } } \alpha _ { i j } ^ { k } W ^ { k } \vec { h } _ { j } \right)

K个注意力机制需要考虑,k表示K中的第k

k个注意力机制为a^k

k个注意力机制下输入特征的线性变换权重矩阵表示为W^k

★什么是multi−head attention?

这里面multi−head attention其实就是多个self−attention结构的结合,每个head学习到在不同表示空间中的特征,多个head学习到的attention侧重点可能略有不同,这样给了模型更大的容量。

multi−headattention图例:

由节点\vec{h}_1 在其邻域上的multi−head attention(具有K=3个头)的图示。不同的箭头样式和颜色表示独立的注意力计算,来自每个头的聚合特征被连接或平均以获得\vec{h}'。

三、GAT实现分类

GAT的分类过程与GCN的分类过程十分相似,均是采用 softmax函数+交叉熵损失函数+梯度下降法来完成的,详细内容可参阅作者的另一篇文章【图结构】之图神经网络GCN详解

四 、GAT的推广

GAT仅仅是应用在了单层图结构网络上,我们是否可以将它推广到多层网络结构呢?

这里我们假设一个有N层网络的结构,每层网络都定义了相同的节点,但是节点之间的关系有所差异。举一个简单的例子,假设有一个用户关系型网络,每层网络的节点都被定义成了网络中的用户,网络的第一层视图的关系可以定义为,两个用户之间是否具有好友关系;网络的第二层视图可以定义为,你评论过我的动态;网络的第三层视图可以定义为你转发过我的动态;第四层关系可以定义为,你at过我等等。

通过这样的定义我们就完成了一个多层网络的构建,他们共享相同的节点,但又分别具有不同的邻边,如果我们分别处理每一层视图视图,然后将他们得出的节点表示单纯相加的话,就可能会失去不同视图之间的协作关系,降低分类(预测)的精度。

基于以上观点,我们提出了一种新的方法:首先在每一层单视图中应用GAT进行学习,并计算出每层视图的节点表示。之后再不同视图之间引入attention机制来让网络自行学习不同视图的权重。之后根据学习的权重,将各个视图加权相加得到全局节点表示并进行后续的诸如节点表示,链接预测等任务。

同时,因为不同视图共享同样的节点,即使每一层视图都表示了不同的节点关系,最终得到的每一层的节点嵌入表示应具有一定的相关性。基于以上理论,我们在每层GAT的网络参数间引入正则化项来约束参数,使其向互相相近的方向学习。大致的网络流程图如下:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343