本文主要复述论文["Modeling Relational Data with Graph Convolutional Networks"] 的主要内容,以便自我回顾,也希望可以给大噶带来帮助~
感谢小姐妹带我读论文~
摘要
本论文介绍的是关系图卷积网络模型(R-GCN),并在两个已知的知识库上实现关系预测与实体分类。R-GCN是在GCN的基础上优化得到的神经网络模型,原来的GCN处理的是具有拓扑结构的数据集之间的单关系,R-GCN则可以处理知识库中的多关系数据特征。与仅解码器的基准对比,改模型在FB15K-237上有29.8%的改进。
问题介绍
目前知识库的信息不完整,预测知识库中丢失的信息是SRL的主要任务。依据先前工作,考虑知识库的存储模式是三元组式的集合(主语,谓语,宾语),例如(Mikhail Baryshnikov, educated at, Vaganova Academy)。并假定实体为类型标签,例如(Vaganova Academy is marked as a university)。则知识库的表示完成带标签的有向图,具有带标签编码的节点和三元组实体。具体结构见Figure1。论文中考虑两个基本的SRL任务:关系预测(丢失三元组的恢复)和实体分类(为实体分配类型或分类属性)。 在这两种情况下,通过图结构编译器可以获得丢失的信息。比如,知道Mikhail Baryshnikov是在Vaganova学院接受教育的,这意味着Mikhail Baryshnikov应该有标签person,其三元组 (Mikhail Baryshnikov, lived in, Russia)属于知识图。
GCN
图卷积神经网络应用在具有拓扑结构的图数据集上,其与CNN的计算方式类似,滤波器参数在图中的所有位置或者说所有局部位置都可共享,目标是学习图G=(V, E)
上的特征映射。
定义卷积网络中的第层,其向前传播的非线性激活方程可表示为
其中H(0)=X,H(L)=Z
。X∈(N×D)
是节点特征向量的输入矩阵,N为节点数,D为特征维数。Z∈(N×F)
为输出矩阵,为图结构的邻接矩阵,描述每个节点的度数。是非线性激活函数,比如ReLu
。是当前层的权重矩阵。
上式的传播规则有两个限制:一是节点本身的信息量未被计入,二是A本身未被正则化,直接进行矩阵运算会改变特征向量的域。Kipf & Welling (ICLR 2017)提出了矩阵的对称归一化,对第一个问题引入节点自环,即此时的;对第二个问题引入节点度的对角化矩阵,由可以实现节点特征的归一化。实际上,借鉴对拉普拉斯矩阵的标准化公式可以更好的描述邻接矩阵的动态特性,其中。
此处引入拉普拉斯矩阵进行归一化的行为我不是很理解,关于谱论的知识我也没有补,想要深入探讨的旁友可以参阅其他资料,此处发一个GCN传播规则的解释的链接,大嘎可以参考参考----GCN的空间域理解
那么带入之后我们就可以得到下列的前向传播公式:其中,是的节点度矩阵。
再应用Weisfeiler-Lehman算法到这个GCN模型上,可以得到下式中以向量形式表示的传播规则。是边<vi,vj>
的归一化常数,也就是经该算法得到的对邻接矩阵进行对称归一化的变体。则是对当前节点i得到的邻居节点j的特征向量,并经过hash(·)
进行特征更新。
R-GCN
GCNs可以有效获取局部图特征,在图分类、基于图的半监督学习模型中得到改进。作者对于R-GCNs定义了下述的传播准则:
正则化
多关系模型中的参数数量和关系数量增长很快,在计算过程中很容易导致稀疏关系矩阵的过度拟合。论文中引入了两种正则化权重矩阵的方式:基函数分解和块对角分解。
奇函数分解可以看做是不同关系类型之间有效权重共享的一种形式,对于每个定义形式为(3)式,其作为基础变换,仅系数依赖于。
模型结构
与常规GCN不同,该模型引入了由边的类型与方向决定的关系转换,等式中+的后一项表示节点的自连接。模型中每个节点参数的更新过程可以Figure2来描述,红色部分为节点或者说实体,与蓝色的邻接节点进行矩阵运算,再对每种关系的边类型进行转换,得到绿色部分的已做归一化处理的结果总和,累加后经过激活函数传递,由此在模型中并行更新节点参数。整个模型采用堆叠层,即上一级的输出作为下一级的输入。作者在初始化时仅考虑了无特征向量方法,选择图节点的独热编码作为第一层的节点向量输入,对于块表示,通过线性变换将one-hot编码映射为密集表示。
-
Entity classification:
在模型堆叠的最后一层,对每个节点使用softmax分类器,财通R-GCN提供的节点表示来预测标签,将所有标记节点上的交叉熵最小化。实体分类的模型示意图可参考Figure a3。
- Link prediction:
三元组(subject, relation, object)关系的预测要求有实际可依赖的关系库。链接预测的模型示意图参考Figure 3b。一般知识库由有向标记图G=(V, E, R)
表示,作者在这里提供了一个子集E,链接预测任务则是将f(s, r, o)
匹配给概率最高的边(s, r, o)
。作者引入了图自动编码器模型:1).编码器是生成实体的潜在特征表示形式,即将每个实体映射到实向量;2).解码器是对特征表示进行张量分解来重建链接标签。实验中使用DistMult因子分解作为分数函数,将每种关系用对角矩阵表示,分数函数则表示为,同样使用交叉熵优化链接预测任务结果。