「GNN框架系列」DGL第一讲：实现GNN节点分类

本文先简单概述GNN节点分类任务，然后详细介绍如何使用Deep Graph Library + Pytorch实现一个简单的两层GNN模型在Cora引文数据上实现节点分类任务。若需获取模型的完整代码，可关注公众号【AI机器学习与知识图谱】后回复：DGL第一讲完整代码
GNN节点分类概述节点分类是图/图谱数据上常被采用的一个学习任务，既是用模型预测图中每个节点的类别。在GNN模型被提出之前，常用的模型如DeepWalk，Node2Vec等，都是借助序列属性和节点自身特性进行预测，但显然图数据不像NLP中的文本数据那样具有序列依赖性。相比之下，GNN系列模型是利用节点的邻接子图，使用子图汇聚的方式先获得节点表征，再对节点类别进行预测。例如，在2017年Kipf et al.等提出的GCN模型将图的节点分类问题看作一个半监督学习任务。即只利用图中一小部分节点，模型就可以准确预测其他节点的类别。接下来的实验将通过构建GCN模型，在Cora数据集上进行半监督节点分类任务的训练和预测。Cora数据集是一个引文网络，其中节点是代指某篇论文，节点之间的边代表论文之间的相互引用关系。
Cora引文网络共包含2708个节点，10556个边，其中每个节点由1433维特征组成，每个特征代表词库中的一个Word，如果此篇论文中包含这个Word则这一维特征为1，否则这一维特征为0。在训练数据划分上，其中训练集140个样本节点，验证集500个，测试集1000个。目的是训练模型少标签半监督任务的预测能力。Cora引文网络中节点共分为七类，因此节点分类任务是个七分类问题。

DGL实现GNN节点分类接下来使用DGL框架实现GNN模型进行节点分类任务，对代码进行逐行解释。1 import dgl
2 import torch
3 import torch.nn as nn
4 import torch.nn.functional as F首先，上述四行代码，先加载需要使用的dgl库和pytorch库；1 import dgl.data
2 dataset = dgl.data.CoraGraphDataset()
3 print('Number of categories:', dataset.num_classes)
4 g = dataset[0]上面第二行代码，加载dgl库提供的Cora数据对象，第四行代码，dgl库中Dataset数据集可能是包含多个图的，所以加载的dataset对象是一个list，list中的每个元素对应该数据的一个graph，但Cora数据集是由单个图组成，因此直接使用dataset[0]取出graph。print('Node features: ', g.ndata)
print('Edge features: ', g.edata)
看上面两行代码，需要说明DGL库中一个Graph对象是使用字典形式存储了其Node Features和Edge Features，其中第一行g.ndata使用字典结构存储了节点特征信息，第二行g.edata使用字典结构存储了边特征信息。对于Cora数据集的graph来说，Node Features共包含以下五个方面：1. train_mask: 指示节点是否在训练集中的布尔张量2. val_mask: 指示节点是否在验证集中的布尔张量3. test_mask: 指示节点是否在测试机中的布尔张量4. label: 每个节点的真实类别5. feat: 节点自身的属性
1 from dgl.nn import GraphConv
2
3 class GCN(nn.Module):
4 def init(self, in_feats, h_feats, num_classes):
5 super(GCN, self).init()
6 self.conv1 = GraphConv(in_feats, h_feats)
7 self.conv2 = GraphConv(h_feats, num_classes)
8
9 def forward(self, g, in_feat):
10 # 这里g代表的Cora数据Graph信息，一般就是经过归一化的邻接矩阵
11 # in_feat表示的是node representation，即节点初始化特征信息
12 h = self.conv1(g, in_feat)
13 h = F.relu(h)
14 h = self.conv2(g, h)
15 return h
16
17 # 使用给定的维度创建GCN模型，其中hidden维度设定为16，输入维度和输出维度由数据集确定。
18 model = GCN(g.ndata['feat'].shape[1], 16, dataset.num_classes)
上面代码使用dgl库中的dgl.nn.GraphConv模块构建了一个两层GCN网络，每层都通过汇聚邻居节点信息来更新节点表征，每层GCN网络都便随着维度的变化，第一层维度映射(in_feats, h_feats)，第二层维度映射(h_feats, num_classes)，总共两层网络因此第二层直接映射到最终分类类别维度上。这里需要强调上面代码第九行中g, in_feat两个参数，参数g代表的Cora数据Graph信息，一般就是经过归一化的邻接矩阵，如下所示，其中是邻接矩阵，是单位矩阵，是度矩阵：
<div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/26011021-47a25ab05bf4e044.jpeg" img-data="{"format":"jpeg","size":6512,"height":60,"width":602}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>参数in_feat表示的是node representation，即节点初始化特征信息。
def train(g, model):
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
best_val_acc = 0
best_test_acc = 0

features = g.ndata['feat']
labels = g.ndata['label']
train_mask = g.ndata['train_mask']
val_mask = g.ndata['val_mask']
test_mask = g.ndata['test_mask']
for e in range(100):
# Forward
logits = model(g, features)

# Compute prediction
pred = logits.argmax(1)

# Compute loss
# Note that you should only compute the losses of the nodes in the training set.
loss = F.cross_entropy(logits[train_mask], labels[train_mask])

# Compute accuracy on training/validation/test
train_acc = (pred[train_mask] == labels[train_mask]).float().mean()
val_acc = (pred[val_mask] == labels[val_mask]).float().mean()
test_acc = (pred[test_mask] == labels[test_mask]).float().mean()

# Save the best validation accuracy and the corresponding test accuracy.
if best_val_acc < val_acc:
best_val_acc = val_acc
best_test_acc = test_acc

# Backward
optimizer.zero_grad()
loss.backward()
optimizer.step()

if e % 5 == 0:
print('In epoch {}, loss: {:.3f}, val acc: {:.3f} (best {:.3f}), test acc: {:.3f} (best {:.3f})'.format(
e, loss, val_acc, best_val_acc, test_acc, best_test_acc))

model = GCN(g.ndata['feat'].shape[1], 16, dataset.num_classes)
train(g, model)上面是模型的训练函数，和pytorch模型训练过程都是相似的，训练过程如下图所示：In epoch 0, loss: 1.947, val acc: 0.070 (best 0.070), test acc: 0.064 (best 0.064)
In epoch 5, loss: 1.905, val acc: 0.428 (best 0.428), test acc: 0.426 (best 0.426)
In epoch 10, loss: 1.835, val acc: 0.608 (best 0.608), test acc: 0.646 (best 0.646)
In epoch 15, loss: 1.739, val acc: 0.590 (best 0.630), test acc: 0.623 (best 0.648)
In epoch 20, loss: 1.618, val acc: 0.644 (best 0.644), test acc: 0.670 (best 0.670)
In epoch 25, loss: 1.475, val acc: 0.698 (best 0.698), test acc: 0.737 (best 0.737)
In epoch 30, loss: 1.316, val acc: 0.720 (best 0.724), test acc: 0.731 (best 0.731)
In epoch 35, loss: 1.148, val acc: 0.726 (best 0.726), test acc: 0.728 (best 0.728)
In epoch 40, loss: 0.981, val acc: 0.742 (best 0.744), test acc: 0.754 (best 0.747)
In epoch 45, loss: 0.822, val acc: 0.750 (best 0.750), test acc: 0.764 (best 0.764)
In epoch 50, loss: 0.678, val acc: 0.764 (best 0.764), test acc: 0.766 (best 0.766)
In epoch 55, loss: 0.552, val acc: 0.770 (best 0.770), test acc: 0.766 (best 0.766)
In epoch 60, loss: 0.447, val acc: 0.774 (best 0.774), test acc: 0.764 (best 0.764)
In epoch 65, loss: 0.361, val acc: 0.778 (best 0.778), test acc: 0.772 (best 0.772)
In epoch 70, loss: 0.292, val acc: 0.782 (best 0.782), test acc: 0.771 (best 0.771)
In epoch 75, loss: 0.238, val acc: 0.778 (best 0.782), test acc: 0.775 (best 0.771)
In epoch 80, loss: 0.196, val acc: 0.776 (best 0.782), test acc: 0.778 (best 0.771)
In epoch 85, loss: 0.162, val acc: 0.774 (best 0.782), test acc: 0.778 (best 0.771)
In epoch 90, loss: 0.136, val acc: 0.774 (best 0.782), test acc: 0.777 (best 0.771)
In epoch 95, loss: 0.115, val acc: 0.770 (best 0.782), test acc: 0.776 (best 0.771)

往期精彩【知识图谱系列】基于生成式的知识图谱预训练模型【知识图谱系列】基于实数或复数空间的知识图谱嵌入
【知识图谱系列】知识图谱多跳推理之强化学习
【知识图谱系列】动态时序知识图谱EvolveGCN【机器学习系列】机器学习中的两大学派

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,548评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,497评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,990评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,618评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,618评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,246评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,819评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,725评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,268评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,356评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,488评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,181评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,862评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,331评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,445评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,897评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,500评论 2赞 359

「GNN框架系列」DGL第一讲：实现GNN节点分类

推荐阅读更多精彩内容