论文阅读（41）Explainability Techniques for Graph Convolutional Networks

1. 论文相关

Explainability Techniques for Graph Convolutional Networks (ICML 2019)

作者假设一般形式的图网络（GN）定义，在解释算法时考虑两个主要的类，基于梯度的和基于分解的。讨论的基础是一个测试数据集和一个化学任务。论文主要工作是重点研究 GN 的解释性技术，比较了基于图的任务预测的两种主要的可解释性方法，该论文也给出了github代码 [4]。

2. 摘要

图形网络用于在潜在的复杂的场景中做出决策，但通常不清楚它们是如何做出的或为什么做出的。在这项工作中，我们使用基于梯度和基于分解的两种主要技术，基于玩具数据集和化学任务，研究了图形网络决策的可解释性。我们的研究为未来的发展奠定了基础，也为实际问题的应用奠定了基础。

2.2 重要设定

（1）在这项工作中，我们假定GNS的一般形式如（Battaglia等人，2018）中所定义。

solubility of sucrose：蔗糖的溶解性

（2）we consider two main classes: a) gradient-based such as Sensitivity Analysis (Baehrens et al., 2010; Simonyan et al.,2014) and Guided Backpropagation (Springenberg et al.,2015), b) decomposition-based such as Layer-wise Relevance Propagation (Bach et al., 2015) and Taylor decomposition (Montavon et al., 2017). We base the discussions on a toy dataset and a chemistry task.
我们考虑两个主要类别：a）基于梯度的，如敏感性分析（Baehrens等人，2010年；Simonyan等人，2014年）和导向反向传播（Springenberg等人，2015年）；b）基于分解的，如层相关传播（Bach等人，2015年）和泰勒分解（Montavon等人，2017年）。我们的讨论基于一个玩具数据集和一个化学任务。

2.3 贡献

（1）据我们所知，这是第一个关注GN可解释性技术的工作；
（2）我们强调并确定了解释GN的挑战和未来方向；
（3）比较了基于图的任务预测的两类主要解释方法。
我们的Pytorch（Paszke et al.，2017）github.com/baldassarrefe/graph-network-explainability上提供了配备不同解释算法的GNs的实现。

In this work, we evaluate variationand decomposition-based techniques in the context of GNs.

3. 方法

3.1 图网络（Graph Network）

GN如（Battaglia等人，2018）中所述，使用消息传递算法聚合与CNN中卷积类似的局部信息。图可以包含边 $E =\{e_k\}$ ，节点 $V =\{v_i\}$ 和图级别 $u$ 上的特征。在计算的每一层，图都使用三个更新函数 $\phi$ 和三个聚合函数 $\rho$ 进行更新：

image.png

其中 $r_k$ 和 $s_k$ 表示第 $k$ 个边的发送和接受节点，集合 $E'_i, E', V '$ 表示与节点 $i$ 关联的边，所有边由 $\phi^e$ 更新，所有节点由 $\phi^n$ 更新。每个处理层都保持图的结构不变，只更新图的特征，而不更新其拓扑结构。映射 $f：(E,V,u）→y$ 可以表示单个感兴趣的量（例如分子的溶解性）或具有对节点和边的单独预测的图。在这项工作中，所有的 $\phi$ 都是线性转换的，然后是ReLU激活，所有的 $\rho$ 转换都是sum/mean/max池操作。

3.2 解释能力(Explainability)

灵敏度分析（Sensitivity Analysis,SA）利用梯度w.r.t的平方范数(squared norm)对可微函数(differentiable function) $f$ 的预测产生局部解释。输入 $x$ （Gevrey等人，2003）： $S(x) \propto ||\nabla_xf||^2$ 。用这种方法生成的显著性图 $S$ 描述了输入的变化会在多大程度上引起输出的变化。

引导式反向传播（Guided Backpropagation,GBP）利用梯度构建了显著性图（Springenberg等人，2015年）。与SA不同的是，反向传播时会去掉负梯度，这集中解释了对输出有兴奋作用（excitatory effect）的特征。

层相关传播（Layer-wise Relevance Propagation，LRP）通过将每个转换的输出信号分解为其输入的组合来生成相关图。对于某些权重和激活的配置，LRP可以解释为重复的泰勒分解（Montavon等人，2017），它保留了跨层的总关联量 $R$ ： $\sum R^{(x)} =····= R^{(l)}=····=f(x)$ 。（Bach等人，2015）介绍了LRP的两个规则，即 $\alpha \beta-$ 规则和 $\epsilon$ 稳定规则(-stabilized rule)，均在附录A.2中讨论。我们选择后者是因为它的健壮性和简单性(robustness and simplicity)。与前两种方法不同，LRP识别出输入的哪些特征对最终预测贡献最大，而不是关注其变化。此外，它还能够处理积极和消极的相关性，从而对影响因素进行更深入的分析。

Autograd-based implementation,所有这三种方法都依赖于通过网络的反向传递来传播输出的梯度/相关性，并将其累积到输入。由于GN的计算图可以变得复杂和非连续，因此我们利用pytorch的跟踪能力，在其autograd模块上实现这些算法。

4. 实验

为了评价GNs的不同解释方法，我们考虑了一个玩具图问题和一个化学回归任务。特定于任务的解释可以在本节中找到，然后在第5节中进行更一般的讨论。

4.1 感染(Infection)

在这个玩具问题中，输入图表示一组生病或健康的人，以及对某种疾病的免疫。人与人之间是有向的边缘，代表着他们之间的关系，特征是虚拟的还是非虚拟的。这种疾病按照一个简单的规则传播：患病节点通过非虚拟边感染与其相连的邻居，除非目标节点免疫。其目的是预测传播一步后图中每个节点的状态，然后根据逻辑感染动力学(logical infection dynamics)评价敏感性分析、引导反传播和分层相关传播所产生的解释的正确性。关于数据集、网络和训练程序的详细信息见附录B.1。

当任务是解释单个节点的预测时，这三种技术都可以识别输入图的相关节点/边（图2）。然而，我们注意到，基于变量（variation-based）的方法产生的解释往往不同于人类如何直观地从因果角度（in terms of cause and effect）描述过程，而LRP结果更自然。附录C.1提供了解释的详细的基于案例的可视化，包括（down to）各个特征。

image.png

SA在节点本身上具有很高的相关性（如果节点2在开始时患病率更高，则在结束时感染率更高）。GBP正确地将节点1识别为感染源，但边的重要性很小。LRP将预测分解为负贡献（蓝色，节点2没有生病），两个正贡献（红色，节点1生病，1→2没有虚拟）。由于最大池化，节点4被忽略。

4.2 溶解性(Solubility)

我们训练一个GN，从分子图中预测有机化合物的水溶性(aqueous solubility of organic)，如中所示（Duvenaud等人，2015年）。我们的多层GN与它们的性能匹配，同时保持简单。关于数据集、网络和训练程序的详细信息见附录B.1。

在解释网络预测时，LRP将正相关和负相关归因于已知与溶解性相关的特征，例如分子外部存在R-OH基团，以及通常表示低溶解性的特征，例如重复的非极性芳香环（图3）。在（Duvenaud等人，2015年）中也进行了类似的观察，尽管通过手工检查高分预测。
注意，最初引入LRP是为了解释分类预测，但在这里它被用于回归任务。关于如何解释这些解释的讨论，见附录C.2节。

image.png

5.讨论

图像或文本域中开发了最新的解释方法（Bach等人，2015年；Springenberg等人，2015年；Ribeiro等人，2016年）。通过本文所做的实验，我们希望突出图域的一些关键差异，这些差异需要特别考虑才能产生有意义的解释。

5.1 连接的作用 (The role of connections)

图像可以看作是具有规则网格拓扑结构的图形，其特征仅归因于节点。在这种情况下，解释可以采用热图的形式覆盖图像，突出显示相关像素，并隐式地显示它们的本地连接。对于具有不规则连通性的图，边获得了一个更突出的角色，当使用基于图像的解释技术时，这种角色可能会被忽略。例如，在边特征不存在或完全相同（不具有信息性）的图形中，即使两个节点之间的连接本身是一个信息源，也不会将梯度和相关性传播回这些连接，以便进行解释。我们建议利用图卷积的结构保持性在消息传递(message-passing)的多个步骤中聚合解释(aggregate explanations)，认为连接的重要性应该从中间步骤中产生（图4）。

image.png

5.2 池化

Architectural choice : 在标准NN中，通常使用池化操作来聚合特征。在信息传递GNs中，池化用于在局部和全局级别聚合边缘和节点特征，而不修改网络的拓扑结构（等式1）。GN中池化函数的选择与学习问题密切相关，例如，和池化（sum pooling）最适合在全局级别进行计数，而最大池化（max pooling）可用于标识局部属性。

Explanations：聚合的选择也影响为预测获得的解释。和池化和平均池化（Sum and mean
pooling）将梯度/相关性传播到所有输入，可能识别所有信号源。相反，max pooling只考虑它的一个输入，而忽略其他输入，不管其大小，这可能导致不完整的解释（例如，多个相邻的生病节点可以解释一个感染节点）。为了解决这一问题，LRP建议在关联传播过程中用 $L_p$ -范数来近似最大池化，但这种方法可能过度分散关联性（over-disperse）与不重要的输入。我们建议将后向传播（backward pass）通过最大池化作为一个搜索，只重新分配与这些输入的相关性，如果选择为最大值，则会导致类似的预测（图5）。

image.png

5.3 异构图特征（Heterogeneous Graph Features）

图像通常表示为连续RGB像素值的矩阵，而图通常用于需要混合编码连续、二进制和分类特征的域，这些特征具有语义意义（Fout等人，2017；Kearnes等人，2016；Sanchez-Gonzalez等人，2018）。因此，与在节点/边级别聚合解释不同，评估单个特性的重要性可能更为重要。因此，基于图的热图的可视化可能不够。我们建议在附录C中进行更详细的可视化。

5.4 基于扰动的评价（Perturbation-based evaluation）

图像和图可以看作是高维空间中的点，属于复杂和结构化的流形（Tenenbaum等人，2000年）。通常使用的图像表示方法会增加冗余度，因此更改单个像素的值对图像相关的内容和含义的影响最小。在这种观察下，可以通过逐步“灰显”像素来定量评估解释的重要性，并测量其如何影响预测（Bach等人，2015年）。另一方面，图表示的冗余度较低，图的结构是其标识的组成部分，因此节点/边的小改动可以显著改变图的含义。例如，在我们的化学问题中，替换原子或键将从根本上改变分子或使其失效。作为一种可行的策略，我们可以依靠特定于领域的知识来执行这些更改，同时在语义上保持接近原始内容。或者，我们可以学习将图形双目标地放到一个有意义的邻域的流形上来进行这样的评估。在附录C.2中，我们提供了一个手工制作的例子，按照重要性顺序，利用领域知识逐步消除分子中的原子。

6.总结

作为一篇说明性（expository）的论文，本文介绍并重点讨论了一个重要问题，即在图网络环境下，我们分析了现有的主要解释技术。我们进一步对两个简单但互补的任务进行了基于案例的分析，并在解释GNs决策时对设计选择进行了一些重要的高层(high-level)讨论。最后，我们提供了五种不同的解释技术的实现，这些技术使用了PyTorch autograd，可以很容易地用于任何GN的定义。我们希望这些贡献与高水平的技术新颖性相结合，在讲习班上展开富有成效的讨论，为将来开发针对实际应用的GN解释的具体技术铺平道路。

7. 附录

A.可解释性技术

A.1 个别特征说明（Explanations for individual features）

对基于图像的任务的解释通常在像素级别上聚合输入特征的重要性，例如通过对单个颜色通道取平均值。这是在合理的假设下完成的，即空间位置是最小的输入单位，仍然可以被人类解释。本工作中考虑的任务利用了节点/边的特征，这些特征是异构的，可以单独解释。因此，我们选择在特征级别呈现解释，而不是在节点或边级别聚合。此外，我们观察到灵敏度分析产生的梯度信号可以为解释提供额外的背景。因此，本附录中的可视化将利用梯度“原样”（as is），而不是其平方范数（squared norm）。

总的来说，我们观察到，基于变量的方法产生的解释往往与人类凭直觉从因果关系来描述过程的方式不同。基于分解的方法会导致更自然的解释。我们假设（posit）输出信号的分解使LRP更适合于相关特征在节点和边上的分类分布。

A.2 层相关传播规则（Layer-wise Relevance Propagation rules）

层相关传播（Layer-wise Relevance Propagation，LRP）是（Bach等人，2015）中引入的一种信号分解方法，作者主要提出了两条规则。
前者被称为 $\alpha \beta-$ 规则：

image.png

其中 $α+β=1$ ， $x$ 是层的输入， $w$ 是它的权重， $z_{i,j} = x_{i}^{(l)} w_{i,j}$ 。
后者称为 $\epsilon$ 稳定规则(-stabilized rule):

image.png

其中 $\epsilon$ 是一个避免被零除的小数字。

我们发现前者在 $β \ne 0$ 输入或权重中存在零时相当不稳定，这是一种使用分类特征的独热编码(one-hot encoding)和权重的 $L_1$ 正则化时经常发生的情况。因此，尽管 $\alpha \beta-$ 规则在调整正相关和负相关的比率时应考虑到更大的灵活性，我们选择了更简单的 $\epsilon$ 稳定规则， $\epsilon = 10^{-6}$ 。

A.3 回归的LRP（LRP for regression）

层次关联传播最初是作为分类任务的解释技术而发展起来的。在溶解度实验的背景下，我们将其应用扩展到回归任务。由于预测目标现在是一个连续变量，LRP产生的解释可以解释为“这个原子/键的特征对最终预测值有多大的正向或负向贡献？”。
另外，请注意，由于在我们的网络中使用了偏置项（bias terms），因此LRP的守恒性不完全成立。事实上，某些相关性将不可避免地归因于偏见，即模型的内部参数，因此无法解释。

B.实验细节

B.1.感染（Infection）

特征表示法（FEATURE REPRESENTATION）
特征向量 $e_k∈[−1，+1]^2$ 和 $n_i∈[−1，+1]^4$ 分别对边和节点特征进行编码。两者都包括网络应学会忽略的非格式化特征（uninformative features），并且解释技术不应将其视为重要特征（图6）。值得注意的是，二进制特征编码为{−1、+1}而不是{0,1}，虽然这不会影响基于变量的模型（SA和GPB），但它有助于在使用LRP时传播与输入的相关性。用于训练的合成数据集包含100000个，其中30个或更少的节点由Barabasi-Albert算法生成。用于验证和测试的数据集包含多达60个节点的图以及疾病和免疫节点的不同百分比。

image.png

架构和训练（ARCHITECTURE AND TRAINING）
用于感染任务的网络使用如等式1所示的单层图处理，而不使用图级别的(graph level)特征。边和节点的更新函数是浅层多层感知器，带有ReLU激活，我们使用sum/max池化来聚合与节点相关的边。我们使用Adam优化器（Kingma&BA，2014）最小化每个节点预测和真实值（the ground truth）之间的二进制交叉熵。多个超参数的选择，如学习率、隐藏层中神经元的数量和L1的正则化产生了相似的结果。sum和max池化的性能都很好，但前者在某些情况下会失败（图17）。

节点编码它们是生病还是健康，是免疫还是有风险，加上两个非形成性特征。边缘编码，不管它们是否是虚拟的，加上一个单一的非格式化特征。

B.2.溶解性

数据集和功能(DATASET AND FEATURES)
溶解性数据集与（Duvenaud等人，2015年）相同，由约1000个有机分子组成，这些有机分子表示为Smiles字符串及其在水中的测量溶解性。分子被表示为以原子为节点（以度、氢的数量、隐含的价和类型为特征）和以边键（以它们的类型、它们是否共轭以及它们是否在环中为特征）的图。

架构和训练
作为优化目标，我们使用测量的对数溶解度与多层gn输出图的全局特征u之间的均方误差，其中每层执行更新图，如等式1所示。使用多层图卷积，网络可以以越来越大的尺度聚合信息，从局部邻域开始，并扩展到更广泛的原子群。衰减应用于每一个线性变换的输出，作为一种抵消过拟合的技术。我们测试了多个超参数组合，并获得了与（Duvenaud等人，2015）相似的结果，使用3-5个维度为64、128或256的隐藏图层以及所有聚合操作的总和/平均值池。max池的性能要差得多，可能是由于任务的性质。

C.附加结果

C.1 感染

中型图的实例预测（EXAMPLE PREDICTION ON A MEDIUM-SIZED GRAPH）
在接下来的几页中，我们将对我们实验过的三种解释性方法进行深入的比较。我们考虑一个具有多个感染源和免疫节点的图。该网络使用最大池来聚合来自传入边缘的信息，在感染传播的一个步骤之后正确地预测每个节点的状态（图8）。在下面的图中，我们呈现了对图中三个节点产生的解释的可视化：一个节点感染了（图9），一个节点没有受到来自其邻居的感染（图10）和一个节点免疫（图11）。关于每个示例的观察结果，请参阅标题。

聚合：最大值与总和比较（AGGREGATION: MAX VS. SUM COMPARISON）
然后，本文对小图的解释进行了概述。对于每个输入图，我们显示两个预测：一个由使用max池的gn生成，另一个由使用和池的gn生成。预测之后是敏感性分析、指导性反向传播和层相关传播（按此顺序）产生的解释的可视化。对于每个可解释性方法，我们将梯度/相关性的值表示为每个节点/边缘的单个特征上的热图，并用图形表示。关于每个示例的观察结果，请参阅标题。

C.2 溶解性

分子的渐进变化（PROGRESSIVE ALTERATION OF A MOLECULE）
如讨论中所述（第5），选择以图的形式对分子建模会产生一种非冗余的、高度结构化的表示。因此，通过在欧几里得空间中执行小步骤来轻微改变分子的能力丧失了。这使得很难验证与训练后的网络如何预测溶解度相对应的解释。事实上，不可能根据分子的原子/键的重要性自动改变分子，并且仍然获得有效的分子。在这种情况下，有必要应用特定领域的知识，并确定哪些变化在有效分子的空间中是可行的。在图7中，我们展示了一个小例子，我们使用lrp来识别一个分子的重要原子/键，并逐步去除它们以降低预测的溶解度。

论文下载

[1] Explainability Techniques for Graph Convolutional Networks

参考资料

[1] 神经网络的可解释性：最新论文列表

代码

[1] # gn-exp/gn-exp

论文阅读（41）Explainability Techniques for Graph Convolutional Networks