文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注。
导读
近些年来,图神经网络(GNN)在计算机视觉、辅助诊断等领域的应用得到了前所未有的发展。以往的研究主要集中在提高模型的准确性上,但在临床应用中,如何对GNN下最具鉴别特征的可重复性进行量化仍然是一个问题,这使人们对其可靠性产生了担忧。由于,在不同临床数据集下生物标志物的可重复性以及在不同类别(如健康和紊乱的大脑)中的分布变化,对于揭示疾病的机制以及推动个性化治疗的发展至关重要。作者首次提出了基于可重复性的GNN模型选择(RG-Select),这是一个在不同模型之间寻找相同的生物标志物来对GNN的可重复性进行量化评估的方法。为了检验该方法的可靠性,可重复性评估包括了不同因素的变化,如训练策略和数据扰动。在不同的训练策略和不同的临床数据集上,该方法成功地得出了一致性的结论。因此,本研究的发现有利于寻找评估生物标志物可信度和可靠性的方法,用于计算机辅助诊断和预后任务。RG-Select代码可以在GitHub https://github.com/basiralab/RG-Select上获取。
1.前言
由于深度学习(DL)在处理分类和回归等问题上的有效性,深度学习在神经科学中的应用范围正朝着多个方向呈指数级增长。从不同的模式(例如,结构和功能MRI)获得的大量非侵入性神经成像数据,以及新的计算方法的使用,无疑将推动研究的进展,这深化了我们对大脑连接性的理解。特别是在网络神经科学中,图结构被认为是一种强大的数据展示方式,因为它能够编码不同大脑区域之间的连接。大脑连接性是指大脑不同解剖区域(ROIs)的连接图,可以提供大脑网络结构的全面地图。它有助于以非侵入性的方式更好地理解不同ROI之间在解剖学上的相互作用。大脑连接性可以被建模为一个图,其中每个节点表示一个ROI,一条边连接两个ROI,从而量化它们之间的相互作用。传统的DL方法,不能充分利用非欧几里得数据的拓扑性质,因而得到的结果并不尽如人意。而图神经网络(GNNs)做为一种可以处理非欧几里德数据的扩展DL方法,可作为传统DL算法的替代品。在网络神经科学领域,GNNS在执行给定任务(如分类或回归)下寻找图的拓扑特征方面显示出了良好的潜力。
迄今为止,大多数用于网络神经科学的DL和GNN分类模型主要集中在提高区分两种神经状态(如健康和神经紊乱)的准确性上。可以评估GNNS在给定的学习任务中重现最具有鉴别ROI集的能力。具体来说,如果两个模型在最重要的特征/生物标志物上存在相同特征,这表明这些特征在各个模型中是可重复的。由于不同的模型最终会发现相同的判别特征,这表明这些模型是可重现的。此外,使用各种交叉验证策略改变训练和测试数据的分布状态,用于评估这种共识是否成立。一个特定的GNN模型能够在不同的交叉验证策略下与大多数其他模型一致地再现相同的特征,这表明了该模型具有高再现性。因此,在GNN-to-GNN再现矩阵中,将使用最具再现性的模型作为中心节点。以往基于准确性的GNN比较只关注最终的分类结果,而忽略了实际的生物标志物的可靠性(即无法准确识别生物标志物背后的神经科学意义)。然而,与基于准确性的GNN评估不同,在可重复性定义下,临床治疗中患有相同大脑疾病的患者会显示出更高的疾病生物标志物重叠(例如,阿尔茨海默症患者的皮层厚度降低),这样在临床治疗中得到的生物标志物结果更为可靠。
可重复性已被建议在数据分布扰动下寻找两种模型间的差异。可解释性研究侧重于揭示不同层和权重如何影响GNN的决策(即,分类,分割),而可重复性研究重点在于评估即定的GNN在多重数据扰动下产生和再现一致结果的能力。作者主要感兴趣的是后者,目的是研究和量化给定GNN的可重复性。具体地说,GNNs预测是通过识别大脑区域之间不同的连接变化来进行学习的,这些改变标志着一种特定的紊乱情况。为了加深对大脑连接性的理解,作者将从生物标志物的角度量化GNN的可重复性,这对可靠性的评价至关重要。在这种情况下,模型的可重复性,可以看作是它与其他模型一致性的可能性大小。具体来说,对GNN模型的可重复性进行评分,也就是将其最相关的特征与其他GNN模型识别的特征求交集。并且在训练和测试数据分布的各种扰动下进行GNN的再现性评估。
有研究也试图解决生物标志物或特征再现的问题。Jin等人(2020)研究了从不同站点收集的数据集的再现性,用于评估即定模型的适用性,Du等人(2020)通过研究跨数据集的生物标志物的再现性,以提取出最能重现的导致神经异常的大脑变化。尽管他们已经得出了可靠的结论,但这些方法并没有研究大脑多图数据集下(即,对于同一对节点,具有不同连通性度量的图)连接性的可重复性。另一个工作重点是跨模型的可重复性,这种方法更能体现一致性,因为它同时考虑了多个模型,并考虑了包含大脑的多图数据集。此外,Georges等人(2020)提出的方法只关注了传统的特征选择(FS)方法,由于其复杂性,无法直接应用于GNNs。大多数GNNs都包含了改变输入空间原始维数的图嵌入或图重构操作。为此,作者提取即定GNN模型最后一层的权值,以保留原始图的维数。此外,为每个GNN构建了一个特征图,以描述神经生物标记物的区别,在这里指的是大脑ROIs。最后一层可以看作是给定神经网络中所有先前神经元的加权组合,这一事实也证明了这种选择是正确的。最后,使用不同的策略来分析不同GNN模型下特征的交集,以选择最具再现性的GNN,如图1所示。
本研究使用再现性的概念来描述GNN在不同扰动技术下如何很好地再现相同的结果。更重要的是,在本研究中,作者提出了可重复性的概念作为GNN模型最佳的选择标准。值得注意的是,与生物标志物相关的权重特征图反映了在输入域中既定GNN模型的重要性。通过将特征选择示例中的再现性概念定义为不同模型中所选择生物标志物的共识,可以将这种方法扩展到GNN模型中,将学习到的权重作为一个重要因素。然后选择顶部加权的生物标志物,从不同的角度研究GNN之间的重叠。为了确保普适性,本研究考虑了多种因素的变化,如大脑连接测量、训练数据分布扰动策略以及两种不同神经状态(例如,健康vs.紊乱)。基于这些因素,以GNN再现性为目标,使用不同的技术,以建立一个可推广和可信的临床解释。
因此,作者提出了一种基于再现性GNN选择(RG-Select)的新框架,该框架研究了大脑连接多图数据集中GNN分类器的再现性,其中两个节点由多个边连接,每个边捕捉大脑交互的特定方面。具体地说,本研究的目标是在不同的设置下严格地评估该框架,以便提供可推广的结果。在此背景下,本研究纳入了以下因素的变化:(1)GNNs,(2)每个数据集的脑连接测量,(3)训练策略,(4)选择生物标志物的数量,(5)连接测量(例如,皮层厚度和沟深度)。考虑到这些因素,本研究通过给定一个GNN模型和特定的感兴趣的数据集,让RG-Select识别出最具再现性的GNN模型。
2.基于再现性的图神经网络选择(RG-Select)
这部分将详细介绍RG-Select如何用于量化GNN的再现性,如图2所示。首先,从每个多图中分离视图来构造单视图数据集。在每个数据集上分别训练一组GNN。在训练之后,根据所得到的权重进行排序,提取出具有鉴别性的生物标志物(即ROIs)。最后,根据模型间的鉴别性生物标志物重叠对每个模型进行评分。模型间可重复性评分用于建立综合的可重复性矩阵,该矩阵包含了不同因素的变化。
2.1.问题陈述
由于数据集中含有大脑连接的多图数据,所以用
对不同的大脑神经状态进行分类,用
和
分别表示大脑连接性的多图的数据集和标签。每个连通性数据集Gi是通过叠加(即连接)一组nv视图来获得的。每个视图作为一个连接性矩阵,代表不同的皮层测量值(例如,皮层厚度)。用公式:
表示视图,
表示多重图数据中的视图索引。而大脑连接多图数据可以用向量
和标签
来表示。
设
是第j个视图构建的数据集。给定一组nm GNNs {GNN1, GNN2, . . . GNNnm },作者感兴趣的是在单视图数据集
下的训练模型GNNi:
,目标是在不同的数据扰动下,识别最具再现性的GNN,用于区分两种大脑状态的相同生物标志物。因此,从第i个GNN模型提取权重向量wi∈Rnr,其中 i∈{1,2,…,nm},对每个既定的数据集中提取所有视图和GNN的权重。接下来,再根据各自权重的绝对值对生物标志物进行排序。最后,计算再现性得分,具体如下所示。
2.2.模型选择与评估
与机器学习实践一致,作者分别进行了模型选择和评估步骤,以确保按照Errica、Podda、Bacciu和Micheli(2019)中的协议对模型进行评估。为此,作者将训练集划分为内部训练集和拒绝子集。接下来,在内部训练集上训练GNN,并在拒绝子集中对其进行验证,以进行模型选择。模型选择的目的是根据验证集的性能来寻找最优参数。接下来,选出验证集中的最优参数组合。然后,在模型评估步骤中使用最优参数,再根据不同的k折交叉验证(CV),k折CV由k个不同的训练/测试分割组成,用于评估模型的性能。对每个模型在单独的测试集上进行评估。在每次迭代中,选择从未使用过的样本子集上对模型进行测试。此外作者也对不同数据分区中的分层标签进行了确认,以便在所有训练/测试/验证分割中保留类比例。
2.3.GNN训练模式
采用不同的训练方式对GNN进行训练,以保证结果的适用性。基于传统的k折交叉验证协议进行训练,按照erica等人(2019)的方法在训练集上对模型进行训练。该模式只对数据集中的少数样本进行模型训练,并对剩余的对象进行评估,使用这两种方法对于确保该框架的结果与数据扰动和训练策略无关是至关重要的。
2.4.生物标志物的选择
传统方法重点关注鉴别的准确性,然而,本研究重点关注的是生物标志物在不同模型下的再现性。通常情况下,用FS方法提取最具鉴别性的生物标志物是很简单的。但是,由于GNN方法的体系结构不同,无法用一种方法来提取所有重要的生物标志物。为了规避这个问题,作者保留了输入数据最后一层的权重。具体来说,根据既定的GNN对这些生物标志物的学习权重进行排序。基于该顺序,根据输入多图数据集的第j个视图训练的第i个GNN学习到的权重,提取包含前Kh个生物标志物的
。
定义1
分别表示GNNi和GNNj在同一视图v上学习到的k的生物标志物中的两个向量。用
分别表示包含区域的两个集合。定义视图v在模型i和j之间的阈值k处的特定视图再现性为
定义2
分别表示同一GNNg在视图i和视图j上学习到的前k个生物标志物中的两个向量。用
和
表示包含区域中两个集合。将阈值k在视图i和j之间的特定GNN的再现性定义为
2.5.特定视图的再现性矩阵
对于一个包含nm GNNs的集合,目标是量化每对模型之间的可重复性。由于可重复性反映的是两组生物标志物之间的共性,所以选择计算重叠ROIs的比率。首先,需要量化相同区域中的再现性。换句话说,对于给定的视图v和阈值Kh的情况下去计算每对模型GNNi和GNNj的比值 。计算出每对GNN的再现性后,构造出再现性矩阵
,
,接下来,通过合并不同p阈值
下所有再现性矩阵来生成得到再现性矩阵的均值nk,其中nk是阈值的数量。最后,在对局部的可重复性计算得到所有视图的再现复性。因此,作者对所有视图和训练模式的结果矩阵进行均值计算。
2.6.特定GNN的再现性矩阵
另一种量化再现性的方法,先是量化相同GNN视图间的共性,这是因为GNN在不同的数据视图上有不同的学习权重分布。对于同一个模型,对特定GNN下不同视图之间的再现性进行计算。对于给定的GNNg,构建出矩阵
,其中
。然后,计算阈值的均值,
。最后,计算出不同训练模式下,每个模型特定GNN再现性矩阵的均值。
3.结果
3.1.评估数据集
作者在大小规模不同的大脑连接数据集上评估了再现性框架。第一个数据集(AD/LMCI)包括77名受试者[41名受试者被诊断为阿尔茨海默病(AD)(平均年龄70.4±7.5)和36名诊断为晚期轻度认知障碍(LMCI)(平均年龄74.1±6.7)],来自阿尔茨海默症神经成像计划(ADNI)数据库GO公共数据集。第二个数据集(ASD/NC)包括300名受试者(均为15岁以下),他们分别处于孤独症谱系障碍(ASD)和正常对照(NC)状态,这些数据来自于孤独症大脑成像数据交换的ABIDE I公共数据集。
对于这两个数据集,使用FreeSurfer通过结构T1-W MRI对每个受试者的皮层形态网络进行构建,从而获得大脑连通性信息。接下来,使用Desikan Killiany分别将左右皮层半球(LH和RH)分成35个皮层ROIs。使用4个皮层测量值来构建AD/LMCI (RH和LH)的大脑多图数据,包括最大主曲率、皮层厚度、沟深度和平均曲率。除了皮层表面积和最小原则面积外,大脑多图还包含了6个与AD/LMCI数据集相同的皮层属性信息。具体来说,对于每个节点ROIi和每个皮层属性,对其所有顶点的平均皮层测量值
进行计算,用平均皮层属性
之间的绝对距离,作为ROIi和ROIj的连接性权重。本研究的再现性框架使用了5种最先进的GNN模型:DiffPool、GAT、GCN、SAGPool以及g-U-Nets。
3.2.训练设置和超参数
作者使用了两种不同类型的训练:资源丰富和朴素。资源丰富的训练采用常规的方法来对模型进行训练。作者还制定了3折和5折交叉验证策略。除了基于k折交叉验证的资源丰富训练法,还对少样本的朴素训练法进行了验证,也就是对每个数据集的类别只训练2个样本。为了限制与参数/样本选择相关的干预,进行100次的重复随机实验。使用了4个阈值来提取顶部生物标志物,分别是5、10、15和20。采用网格搜索法选择参数,所有模型的学习率都在0.0001和0.001之间。
3.3.总体再现性矩阵
3.3.1.基于特定视图矩阵的再现性
为了量化GNN模型的再现性,作者使用了4种不同的方法。第一种方法包括计算特定于视图的再现性矩阵,再在对选定数据集的所有视图求平均值。这个方法可以直观的结合每个视图的计算信息。
3.3.2.基于特定GNN矩阵的再现性
对特定GNN的再现性矩阵进行排序。对于每个GNN,提取一个向量来表示视图的秩次。接下来,根据各自的再现性矩阵,计算每对GNN之间的相关系数。因此,作者构建了一个包含GNN对应关系的再现性矩阵。这个方法可以有效的反映GNN在不同视图之间的相同行为。
3.4.选择最具再现性的GNN模型
本研究将再现性矩阵定义为上述两个矩阵之和。为了利用特定GNN和特定视图的矩阵,作者将上面两个再现性矩阵相加。因此,可以将整体的再现性矩阵视作一个图形,其中节点表示GNN模型,节点强度量化表示GNN模型的再现性评分。这一概念基于模型的再现性反映了生物标志物与其他模型的相同点。将这个想法投射到拓扑图上,节点强度做为拓扑度量,表示与图中其他部分的连接强度的大小。对于每个神经数据集,使用CV和FS两种不同的训练方式来训练GNN模型。图3和图4分别说明了AD/LMCI RH和LH数据集的再现性矩阵。对于这些数据集,最具再现性的GNN模型分别是DiffPool和SAGPool。图6和图5展示了ASD/NC数据集的再现性性矩阵。从整体矩阵而言,g-U-Nets和GAT分别是LH和RH上最具再现性的模型。结果表明,对于所有的数据集,在不同的训练模式下,最具再现性的模型选择是通用的。这说明了本研究的框架在不同数据分布扰动下对再现性进行评估的能力。此外,不同模型间的最高节点强度在再现性上的得分(基于相关性和基于平均)可能不完全相同。这说明了GNN的选择高度依赖于再现性评分。然而,关于最具再现性的模型选择,结果矩阵的总和给出了一致的结论,一旦选择了最具再现性的GNN模型,将提取其学习权重,如图7所示。
结论
大多数分类模型都专注于提高既定模型的准确性,然而在本研究中,研究者解决了特征再现的问题。这是第一次使用多图大脑连接数据集来研究GNN在生物标志物中的再现性。RG-Select在不同的训练策略(如交叉验证和少样本学习)下显示出一致的结果。此外,作者在不同规模的数据集上对本研究中的框架进行了评估,这项工作在精准医疗方面又迈出了一大步,因为它在不同扰动下结合了多视图的临床数据集对神经生物标志物的再现性进行了研究。作者相信,再现性框架在神经紊乱人群的研究中,将有助于大脑连接的生物标志物的提取。该框架的一个主要缺点是运行所有实验过程消耗的时间太长。为了解决这个问题,未来的研究将在不同扰动下对即定模型整体再现性进行预测,而不是在所有数据集上运行该模型。
原文:Quantifying the reproducibility of graph neural networks using multigraph data representation.
https://doi.org/10.1016/j.neunet.2022.01.018
代码获取网址:
https://github.com/basiralab/RG-Select