scGraph: a graph neural network-based approach toautomatically identify cell types
https://doi.org/10.1093/bioinformatics/btac199
Abstract
Motivation: 单细胞技术在过去十年的生物学研究革命中发挥着至关重要的作用,这从单细胞水平的角度加强了我们对细胞分化、发育和调控的理解。单细胞RNA测序(scRNA-seq)是最常见的单细胞技术之一,它可以在一次实验中探测数千个细胞的转录状态。从scRNA-seq测量中识别细胞类型是一个需要回答的基本和关键问题。以往的研究大多直接以基因表达为输入,而忽略了基因-基因之间的综合相互作用。
Results: 我们提出了scGraph,一种利用基因相互作用关系的自动细胞识别算法来提高细胞类型识别的性能。scGraph是基于图神经网络来聚合相互作用基因的信息。在一系列的实验中,我们证明了scGraph在细胞类型识别方面是准确的,并且优于8种比较方法。此外,scGraph可以从生物数据中自动学习基因相互作用关系,通路富集分析的结果与之前的分析一致,为调控机制的分析提供了见解。
1 Introduction
随着跨越特定组织、器官甚至物种的scRNA-seq数据的快速积累,建立一个计算模型来自动识别新测序细胞的细胞类型是有意义的。这样的模型可以利用来自这些公共数据集的信息来确定单细胞的细胞类型,从而消除了主观性的问题,同时随后降低了分析工作流的复杂性。
有了丰富的注释和公开的scRNA-seq数据集,许多计算方法已经发展出来。CHETAH(de Kanter et al., 2019)是一种细胞类型识别算法,通过将查询的scRNA-seq数据与参考文献相关联,以分层的方式分配细胞类型。scID(Boufea et al., 2020)通过线性判别分析框架识别scRNA-seq数据集中转录相关的细胞类型。SingleR (Aran et al., 2019)基于查询scRNA-seq数据和参考数据之间的相关基因表达,为scRNA-seq分配细胞身份。
人工智能的最新进展使得在寻找数据中的模式和提取信息丰富的高级特征方面获得良好的性能成为可能 (Emmert-Streib et al., 2020)。越来越多的研究表明,深度学习技术,如word2vec (Zeng et al., 2018),卷积神经网络(Chen et al., 2021b; Liu et al., 2018),长短期记忆网络(Li et al., 2019)、生成对抗网络(Liu et al., 2019) 和深度生成神经网络(Liu et al., 2021),在生物信息学研究中表现非常出色。在scRNA-seq领域,也有一些由先驱者开发的深度学习方法。例如ACTINN(Ma and Pellegrini, 2020)使用一个多层感知器(MLP)来提取scRNA-seq数据的高级特征,然后自动识别细胞类型。此外,图表示学习也广泛适用于单细胞生物学(Hetzel et al.,2021)。scGNN是一种图神经网络,聚集细胞间的关系,用于基因推断和细胞聚类(Wang et al.,2021)。scFEA是一种图神经网络,利用代谢网络结构从scRNA-seq数据中推断细胞级通量组(Alghamdi et al.,2021)。虽然已经提出了许多细胞识别方法,但当应用于从不同管道生成的数据时,没有一种方法是足够稳健的方法(Abdelaal et al.,2019)。此外,上述方法都将基因表达作为输入特征,很少考虑基因之间的关系。
然而,研究表明,涉及基因调控网络或蛋白-蛋白相互作用(PPI)网络的基因相互作用在不同的生物环境中具有信息价值。例如,GCNN(Bigness et al.,2022)整合了Hi-C图谱中的远程调控相互作用来预测基因表达。DCell(Ma et al., 2018)是一个可见的神经网络,利用大型复杂的信号通路,以基因破坏基因型作为模型输入,可解释地预测细胞生长。此外,先前的研究表明,将scRNA-seq数据与先前的基因相互作用信息进行联合分析,可以导致对数据的有意义的理解。NetNMF-sc(Elyanow et al.,2020)是一种网络正则化的非负矩阵分解方法,设计用于scRNA-seq分析,它利用先验的基因网络获得更有意义的基因低维表示。相反,scRNA-seq数据也包含了丰富的信息来推断基因-基因相互作用(Fiers et al.,2018)。
基于上述理解,我们提出了scGraph,一种基于图神经网络的计算方法,它利用基因相互作用网络来克服技术噪声,并自动识别细胞类型。通过整合基因表达和基因相互作用信息,scGraph不仅可以用来识别单个细胞的细胞类型,还可以从实验数据中学习关键的基因相互作用关系。通过对跨越不同物种的8个数据集的scGraph和8种最先进的方法进行基准测试,结果显示scGraph的性能始终优于所有基线方法。最后,我们在人类细胞景观(HCL)数据集上训练scGraph(Han et al.,2020),并使用训练后的模型直接识别另一个人类scRNA-seq数据集的细胞类型,这证明了scGraph使用参考数据集准确识别细胞类型的能力。
2 Materials and methods
2.1 scRNA-seq数据集
收集了8个公开的数据集来对我们的方法进行基准测试。
在数据预处理中,我们首先过滤出少于10个细胞、不明确注释或注释为异常值的细胞类型/亚型。然后,将每个细胞的表达数据归一化,除以其总表达值,再乘以比例因子。我们假设基因表达的读取计数遵循负二项分布。因此,我们添加了一个伪计数,然后对每个缩放的表达式值应用log2转换。当原始读取计数值为零时,添加伪计数以避免任何无效的对数转换。
2.2 基因相互作用网络
scGraph利用基因相互作用关系来聚合每个基因的邻居信息,从而提高细胞嵌入和细胞识别。我们收集了7个不同的人类基因相互作用网络和1个小鼠基因相互作用网络,以评估scGraph作为不同的主干网络的性能。
我们注意到,当将基因相互作用网络应用于某个数据集时,只有在该数据集中出现两个相互作用基因的相互作用对被保留,其余的对被丢弃。换句话说,不同数据集的基因相互作用网络的相互作用对的数量可能会有所不同。为了捕捉一对基因中的两个调控方向及其对应的强度,基因相互作用网络被认为是一个有向图,因此对于来自无向基因网络的A基因和B基因的一条边,例如STRING PPI网络,我们将其视为一对边(即从 A 到 B 的边和从 B 到 A 的边)。我们此外,将每个基因的伪自作用对添加到基因相互作用网络中,以收集邻近基因的信息,同时保留基因本身的信息。
2.3 scGraph的构建
scGraph是一个图神经网络,以scRNA-seq数据和基因交互网络作为模型输入,自动预测细胞标签。如图1所示,scGraph由三个模块组成:(i)图表示模块,(ii)特征提取模块和(iii)分类模块。基因之间的相互作用关系可以自发地以图的形式呈现,其中应用图神经网络来建模这种关系。在图的卷积层中,每个节点代表一个基因,而两个节点之间的边代表这两个对应的基因之间的关系。图表示模块被设计为一个图卷积层,通过聚合每个节点的相邻节点的信息来更新每个节点。我们在图表示模块中使用改进的GraphSAGE卷积层(Haimlton et al., 2017)。GraphSAGE的原始更新公式可以表示为
由于在基因网络中,一些hub基因,如转录因子,比其他基因更重要。相互作用关系的重要性可能会有很大差异。为此,我们为每条边设计了一个可训练的参数,公式可以表示为
在这里,每个基因在图卷积操作后作为一个8D特征嵌入。
在特征提取模块中,每个基因聚合的基因特征首先分别经过包含12和4个隐藏节点的两个线性层,然后变平并输入包含256和64个节点的两个隐藏层的简单MLP。我们在每个全连接层后使用校正的线性单位函数和归一化层。特征提取模块降低了聚合基因特征的维数,该模块的输出不仅作为分类器模块的输入,还用于t-SNE可视化。最后,分类模块基于特征提取模块使用softmax函数提取的高级特征进行预测。
2.4 模型训练
scGraph的参数使用Kaiming初始化器进行初始化(He et al.,2015)。交叉熵损失用于训练,可以定义为
由于scRNA-seq数据集通常是不平衡的,因此使用了两种策略来减少不平衡训练集的影响。首先,利用加权交叉熵为不同的类别分配不同的损失值进行反向传播。然后,为了避免来自微小细胞类型的巨大交叉熵权重,对小类进行数据增强(见补充方法),以减少不平衡的概率。
3 Results
3.1 scGraph在自动细胞类型分类任务中优于基线
首先,我们用8种基线方法对scGraph进行了基准测试(见补充方法)。我们在8个数据集上评估了这些模型,并根据mean-F1进行了5倍交叉验证(表1和补充图S1A)和准确性(补充表S3和补充图S1B)。
如图2B所示,scGraph在每个处理不同数量的高度可变基因的数据集上都优于SVM和ACTINN,这表明scGraph处理不同基因规模的数据集具有鲁棒性能。
我们还在两个mouse数据集(即 AMB 和 TM)上使用基线方法对 scGraph 进行了基准测试。 为此,使用来自 STRING 数据库的mouse PPI 网络作为 scGraph 的主干网络。 并且 scGraph 在八种基线方法上仍然取得了最佳性能,表明 scGraph 可以用于具有特定物种主干网络的不同物种。
无论 scRNA-seq 管道如何,技术噪声都固有地包含在数据中,应在下游分析之前将其移除 (Hwang et al., 2018)。 为了测试 scGraph 解决技术批次效应问题的能力,我们在 HCL 项目的胎儿大脑数据集上训练了 scGraph,该数据集包含4个实验批次和6种细胞类型。 我们从 scGraph 的特征提取模块中提取每个细胞的高级特征,并使用 t-SNE 算法进行降维和可视化。 如补充图 S2A 和 B 所示,在 t-SNE 可视化中,细胞按细胞类型而不是按批次聚集在一起,表明 scGraph 可以极大地克服批次效应,并且可以有效地用于消除批次效应。
为了评估scGraph的结果是否与生物学发现相一致,我们以Zhang’sT细胞数据集作为说明(补充图S3)。我们首先使用scGraph提取每个细胞的高级特征,并应用t-SNE进行降维和可视化。如图2C和补充图S3A所示,scGraph都准确地识别了几乎所有细胞的细胞类型。此外,我们还检查了每种类型的生物标记物的表达。以生物标志物IL10为例(补充图。S3B),我们发现IL10基因在以IL10为其生物标记物的T细胞亚型中高度特异性表达。以上分析表明,scGraph在使用scRNA-seq数据的细胞类型识别方面具有很大的灵活性和性能。
3.2 scGraph在不同的基因相互作用网络中表现稳健(robustly)
我们首先检查了不同阈值对 STRING PPI 网络的影响。 我们使用八个阈值过滤 STRING 网络,以便分别保留组合得分最高的交互对的前 1%、3%、5%、10%、20%、30%、40% 和 50%。 然后,我们在 Zhang’s T cell数据集上使用这8个 STRING 主干网络评估了 scGraph 的性能。如图2D和补充表S4所示,scGraph记录了前1-10%STRING PPI网络在mean F1和auPRC方面的可比性能。但对于阈值>10%,我们观察到mean F1得分显著下降,这可能归因于STRING PPI网络中存在太多的组合得分较低的不交互对。接下来,我们在6个人类数据集上评估了具有前1%、3%、5%和10%的STRING网络的scGraph,以确定最佳阈值。如补充表S5和S6所示,使用这些不同的STRING主干网络的scGraph在mean F1和auPRC方面的性能具有可比性。这4个网络在6个人类数据集上的mean F1得分的标准差为1.23%,表明这些具有不同阈值的网络的scGraph的性能是稳健的。由于STRING数据库被广泛使用,而前1%的STRING网络是最有说服力和凝练性,所以我们使用前1%的STRING网络作为默认的主干网络。
接下来,我们评估了scGraph使用不同基因交互网络作为主干网络的scGraph的性能。我们从三个数据库中收集了其他四个人类基因交互网络,即 HumanNet-CF、HumanNet-PI、GENMANIA 和 FunCoup。请注意,我们只保留了 GENMANIA 和 FunCoup 得分最高的交互对的前 1% 来分别构建基因交互网络,因为它们的大型交互对包含大量模糊边缘。 我们还从 pgWalk 收集了两个精心设计的功能网络,它们是基于功能相似性构建的(参见材料和方法)。 我们比较了在6个人类数据集上使用不同主干网络的scGraph的性能。如补充表S7和S8所示,scGraph在不同的主干网络下取得了相当的性能。在6个人类数据集上,具有不同主干网络的scGraph的标准偏差为0.013。图 2E 直接根据 Zhang’s T细胞数据集上的精确召回曲线说明了 scGraph 在不同主干网络中的性能。从这些结果中,我们得出结论,scGraph对不同的主干网络具有鲁棒性,可以从不同的基因相互作用数据库中获得。
相比之下,我们另外用随机主干网络评估了scGraph的性能,以验证基因相互作用网络的有效性。我们将主干网络随机打乱10次,并在不同的数据集上进行评估。如图2F所示,与相应的主干网络相比,随机主干网络的平均fmean F1性能显著下降,平均下降了3.78%。以上分析表明,只要主干网络包含有效的基因-基因相互作用信息,它是非常稳健的,即使这些网络不仅在网络中的节点数和边数上不同,而且在网络功能类型上也不同。
3.3 scGraph可以准确和自适应地识别细胞类型
我们首先证明了 scGraph 的泛化能力不仅可以克服技术噪声,还可以克服设计的扰动。 scRNA-seq 实验通常在捕获时间、设备甚至技术平台方面存在显着差异,这可能会给数据带来技术噪音。 为了分析不同实验室引起的技术噪声,我们分别使用 CEL-seq2 和 SmartSeq2 协议从不同实验室收集了两个人类胰腺 scRNA-seq 数据集,并进行了与上述类似的分析。如补充图S4A和D所示,细胞按细胞类型而不是实验室类别很好地聚集起来,这表明scGraph可以克服技术人员引入的技术噪声。此外,scGraph还可以准确地预测细胞类型,而不管设计的扰动如何,这是细胞类型分类器广泛应用于不同场景的一个重要优势,如在体内、体外和其他刺激条件下。为此,我们首先收集了Kang's PBMCs数据集,其中有暴露于细胞因子干扰素(IFN-b)后的PBMCs实验组和正常PBMCs的对照组。实验组暴露于细胞因子IFN-b。这两组细胞的表达有显著不同的模式,在t-SNE图中也很容易通过实验条件分离(补充图。S4B和E),这是由原始论文中一般的scRNA-seq无监督处理分析生成的。我们在数据集的控制组上训练scGraph,并直接对治疗组进行细胞类型预测。我们通过上述类似的分析收集了细胞嵌入和预测的细胞类型。如补充图S4C和F所示,scGraph能够克服不同实验条件下的变化,准确预测实验组的细胞类型。总的来说,scGraph不仅可以很好地解决由不同的scRNA-seq协议和不同的实验室所引入的技术噪声,而且还可以克服由设计的扰动引起的变异。
为了验证 scGraph 是否可以使用预训练模型准确识别细胞类型,我们收集了三个人类胰腺数据集。 我们在 Baron 的胰腺数据集中训练了 scGraph 模型,因为该数据集的库容量很大,并且可以直接识别其他两个胰腺数据集的细胞类型。 如图 3 所示,scGraph 准确识别 Muraro's 数据集(图 3A)和 Segerstolpe's 数据集(图 3B)中大多数细胞的细胞类型。 例如,scGraph 分别为 Muraro 的胰腺数据集精确地恢复了 97.3%、95.3%、90.2%、98.4% 和 98.1% 的 α 细胞、β 细胞、ductal细胞、δ 细胞和 γ 细胞。
为了评估 scGraph 处理大型 scRNAseq 数据集的能力,我们构建了一个完整的人类细胞类型自动分类模型,在整个 HCL 数据集上进行训练,其中包括 59 种人体组织和 63 种细胞类型。我们首先在这个参考数据集上训练了 scGraph,混淆矩阵证明了 scGraph 模型的高精度(补充图 S5A)。接下来,我们在其他独立的人类 scRNA-seq 数据集上验证了 scGraph 的性能,假设它们是新的测序 scRNA-seq 数据集。如果某个细胞的所有细胞类型的预测概率小于阈值,即这里的 0.1,scGraph 将拒绝进行分类。换言之,该细胞可能属于不在参考数据集中的新细胞类型。我们通过训练有素的 scGraph 模型对 Kang's PBMC 数据集进行了细胞类型预测。如补充图 S5B 所示,PBMC 数据集中的几乎所有细胞类型都被投影为正确的参考。上述分析证明了 scGraph 在细胞类型自动识别中的实用性。
3.4 scGraph揭示了重要的基因相互作用关系
值得注意的是,scGraph 不仅达到了最先进的性能,而且还从边缘重要性得分向量 S 中学习了基因相互作用关系。请注意,边缘重要性得分向量 S 会随着模型训练过程而更新,一次 scGraph模型完成训练,得到基因-基因国际网络的权重。 然后,我们根据边缘重要性分数 s 对基因-基因相互作用对进行排序,并选择最重要的独特靶基因进行下游分析。
为了证明 scGraph 可以学习一致的必需基因,我们从具有 STRING 主干网络的 5 个训练好的 scGraph 模型中收集了 5 个前 50 个目标基因的列表,这些模型是从 Zhang 的 T 细胞数据集的不同交叉验证折叠中训练出来的。如图4A所示,这5个必要基因列表相互一致,平均重叠奇数(见补充方法)为79.2%,由93个独特的基因组成,称为组合必需基因列表。对于分别使用HumNet-PI和pgwalk-KEGG骨干网络的scGraph模型,也可以得到类似的结果(补充图。S6A和B)。接下来,我们证明了由不同的主干网络优先排序的必要基因列表是相互一致的。如图4C所示,STRING、HumNet-PI 和 pgwalk-KEGG 主干网络的组合基因列表分别由93、96和97个基因组成(见补充表S9)。平均重叠奇数为49.7%,背景的平均重叠奇数为0.003%(见补充方法),表明不同主干网络优先排序的基本基因列表的一致性。这一结果也解释了为什么scGraph在不同的主干网络上存档了相似的性能。以上分析表明,scGraph可以从不同的主干网络中稳健地发现一致的必要基因。
接下来,我们展示了scGraph发现的组合必要基因聚集了来自数据集和主干网络的信息。如补充表S10所示,来自带STRING 主干网络的scGraph组合必需基因中,只有6个和13个基因与前100个高变异基因和前100个高表达基因重叠。使用HumNet-PI和pgwalk-KEGG骨干网络在scGraph上进行了类似的分析。这些结果进一步支持了必需基因的发现不仅取决于基因的表达水平或变异水平,还取决于基因在基因相互作用网络中的位置的结论。
此外,为了证明scGraph得出的组合必需基因列表具有组织特异性,我们首先通过类似的分析,在Barons胰腺数据集上进行了101个必需基因的组合必需基因列表(图4b)。有趣的是,来自T细胞数据集和胰腺数据集的两个curated 基因列表之间没有任何重叠。然后,我们通过MetaScape进行了途径富集分析(Zhouetal.,2019)。T细胞和胰腺数据集的通路富集结果分别如图4D和补充图S6C所示。对于Zhang’sT细胞数据集,大多数通路与免疫反应高度相关。最显著富集的氧化石墨烯生物学过程是GO:0042110(T细胞活化),经过多重检验调整的P值为,描述了刺激导致的成熟或未成熟T细胞的形态和行为的变化。Reactome 基因集富集分析表明,最重要的途径是 R-HSA-198933(淋巴和非淋巴细胞之间的免疫调节相互作用),经过多重检验调整的 P 值为 ,它由许多作为适应性免疫系统的一部分,受体和细胞粘附分子在改变免疫细胞对自身、病原生物和肿瘤抗原的反应方面发挥着重要作用。它令人信服地证明了这些 T 细胞的功能,这些 T 细胞是从结肠直肠肿瘤和邻近的正常组织中取样的。至于胰腺数据集,scGraph 还发现了重要的胰腺特异性通路,包括 Reactome 通路 R-HSA-420092(胰高血糖素型配体受体)和 GO Biological Processes GO:0033762(对胰高血糖素的反应)。上述通路富集分析充分勾勒出相应数据集的共同属性,表明 scGraph 有效地利用了基因相互作用骨干网络,并准确地从 scRNA-seq 数据中学习组织特异性基因-基因关系。
4 Discussion
我们提出了 scGraph,一个由用于自动细胞识别的图神经网络组成的计算框架。 我们首先在8个数据集上针对8种基线方法(包括 SVM 和 ACTINN)对 scGraph 进行了基准测试。 结果表明,scGraph 可以准确地区分细胞类型和亚型,显示其性能优于比较方法。在证明了scGraph对不同基因主干网络的鲁棒性后,我们在不同条件数据集上设计了一系列实验,并说明了 scGraph 在可视化、鲁棒性、可扩展性和灵活性方面的性能。
为了进一步说明 scGraph 的这一优势,我们利用在特定数据集上训练的 scGraph 模型的边缘重要性评分向量来发现组织特异性必需基因。 通过一系列实验,我们发现scGraph发现的必需基因是合理的,并且与多次运行一致。 这些必需基因的通路富集还表明,scGraph 能够从不同的数据集中提取有意义的组织特异性基因-基因相互作用信息。
在本研究中,我们说明了图神经网络能够提取有意义的特征,并基于scRNA-seq谱和主干网络提供生物学见解,从而为理解基因调控机制提供了思路。当然,我们的工作也有一些方面需要改进。首先,scGraph识别稀有细胞类型的性能需要提高,这对许多生物过程都很重要。其次,需要改进scGraph的训练过程,以减少计算时间。然后,值得将通路信息或GO本体生物过程信息嵌入到模型中,仅类似于DCell,它将生物本体嵌入到模型中,以预测酵母的生长表型和遗传相互作用。将不同种类的基因相互作用网络组装成一个模型来促进性能也是值得的。最后,随着其他单细胞技术的快速发展,利用图神经网络整合不同的组学数据,利用调控网络分析单细胞数据是值得的。我们把这些方向上的探索留给了未来的工作。