hello,大家好,其实之前已经给大家已经分享过很多空间基因共表达模式的文章,今天给大家介绍一个新的方法,用于评断在组织中不同空间位置或细胞类型的基因-基因共表达的表征能够描绘空间共调节模式,而不是标准的差异单基因分析,参考文章在SpaceX: Gene Co-expression Network Estimation for Spatial Transcriptomics,非常棒的文章,很适合用于分析空间转录组。
Abstract
Motivation
空间分辨转录组的分析有助于了解细胞环境和转录调控之间的空间相互作用。 特别是,在组织中不同空间位置或细胞类型的基因-基因共表达的表征能够描绘空间共调节模式,而不是标准的差异单基因分析。 为了增强空间转录组学技术推动生物发现的能力和潜力,开发了一个统计框架来检测空间结构化组织中的基因共表达模式,该组织由细胞类别或组织域形式的不同cluster组成。
Results
开发了 SpaceX(空间相关基因共表达网络),这是一种贝叶斯方法,用于识别跨基因的共享和特定cluster共表达网络。 SpaceX 使用过度分散的空间泊松模型与基于降维技术的高维因子模型相结合,以提高计算效率。 通过模拟显示,通过考虑(增加)空间相关性和适当的噪声分布,共表达网络估计和结构的准确性提高。 使用SpaceX深入分析小鼠下丘脑和人类乳腺癌的两个空间转录组数据集,检测到与下丘脑数据认知能力相关的多个hub基因和乳腺癌肿瘤区域的多个癌基因(如胶原家族) 数据。
Introduction
空间转录组学的最新技术进步促进了生物组织中高通量 RNA 测序数据的获取,同时也考虑了空间信息。为了破译组织内的空间细胞结构,空间转录组学技术(如 10X Genomics Visium 和 Slide-seq)使用空间索引条码和 RNA 测序,允许使用单个组织切片中的空间信息对转录组进行定量分析。这些新技术可以帮助理解包括发育脑组织和肿瘤微环境在内的许多生物系统的空间组织,并有助于表征细胞环境和基因表达之间的空间相互作用,并描绘健康和患病组织之间的组织组织差异。空间转录组学的一个主要兴趣点是研究组织中细胞间信号的空间变化,这可能是疾病病因以及psychological or behavioral patterns的基础。
转录组分析的一个重要方面集中在基因共表达模式上,因为基因往往通过生物网络彼此自然地相互关联。基于网络的模型提供了一个简单且可解释的框架来表征各种生物系统中复杂的基因相互作用模式。基因共表达网络通常使用基于图的表示进行表征,其中节点表示基因,边表示基因之间的关联或调节相互作用。已经开发了几种网络方法来检测基因共表达网络并识别基因调控社区或模块,以产生与潜在生物和调控途径合理相关的生物学见解,了解因果组织或细胞类型,并可能影响疾病风险和结果。与仅测量单个基因表达修饰的标准差异表达分析相比,识别病例和对照等条件之间的网络结构变化可以揭示特定疾病的重要补充信息。
在标准单细胞研究中构建基因共表达网络的大多数现有计算方法本质上都涉及降维步骤,该步骤可实现两个目标:一个是避免维数灾难并帮助计算可行性;其次是在减少噪声的同时保留内在维度。然而,现有的网络方法并没有包含在空间转录组学中至关重要的空间信息。仅提出了有限数量的工作来研究空间转录组学中的基因相互作用或共表达模式。提供空间共表达网络、基因图卷积神经网络和 Giotto 方法的可视化,特别关注配体和受体的相互作用。此外,所有这些方法都假设在给定样本中具有共同的基因网络。然而,人们可能不会期望一个共同的网络能够捕获所有的空间依赖性,因为基因组特征可能会表现出基于样本内特定空间位置的区域特定异质性。例如,这些区域可以是病理学上不同的区域(例如肿瘤与癌症中的正常区域)或基于不同的细胞类型,因此这些区域可以表现出截然不同的共表达模式。
为此,提出:空间依赖性基因共表达 (SpaceX) 网络模型,以推断具有共享和区域特定组件的空间转录组数据的基因共表达网络。 下图显示了pipeline的整体概念流程。 用于分析空间基因表达的给定组织切片的图像覆盖在组织切片上,在空间位置上有(已知的)cluster注释。 基因表达矩阵的结果数据矩阵以及组织上每个空间位置的空间定位和聚类注释信息用作 SpaceX 模型的输入。 SpaceX 使用过度分散的空间泊松模型和高维因子模型(Panel H)来推断共享和集群特定的共表达网络。 最后,这些网络用于下游网络分析,以检测跨空间区域的基因模块和枢纽基因,以进行生物学解释。
简而言之,SpaceX 使用贝叶斯模型通过在确定网络拓扑时结合空间信息来推断空间变化的共表达网络。 概率模型能够量化不确定性,并基于计算效率的相干降维技术。 通过严格的模拟,证明SpaceX模型能够准确地恢复网络结构并提高不同空间相关结构的估计精度。 将 SpaceX 模型应用于小鼠大脑成像和乳腺癌数据集,以确定特定区域的网络。 进一步的下游分析检测到基因模块和相关枢纽基因的多个社区。 分析能够识别与小鼠下丘脑数据的行为模式和认知能力相关的多个基因。 类似地,从乳腺癌的肿瘤区域中检测到多个胶原蛋白和癌症特异性基因。
SpaceX model
Method overview
在输入数据结构方面,表示观察到的基因表达数据来自 G (g = 1, . . G) 基因,以及空间索引clusters C (c = 1, . . , C),大小为 Nc (i = 1, ... Nc)。 这些cluster可以是特定于细胞类型的注释不同的细胞类型,也可以是注释不同空间域的空间连续cluster。 这里构建了一个 G 维网络,其中 G 基因之间的依赖关系可以用一组顶点 V = {1, . . . , G} 和一组边 E ∈ V × V 。 两个节点之间的边 (E) 表示它们之间的共表达水平,这是使用相似性度量定义的,在例子中是相关系数。 在 SpaceX 模型中,构建了由以下两个层次组件组成的网络:
- A “shared" component representing the global co-expression network among genes across the spatial domain;
- A “cluster" specific component representing the local or clusterspecific gene co-expression network for a given (c-th) cluster.
这种分解实现了两个目标。 首先,它能够精确描述跨空间集群保守和修改的共表达网络components,从而实现更连贯的解释。 其次,这有利于降维技术,使整个方法可扩展到大型网络。SpaceX算法以基因表达矩阵、空间位置和cluster注释作为输入。 在第一步中,该算法使用泊松混合模型估计潜在基因表达水平,同时调整协变量和空间定位信息。 在下一步中,它利用潜在基因表达的稀疏分层因子模型来获得共享和集群特定的共表达网络。
Model construction
在模型 (1) 公式中,有效地利用降维技术来确保基因共表达网络的可扩展构建。 方法基于潜在因子模型,该模型利用低维结构,特别是对于多视图数据,同时识别共享共表达网络并隔离集群特定网络。 通过因子模型和协方差矩阵之间的对应关系,这能够推断基因共表达网络的两个重要且分层的components:
Bayesian estimation algorithm
为了拟合模型 (1),使用易于处理的贝叶斯估计程序以及计算效率高且可扩展的算法,如下所述。 与倾向于计算密集型的全尺度马尔可夫链蒙特卡罗 (MCMC) 算法相反,这里将整个模型估计解耦为两个关键components (I) 空间泊松混合模型和 (II) 分层因子分析模型,and the two components are linked in a sequential manner in our algorithm:
Co-expression network construction and inference
Simulation studies
评估了 SpaceX 模型在模拟一系列空间依赖性下的真实数据应用的合成数据集中的性能。 核心假设是,通过考虑空间相关性,随着空间相关性的连续增加,应该能够实现更好的估计和共表达网络恢复(共享的和特定于clusters的)
总之,看到 SpaceX 模型在一系列空间依赖关系中显着改善了网络估计和结构恢复。 最高增益是在空间相关性高时(例如 0.88)。 这表明有利地考虑空间相关性以及适当的噪声分布(即泊松模型)可以提高共表达估计的效率。
Gene co-expression networks using spatial transcriptomics data
使用小鼠下丘脑和人类乳腺癌中的两个空间转录组学数据集来说明 SpaceX 模型,小鼠下丘脑数据集是单细胞分辨率,空间位置代表细胞,位置cluster代表细胞类型。 乳腺癌数据集具有区域分辨率,每个空间位置由多个单细胞和代表三个组织域(肿瘤、中间和正常)的位置cluster组成。
Hypothalamus data
MERFISH 数据集是从小鼠下丘脑的视前区收集的,该区域调节许多social behaviors。 MERFISH 技术测量不同细胞类型的单个细胞的基因表达,提供对组织中细胞空间组织的洞察。 该数据集由 160 个基因组成,相应的基因表达是在 4812 个空间位置测量的。 这些细胞已被注释为 7 种不同的细胞类型(大小),即星形胶质细胞 (724)、内皮细胞 (503)、室管膜细胞 (314)、兴奋性神经元 (1024)、抑制性神经元 (1694)、未成熟神经元 (168) 和 成熟神经元 (385)。
所有细胞类型的空间分布下图A所示。使用 SpaceX 获得共享和特定于细胞类型的网络。共享网络显示在中心,其中基因根据特定细胞类型的差异表达进行分组和颜色编码。使用 Wilcoxon 检验来检测基因是否在特定细胞类型中被显著地表达。遵循下图B中的所有网络图,在细胞类型内观察到更多的基因-基因共表达边缘,而不是细胞类型之间,这与预期一致。为了总结连通性水平,提供了一个矩阵的圆形热图,每个条目是一个基因相对于特定细胞类型的基因连接数。右侧细胞类型的树状图显示未成熟细胞类型中基因之间的联系与其他细胞类型不同。根据每个基因的连接数,确定了每种细胞类型的中心基因。
下图D,发现跨膜蛋白 108 (Tmem108) 是除内皮细胞外所有细胞类型的枢纽基因。 Tmem 108 portine 是双相情感障碍和重度抑郁症等精神疾病的主要基因。另外两个检测到的枢纽基因 CCKAR 和 CCKBR 作为胆囊收缩素 (CCK) 的受体,这些基因与胃肠道疾病有关。 CCK 受体的缺失可导致皮质发育异常和皮质中间神经元迁移。在健康和受伤的小鼠大脑中,sema4D(内皮、未成熟和兴奋性中的另一个中枢基因)缺乏会导致少突胶质细胞数量增加。 TAC1 调节肥胖水平以响应生长素释放肽给药和性腺功能的变化。沿着这条线,另一个中枢基因 SLN 或肌磷脂的过度表达是肌肉能量的调节器,可以减少疲劳。 TAC1 和 SLN 在共享和特定于细胞类型的网络中高度相关。这种关联在所有细胞类型中都是保守的,这两种基因都是调节肥胖和疲劳的重要因素。
Breast cancer data
人类乳腺癌数据是通过对厚度为 16μm 的组织进行活检收集的。 苏木精和伊红 (H&E) 染色图像显示在下图A 的左侧,其中深色染色代表潜在的肿瘤区域,其余部分可分为中间区域和正常区域。 根据 H&E 染色图像手动将位置分成三个空间连续的cluster,包括肿瘤、中间和正常,cluster大小分别为 114、67 和 69 个点。 在下图A 中提供了连续cluster的空间分布。 表达水平是从 250 个点位置的 5262 个基因测量的,使用 SPARK 方法在 p 值上使用 5% FDR 截断值来检测 290 个空间表达的基因用于该分析(看来还是需要先检测空间高变基因)。
应用 SpaceX 方法来检测下图B 中的共享和特定于cluster的共表达网络。在共享网络中,如果基因在特定cluster中被稳定地表达,并且为cluster特定网络继承相同的颜色,则使用不同的配色方案。观察到共享网络比特定于cluster的网络密集得多。根据定义,如果共享结构中的两个基因在特定cluster的网络中关联,则它们之间将存在某种程度的关联,反之则不然。下图C 显示了每个cluster的每个基因的程度(连接节点数),cluster之间的树状图(右侧)显示正常cluster中的基因共表达与肿瘤和中间cluster中的基因共表达不同,这符合预期。在相应的 circos 图中提供了特定于基因的层次聚类。接下来,检测每个cluster的中心基因,并确定所有cluster的中心基因之间是否存在共性。前 5 个hub基因的特定cluster多层维恩图显示了其他基因之间的依赖性。下图D 中相应的扰动图检测了跨cluster的共同枢纽基因。
从分析中,检测到多个胶原基因作为肿瘤cluster中的枢纽基因,例如 COL6A2、COL3A1,它们控制涉及转移的肿瘤迁移。与癌症相关的转录因子、信号通路和受体都可以通过胶原蛋白生物合成进行调节。另一个hub基因 CD24 是一种免疫相关基因,通常在人类肿瘤中过度表达并调节细胞迁移。 VIM 基因(下图D中肿瘤和中间区域交叉点之间的枢纽基因)可用作癌症早期检测的生物标志物,因为该基因在正常区域转录失活。在下图 B 中,提供了基因之间的共享网络,其中基因根据它们在每个区域的差异表达被标记为不同的颜色。 XBP1基因是正常的生物标志基因,它与作为肿瘤区域生物标志的基因负相关。对于肿瘤网络,观察到 LUM 基因与胶原基因相关,因为 LUM 基因有效调节雌激素受体和乳腺癌细胞的相关功能特性。
Discussion
提出了一种新的网络建模方法 SpaceX,它允许从具有不同细胞类型或区域的空间转录组数据中联合估计共享和特定于cluster的网络,从而能够描绘细胞类型或区域的共表达网络的空间异质性。通过考虑(增加)空间相关性和适当的噪声分布,通过模拟显示了共表达网络估计和结构的准确性增益。利用小鼠下丘脑和人类乳腺癌数据集的两个案例研究,SpaceX 允许检测在不同细胞类型和肿瘤区域中保守或独特的顶级共表达基因和中心基因,这些基因具有重要的生物学相关性。特别是,对于小鼠下丘脑数据,确定了两个高共表达基因:TAC1 和 SLN,它们与调节体力消耗和体重直接相关。同样,确定了多个胶原基因和 LUM 基因作为乳腺癌数据集的中心基因,这些基因与癌细胞的关键功能特性(如肿瘤迁移)有关。
SpaceX 方法可以推广到几个方向。模型可以适用于其他噪声分布,例如负二项式或其他稳健分布,以推断不同平台的空间共表达网络。此外,可以容纳多个空间内核来对平稳和非平稳相关结构进行建模,以丰富推理。所提出的方法基于监督聚类,未来可以扩展到无监督聚类技术。所提出的方法有可能扩展到研究不同生物系统中的依赖关系,例如蛋白质之间的结合或疾病特异性基因共表达。 SpaceX 采用高效的降维技术,在单 CPU 内核的高计算集群中运行乳腺癌和小鼠下丘脑数据集大约需要 1.5 和 5 小时。目前,方法仅限于数百个基因,随着技术的成熟,我们的目标是将可扩展方法扩展到数千个基因和spot的数量。
示例代码,链接在SpaceX
devtools::install_github("SatwikAch/SpaceX")
library(SpaceX)
#> Loading required package: PQLseq
#> Registered S3 methods overwritten by 'robust':
#> method from
#> plot.covfm fit.models
#> print.covfm fit.models
#> summary.covfm fit.models
#> print.summary.covfm fit.models
#> rlm is already registered in the fit.models registry
#> covfm is already registered in the fit.models registry
## Reading the Breast cancer data
## Spatial locations
head(BC_loc)
## Gene expression for data
head(BC_count)
## Data processing
G <-dim(BC_count)[2] ## number of genes
N <-dim(BC_count)[1] ## number of locations
## Application to SpaceX algorithm
BC_fit <- SpaceX(BC_count,BC_loc[,1:2],BC_loc[,3])
##Output
## SigmaPhi :: Shared Covariance matrix
## SigmaLambda :: Cluster specific Covaraince matrices
生活很好,有你更好