Nat Med | 空间转录组学分析单细胞分辨率图谱
原创 存在一棵树 图灵基因 今天
收录于话题#前沿分子生物学技术
撰文:存在一棵树
IF=28.547
推荐度:⭐⭐⭐⭐⭐
亮点:
开发了SpaGCN,一种图卷积网络方法,其可通过图卷积从相邻点聚合每个点的基因表达,从而能够识别具有连贯表达和组织学的空间域;SpaGCN 计算速度快,平台独立,可成为各种空间分辨转录组学 (SRT)研究的理想工具。
2021年10月28日,宾夕法尼亚大学佩雷尔曼医学院生物统计学、流行病学和信息学系的李铭尧和Russell T. Shinohara教授在《Nature Medicine 》上发表了一篇名为“SpaGCN: Integrating gene expression, spatial location and histology to identify spatial domains and spatially variable genes by graph convolutional network”的文章。在这里,该团队基于图卷积网络 (GCN) 的方法开发了SpaGCN,从而整合基因表达、空间位置和组织学来识别空间域。
空间分辨转录组学 (SRT)的最新技术进步使了解基因表达谱与组织中的空间信息成为可能,而在SRT 研究中,一个重要的步骤是确定空间域,定义为在基因表达和组织学上在空间上一致的区域。尽管目前存在一些方法可以将斑点或细胞聚集成不同的组,但由于不同模式缺乏灵活性,因此通用性较差。这里该团队开发了 SpaGCN,一种基于图卷积网络 (GCN) 的方法,可将空间域和空间可变基因 (SVG)检测联合考虑,其整合基因表达、空间位置和组织学,并通过图卷积网络识别空间域和空间可变基因。
如图1所示,基于原位捕获的 SRT 数据为例解释 SpaGCN 的工作流程。首先通过构造一个表示数据的空间依赖性的无向加权图来集成基因表达、空间位置和组织学,从而识别空间域;随后对于每个空间域,检测域中富集的 SVGs;通过将搜索空间限制在空间域上,保证检测到的 SVGs 具有空间表达模式;当单个基因不能标记域的表达模式时,SpaGCN会构建一个由多个基因组合形成的元基因来表示域的表达模式。
这里,团队针对SpaGCN 的空间域检测能力及聚类分析能力,与Louvain、stLearn 和BayesSpace进行了比较。如图3所示,对于代表性组织切片151673, SpaGCN 和BayesSpace 显示的空间域与手动注释的组织层比 Louvain 更符合;虽然 stLearn 使用了组织学信息,但其性能低于 SpaGCN 和 BayesSpace。随后将 SpaGCN 的聚类结果与 Louvain、stLearn 和 BayesSpace 的聚类结果进行了比较,显示 Louvain 的聚类类似于 stLearn、BayesSpace 和 SpaGCN,但后三种方法检测到的空间域在空间上更加连续,能够解释基因表达的空间依赖性。SpaGCN 中实现的多域自适应过滤标准使其能够消除误报 SVG,并确保所有检测到的 SVG 具有清晰的空间表达模式,其独特而强大的 SVG 检测程序也可确保不会遗失某类基因。
SpaGCN不仅可以分析单个组织切片,还可以联合分析多个组织切片,展示了两个使用10x Genomics 提供的小鼠大脑 Visium 数据的示例。如图3所示,由于这两个组织切片来自同一区域, SpaGCN 可推断出两个组织切片之间的聚类对应关系;随后使用SpaGCN 联合分析了两个组织切片,分别来自小鼠后脑和前脑;由于前部和后部在大脑中相邻,该团队修改了后部斑点的坐标,以便修改后的坐标反映两个组织切片的空间相邻性;最后使用修改后的坐标作为输入,获得SpaGCN反映的前后脑共享层的聚类结果。
最后,如图4所示,该团队分析了具有单细胞分辨率的 STARmap 数据集,显示了SpaGCN对于空间信息的的高效利用率。总的来说,SpaGCN 中的空间域检测步骤是灵活的,首先,SpaGCN 可以在基因表达平滑中调整组织学的权重,对于组织学中具有清晰组织结构的数据集,更高的权重导致癌症与非癌症区域的更清晰分离;其次,在 GCN拟合过程中,图权重被更新,这使 SpaGCN 能够学习一种有效的方法来聚合每个基因的相邻点的基因表达,其对于从不同平台生成的数据、点/细胞之间的空间依赖性随着捕获的组织区域的大小不同而不同,且空间依赖性建模的灵活性使 SpaGCN 可用于不同类型的 SRT 数据。
综上所述,本文建立了一种将基因表达、空间位置和组织学相结合的方法,SpaGCN,其可以对基因表达的空间依赖性进行建模,以识别空间域和域丰富的 SVG。进行的广泛测试,表明其可以识别具有一致基因表达和组织学的空间域,拥有更清晰的空间表达模式和生物学解释的 SVG 和元基因,且其检测到的 SVG 是可转移的,可用于独立组织切片的下游分析,还拥有高效的计算速度和内存效率。
教授介绍
李铭尧,宾夕法尼亚大学生物统计学和流行病学生物统计学教授。1996年毕业于南开大学学数学系,1999年获得南开大学数学系硕士学位;2002年获得密歇根大学生物统计学硕士学位,2005年取得密歇根大学生物统计学博士学位。她于2006年加入宾夕法尼亚大学生物统计学系,其主要研究领域是统计遗传学、生物信息学和计算生物学,主要为开发统计方法和计算工具,以识别和描述影响复杂疾病易感性的基因变异目前的研究工作涉及分析高通量遗传学/基因组学数据。除此之外,她对混合种群的分析、RNA测序数据和基因表达的遗传学特别感兴趣,同时也会与其他研究人员合作,寻求识别复杂的疾病易感基因。
参考文献
1、Hu, J., Li, X., Coleman, K.et al.SpaGCN:Integrating gene expression, spatial location and histology to identify spatialdomains and spatially variable genes by graph convolutional network.NatMethods18, 1342–1351 (2021).