Nat Biotech | 北大高歌组利用GLUE算法实现单细胞多组学数据的集成整合
原创 苏安 图灵基因 2022-05-31 07:03 发表于江苏
收录于合集#前沿生物大数据分析
撰文:苏安
IF:54.908
推荐度:⭐⭐⭐⭐⭐
亮点:
1. 作者开发了一种全新的算法来进行单细胞多组学数据的分析,这种算法被命名为GLUE.
GLUE是一种采用图链接统一嵌入方法的计算框架,通过建模不同组学层之间的特征空间,能够完成单细胞多组学图谱的数据集成。
2.GLUE具备处理大规模数据集的功能,并且是模块化的,可以灵活的扩展或新增分析任务
3.作者将GLUE应用于三组学的数据集成、整合调控和多组学人类细胞图谱构建,取得了更好的结果。
随着单细胞测序技术的发展,多个组学层的探查和监测已经不是困难的事。但是当下每个组学层的测量都是相互独立的,得到的数据也并不能互相匹配,多组学数据的整合成为当下研究的重点。多组学数据整合有以下几个难点:①每个组学层具备不同的空间特征,在整合过程中,需要层与层之间数据进行转换,数据容易丢失。②基于耦合矩阵的算法虽然能够避免数据转换过程中的丢失,但是这种方法只能整合不多于两个组学层的数据。③目前的多组学整合技术都只能应对较小的数据集,对于大规模数据集的多层整合还没有好的解决方案。
近期,在Nature biotechnology杂志上发表了一篇名为“ Multi-omics single-cell data integration and regulatory inference with graph-linked embedding”的文章,本文的研究人员开发了一种全新的算法来进行单细胞多组学数据的集成分析,这种算法被命名为GLUE。GLUE不仅可以对多个组学层的数据进行集成整合,而且并且具备高通量的数据集分析能力以及灵活的扩展分析能力。这项研究将为单细胞组学的分析提供一种全新的研究工具,大大提高当前单细胞组学的研究深度。
首先,作者向我们介绍了GLUE算法的原理。作者通过自动编码器将细胞状态编码为低维细胞嵌入,并为每个组学层都配备了一个单独的自动编码器,该编码器使用针对特定层的特征空间定制的概率生成模型。作者提出使用一个基于知识的图(“引导图”),明确了建模跨层调节交互作用,以连接特定于层的特征空间;图中的顶点对应于不同组学层的特征,边表示有符号的调节相互作用。例如,当整合scRNA-seq和scATAC-seq数据时,顶点是基因和可接近的染色质区域(即ATAC峰),在一个可接近的区域和它推测的下游基因之间可以连接一个正边。图1.GLUE的原理及体系架构
为了充分评估GLUE在多组学集成方面的性能,作者建立了采用了一个标准模式来构建GLUE的引导图,并对其他基于转换的方法进行特征转换。在这个方案中,作者同时使用scRNA-seq和scATAC-seq技术生成的金标准数据生成的数据集,以及两个未配对的数据集,将GLUE与多种流行的非配对多组学集成方法进行基准测试。评判整合优劣的标准是:①一种有效的整合方法应该匹配来自不同组学层的相应细胞状态②能够实现数据的无丢失和各组学层之间的良好混合。与其他方法相比,GLUE不仅同时实现了高水平的生物保护和组学混合,并且在总体得分方面,在所有基准数据集中始终是最好的。随后作者通过foscttm度量进一步量化单细胞水平对齐误差,在所有三个数据集上,GLUE获得了最低的错误,大幅度地减少了对齐误差。这说明GLUE不仅在细胞水平上能够实现多层数据的集成,并且在更精密的尺度上也具备精准的对齐能力。图2.GLUE集成性能的系统基准测试
为了探究GLUE在的多重图层整合中的应用能力,作者使用GLUE整合了成年小鼠皮层中三个不同的神经元细胞组学层。这三个组学层分别是基因表达、染色质可及性和DNA甲基化。在三重组学引导图中,作者通过负边缘将基因体mCH和mCG水平与基因联系起来,而可达区域和基因之间的正边缘保持不变;同时作者观察到12个标记重叠,表明对齐是非常可靠的,灰色成功实现对齐也提示了存在一个多图层的共享状态;GLUE比对有助于改善所有组学层中细胞分型的效果,GLUE比对的结果也成功地证实了三个组学层之间的一个共享的细胞状态模式。图3.小鼠皮层的三重组学整合
为了探究GLUE对基因组和细胞中调控水平的影响。作者使用了来自官方外周血单个核细胞多组数据集,并将其作为未配对的scRNA-seq和scATAC-seq数据输入给GLUE。作者使用了一个长程引导图连接ATAC峰和RNA基因,通过幂律函数加权,模拟染色质接触概率,来捕获远程顺式调节相互作用。与预期的一样,作者发现调控评分与基因组距离呈负相关,与经验峰基因相关呈正相关。为了进一步评估该评分是否反映了实际的顺式调节相互作用,作者将其与外部证据进行了比较,包括pcHi-C44和eQTL45。结果显示:在所有距离范围内,pcHi-c支持的峰-基因对的GLUE调控得分都较高,并且与经验的峰基因的相关性也呈正相关。图4.外周血单个核细胞的整合调控推断
为了探究GLUE在面对大规模数据集时的多重整合能力,作者尝试将染色质可及性和基因表达整合进人类细胞图谱中,并取得了成功。虽然对齐后的图谱与原始注释基本一致,但也存在一部分差异。例如,在scATAC-seq中最初被注释为“星形胶质细胞”的细胞与scRNA-seq中的“兴奋性神经元”簇对齐,进一步的检查发现,典型的径向胶质标记物如PAX6、HES1和HOPX在该簇中活跃转录,包括在RNA和ATAC结构域,在神经元和胶质标记物中也检测到染色启动,表明该簇由多能神经祖细胞组成(可能是径向胶质标记物),而不是最初注释的兴奋性神经元或星形胶质细胞。这提示作者这项工具在对于大规模数据的整合方面,仍存在一部分识别错误的情况,具备改进优化的空间。图5.多组学人类细胞图谱的集成
本文作者开发了一种全新的空间转录组学分析工具——GLUE。GLUE作为一个模块化和可一般化的框架,创造了一个前所未有的机会,使我们可以通过对单细胞的大规模多组学集成,有效地描绘基因调控的图谱。
教授介绍:
高歌
高歌是北京大学生命科学学院蛋白质与植物基因研究国家重点实验室、生物医学先驱创新中心(BIOPIC)和北京基因组学高级创新中心(ICG)、生物信息学中心(CBI)首席研究员,生物信息学家,是全球生物信息学协会的活跃成员,亚太生物信息学网络(APBioNET)执行委员会成员兼中国联络员,中国生物技术学会计算生物学和生物信息学专家委员会以及中国遗传学会大数据和生物适应专家委员会创始成员。
2006年获得北京大学生物信息学博士学位,2011年被北京大学聘请担任首席研究员(终身职位)。他开发了12个在线生物信息软件工具和数据库,用于高效分析大规模组学数据。这些工具和数据库在全球用户中的点击量超过5亿次,显示了它们的全球意义和影响力。利用这些强大的生物信息学技术基础设施,高博士一直在研究两类重要调节器的功能和进化动力学,即植物中的转录因子和人类及其他几种生物中的长非编码RNA,通过“重新连接”现有的调节电路,证明新型调节器可以在多种生物过程中发挥关键作用。
参考文献:
Zhi-Jie Cao ,Ge Gao.Multi-omicssingle-cell data integration and regulatory inference with graph-linkedembedding.2022 May 2:S41587-022