Nat Mac Int | 对比学习快速映射到数百万规模的多模态单细胞图谱
原创 苏安 图灵基因 2022-09-06 10:10 发表于江苏
收录于合集#前沿生物大数据分析
撰文:苏安
IF:25.898
推荐度:⭐⭐⭐⭐⭐
亮点:
1. 本文的研究团队在单细胞分析领域提出了一种细胞表征的对比学习方法,这个对比学习方法是可以通过一个自监督的净化框架来构建大规模多模态的单细胞图谱,他们把这个方法命名为“协奏曲”。
2. “协奏曲”可以仅仅通过区分每个单元格和其他单元格,就可以适应各种下游任务,如自动单元格类型分类、数据集成和参考映射。
3. “协奏曲”具备灵活的扩展性,可以推广到多组学,以获得统一的细胞表示,从而促进生物医学研究。
人类细胞图谱和单细胞数据集的规模在不断扩大,单细胞多组学工具也正在以前所未有的分辨率彻底改变组织表征。对比学习方法在计算机视觉领域已经取得了巨大的成功,它为细胞表征提供了思路。近期,来自中国中山大学的杨猛研究团队在Nature machine intelligence杂志上发表了一篇名为“Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale”的文章,他们开发了一种基于自我监督的净化框架算法来实现大规模的细胞表征,通过迭代构建单细胞参考图谱和快速映射新的数据集,不仅能够完成单元格分类、数据集成、参考映射,并且还具备推广到多组学的灵活性,促进了生物医学的发展。
“协奏曲”架构概述
作者首先为我们介绍了“协奏曲”这种对比学习方法的架构。协奏曲利用了一个自净化的对比学习框架,配置为一个不对称的师生架构(图1a)。非对称设计注入了不平衡的模型复杂性,其中一个较大的教师网络通过注意机制将基因嵌入聚集到细胞嵌入中,而一个较小的学生网络简单地使用密集操作将离散的输入转换为细胞嵌入。表征信息通过自净化在这两者之间传递。当处理多组学数据集时,每个模态的简单元素级求和可以生成统一的单元嵌入(图1b)。同时,学习到的嵌入可以针对各种下游任务进行微调,包括自动单元类型分类、聚类、用于批效应校正的数据集成和查询到参考映射(图1c)图1.协奏曲架构概述。
通过对对比学习的嵌入进行微调,可以显著提高自动细胞分类的性能。
为了证明对比学习的嵌入满足刚性单元分类,并对其性能进行评估,作者使用现有的注释作为训练标签来实现对协奏曲的监督微调。对于数据集内评估,作者在每批中应用5倍交叉验证(n=9),并评估所有细胞类型的f1评分中位数。协奏曲获得最高分(0.926),表现最稳定(图2a);对于数据集间的评估,作者使用一个协议作为测试集,而使用其他协议作为训练集(引导5次)。协奏曲在几乎所有的训练测试分割上都大大优于其他方法(图2b)。
作者下载了三个水平注释的PBMC CITE-seq数据集(PBMC160k,n=161764个细胞,NOTA研究中只有rna),并从训练集中删除不同的T细胞粒度,以评估NOTA设置(方法)。图2d显示,协奏曲可以清楚地分离出1级和2级掩蔽的验证和测试集的置信度曲线。为了确定更细粒度的分类基准,作者将胸腺scRNA-seq图谱(n=107,969个细胞)与PBMC45k结合起来,构建了一个多层次的免疫细胞数据集,协奏曲仍然达到最高的中位数f1分0.830(5倍交叉验证的平均值),大大优于SingleR(0.705)和SciBet(0.667)(图2c)。
协奏曲支持跨组织的新细胞类型的发现
协奏曲可以很好地区分不同的发育阶段,包括双阴性T细胞、双阳性T细胞和单阳性T细胞。作者还使用异质性的Muris Senis(TMS)图谱(n=101045个细胞,23个小鼠组织)来训练一个组织分类器。协奏曲在所有组织上的表现都大大优于SciBet(图2f),达到了膀胱(0.999)、脑髓系(0.999)和乳腺(0.996)的最高平均ACC。对于跨组织注释,作者采用了与MARS类似的实验设计,保留一个组织作为未注释的测试集,并对所有其他组织(TMS数据集)进行训练。通过添加域适应模块,协奏曲在22个保留组织上达到MARD指数(ARI),从脾脏最大绝对增益(+89.4%)到膀胱最小(+0.613%)(图2g);当肢体肌肉被保留时,协奏曲将其他组织中功能相似的细胞类型放置更接近肢体肌肉的六种主要注释(图2h);图2i显示,来自其他组织的一般B细胞、T细胞、内皮细胞和巨噬细胞被正确地转移到肢体肌肉。
协奏曲具备优秀的多组学数据处理能力
为了评估协奏曲处理多组学数据的能力,作者使用PBMC160k19在三种设置下训练协奏曲:用RNA,用蛋白质,或两者都作为输入。协奏曲的f1-分数中位数分别为0.805、0.770和0.819(五倍交叉验证、数据集内预测的平均值),这意味着统一的多模式可以使更准确的分类(图2e)。协奏曲在所有情况下都表现优秀,在使用双模态作为输入时获得了4.8%的绝对改进。图2.对比学习的嵌入通过微调显著提高了自动细胞分类的性能,并支持跨组织的新细胞类型发现。
协奏曲能够在多模态数据集上进行无监督聚类,并可以从单细胞分辨率自动提取分子特征
为了评估了协奏曲嵌入在从头聚类中的效用,作者在不同的聚类算法上比较了协奏曲的表示与Seurat的共享最近邻。他们使用归一化互信息(NMI)、ARI和剪影评分作为评价指标。协奏曲嵌入聚类(+Leiden,平均NMI=0.750,ARI=0.646,剪影score=0.332)在五种分辨率上显著优于其他方法(图3a);协奏曲将聚类分配与人工注释对齐(图3b;莱顿分辨率为=0.4,=为=9),将CD14单核细胞、CD16单核细胞和树突状细胞清晰分离为不同的髓系细胞,并划分CD4 T细胞和细胞毒性T细胞之间的明确界限。为了验证整合转录组之外的其他组学可以导致更精确的细胞身份定义,作者使用rna、蛋白质或两者进行协奏曲,并通过层次注释着色的学习嵌入(图3c)。
协奏曲显示了CD4 T细胞系(CD4幼稚、CD4 TCM和CD4TEM)、CD8 T细胞系(CD8幼稚、CD8 TCM和CD8TCMTEM)和B细胞系(B幼稚、B中间、B记忆和浆母细胞)的定向发育轨迹(图3c)。
协奏曲通过消除不必要的批处理效应来实现从头开始的数据集成,并很好地支持集成部分重叠的数据集。
面对将不同来源组合成参考图谱时纠正批效应的需要,作者在精心策划的多供体人类胰腺胰岛数据集上测试协奏曲的数据集成性能。作者设计了6个场景来评估输入基因数量的影响(图3),他们使用k-最近邻批效应测试(kBET)来量化批混合性能和平均轮廓宽度(ASW)来评估细胞类型的纯度。在六种情况下,协奏曲比竞争方法获得了更高的asw(2000个HVGs的ASW=0.533,所有基因的0.305;图3g),表明更好的生物保存。与此同时,过度追求一个更大的kBET可能会激进地错位的不同细胞群,即过度校正(图3f)。
图3.协奏曲可以在多模态数据集提供有效的无监督聚类,并且能够批处理数据集成的校正。
协奏曲实现了最先进的查询到引用映射的精度,并支持在引用中投影看不见的单元格类型
作者进一步评估了将查询单元格映射到协调的引用嵌入上的协奏曲。作者对scArches、交响乐和Seuratv.4进行了基准测试,每个测试都对应于一个参考构建协议;2000个hvg被用于公平比较。协奏曲在两次实验中均达到了最高的平均ACC(HP→inDrop为0.981,HP→MP为0.927,5次重复)(图4a)。混淆矩阵(图4b)表明,协奏曲可以准确地跨技术和物种转移标签。通过与其他方法的细胞表示(图4c),协奏曲达到最好的对齐,这表明它有更一致的嵌入。作者还进行了全面的研究,并证明了以教师网络为输出的协奏曲的非对称自净化体系结构比对称设计能获得更好的映射性能(图4d)。
作者设计了一项研究来预测看不见的细胞类型,并评估合并所有基因的影响。作者从PBMC160k中分配了一个样本作为一个查询,并使用其他7个样本来构建一个引用。在所有基因上操作的协奏曲获得了相当高的ACC,并精确定位了NK细胞和CD4 T细胞之间的CD8 T细胞(图4g)。虽然从未见过CD8 T细胞,但CD8a蛋白标记物的富集区与协奏曲指定的查询CD8 T细胞的位置重叠(图4e)。作者证明了协奏曲可以沿着一个有生物学意义的连续体投射看不见的细胞亚型。
图4.协奏曲实现了最先进引用映射的精度,并支持在数百万个单元格引用中投影出不可见的单元格类型
将COVID-19免疫细胞与疾病参考文献进行定位,发现不同感染状态下的免疫反应不同
作者进一步使用协奏曲将最近发表的COVID-19 PBMC数据集投影到一个全面的COVID-19参考文献上,然后,作者将查询集投影到其上,而不进行微调(图5a)。对于所有注释的CD8 T细胞,协奏曲区分了不同疾病状态(健康对照、轻度和重度)下的幼稚、增殖、记忆和效应状态的不同组成,并获得了一致的状态特异性签名(图5b、c)。注释CD8幼稚T细胞(CCR7、LEF1、TCF7、SELL;对数倍变化(log2FC)=0.98、0.89、0.81和0.30;错误发现率调整P值=2.2×10−308、3.0×10−263、8.6×10−92和5.8×10−11),而CD8幼稚T细胞的相对丰度显著降低(图5d)。此外,他们还验证了杂交增殖耗尽CD8 T细胞表型的存在(图5e);对于CD4 T细胞,COVID-19患者中CD4幼稚T细胞的相对丰度显著降低(图5f),而患者中活化的CD4 T细胞的丰度增加。
作者注释了一个激活的CD2AP表达升高的CD4 T细胞亚型,表明感染后存在显著的状态转变。与健康对照组相比,COVID-19患者中调节性T细胞(Treg)的比例增加,提示可能存在免疫抑制和积极的抗炎反应,对于NK细胞,协奏曲识别出在重症患者中显著激活的CD56dimCD16明亮亚群(图5g);对于单核细胞,协奏曲清晰地分离了健康、中度和重度样本(图5h),非经典单核细胞(CD14lowCD16高)在健康样本中富集,但在严重样本中耗尽。
总的来说,协奏曲成功地分离了病理状态,保留了细微的状态特异性变异,并识别了不同的免疫特征。图5.分层查询-参考映射保留了COVID-19患者的差异免疫反应
作者的团队开发的对比学习方法——协奏曲。不仅可以适应各种下游任务,并且也可以扩展至多组学研究,在模拟和真实数据集上进行基准测试,协奏曲也表现出优异的性能,大大优于当前的方法,协奏曲将通过迭代构建单细胞参考图谱和快速映射新的数据集,以转移相关的细胞注释,从而促进生物医学研究。
教授介绍:
杨猛
杨猛,博士,苏黎世联邦理工学院博士后,中山大学数据科学与计算机学院副教授、博士生导师。数据科学与计算机学院智能科学与技术研究所成员、机器智能与先进计算教育部重点实验室成员、广东省信息安全重点实验室成员。IEEE Senior Member, CCF 高级会员。
研究领域:计算机视觉、机器学习、自然语言处理、人工智能、模式识别、大数据分析。
参考文献:
Yang, M., Yang, Y., Xie, C.et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).