单细胞转录组数据的跨物种分析

文章信息

标题：Cross-Species Analysis of Single-Cell Transcriptomic Data
期刊：Front. Cell Dev. Biol
日期：02 September 2019

作者信息

摘要：

使用scRNA测序分析成千上万个单细胞的能力彻底改变了细胞和发育生物学领域，为跨许多物种的细胞类型和功能的多样性提供了令人难以置信的见解。这些技术有望发展出详细的细胞类型系统发育，从而描述物种间细胞类型之间的进化和发育关系。这将需要使用单细胞转录组学对许多物种和分类单元进行采样，并需要对细胞类型同源性和多样性进行分类的方法。当前存在许多用于分析单细胞数据和识别细胞类型的工具。但是，跨物种的比较由于许多生物学和技术因素而变得复杂。这些因素包括深度测序方法常见的批量效应，直系同源基因和旁系同源基因之间众所周知的进化关系，以及对物种间转录组变异形成影响的较少了解的进化力。在这篇综述中，我讨论了用于比较物种间单细胞组学数据的计算方法的最新进展。这些方法有可能提供有关进化力如何在细胞水平上发挥作用的宝贵见解，并将使我们进一步了解动物和细胞多样性的进化起源。

单细胞测序和单细胞聚类方法：

已经开发出许多用于分离，条形码编码和单独标记细胞的解决方案（Jaitin等，2014；Picelli等，2014；Soumillon等，2014；Svensson等，2018）。微流控技术和微孔技术的进步已使吞吐量从数百个细胞增加到数千个或数百万个。这些技术涉及将细胞封装在微流体液滴中，或将细胞单独放置在微孔中，从而大大提高了我们观察异质性和稀有细胞类型的能力（Islam等，2014；Klein等，2015；Macosko等， 2015 ; Zheng等，2017）。Sci-RNA-Seq等技术进一步增加了分离过程中组合条形码编码细胞分析的细胞数量（Cao等，2017）。这些技术以牺牲测序深度为代价来增加细胞宽度，与Smart-seq2中的较少细胞的深度测序（由于测序成本）相比，这种技术被认为可以更可靠地鉴定细胞异质性（Picelli等，2014）。

随着数以千计至数百万个细胞的单细胞测序实验的出现，在分析此类数据集的高维数时，需要复杂的方法来应对统计挑战。我将简要介绍流行的单细胞基因组学工具包Seurat采取的主要步骤（Butler等人，2018）。有关替代方法的更多信息在其他地方进行了评论（Bacher和Kendziorski，2016 ; Stuart和Satija，2019）。这些软件包中的许多软件包都会产生类似的输出（集群注释），然后可以使用以下各节中介绍的技术在各个物种之间进行比较。最初，通过将所考虑的基因限制为所谓的“高度可变的基因”（对细胞间变异性有重大贡献的基因），以及通过将数据投影到较低维度的空间，来降低数据集的高维度。 PCA（步骤1-4，图1A ; Butler等人，2018 ; Yip等人，2018）。最新的聚类算法采用基于图的方法在PCA之后根据k近邻图中的细胞的模块性和密度来定义聚类，将在基因表达空间中彼此靠近的细胞分组（步骤5，图1A；Bacher和Kendziorski，2016）。tSNE或UMAP用于集群的可视化，将更高的维数可变性分解为2维或3维（步骤6，图1A ; van der Maaten和Hinton，2008年 ; Becht等人，2019年）。

实验和生物批次效应的核算

比较和对比单细胞数据集将允许测试观察到的生物学现象的再现性，或通过将多个数据集合并为更大的细胞型地图集来鉴定其他细胞类型异质性（Butler等人，2018 ; Haghverdi等人，2018）。跨不同实验进行药理，遗传和实验操作的比较可以确定特定和特定的基因表达效果以及细胞状态的扰动，如与疾病相关的小胶质细胞所观察到的一样（Haber等人，2017；Keren-Shaul等人，2017；约翰逊等人，2018）。最后，特定组织内细胞类型的跨物种比较将允许模型系统和非模型系统之间的知识翻译，并可能暗示物种内部和物种之间的细胞类型之间的进化关系，以产生细胞类型的系统发育史（Marioni和Arendt， 2017）。

但是，可以在每个实验步骤中引入技术批次效应，包括细胞解离程序，分离和条形码，测序和分析（Bacher和Kendziorski，2016年）。除了起源物种外，还需要考虑由于遗传背景，年龄和性别的差异而引起的生物批次效应。几个小组已经生成了用于处理特定于单细胞数据的批处理效应的计算工具。这些方法从批量RNA测序实验的比较中吸取了教训，但已得到改进以能够解决单细胞数据的高异质性（Haghverdi et al。，2018）。

比较跨物种的细胞类型

特定物种的单细胞数据集可以单独进行分析和注释，也可以合并为一个分析/注释步骤。单独的分析需要对单元格类型进行交叉注释（通常是手工注释），但保留数据集内部的异质性（图1B，C）。组合分析增加了用于聚类的细胞数量，从而可以识别其他异质性和稀有细胞群体。但是，它更加复杂且计算量大，并且可能使特定物种的细胞类型难以理解（图2）。组合分析可“ 批改 ”基础基因表达数据，从而使每个物种的细胞内基因的表达水平彼此相似（Haghverdi等人，2018年））。在单独的分析中，这些批处理效果可能会持续存在，从而影响比较和注释。

在最近的一篇出版物中，“基因特异性指数”用于计算细胞簇之间的跨物种成对相关性（Tosches等，2018）。使用特异性指数可解决平台和物种特异性在表达定量方面的差异，而是依赖于给定的基因对细胞簇是特异性的还是在所有细胞类型中广泛表达的（邓恩等人，2013年 ; 莫纳尔等人。，2013年；Kryuchkova-Mostacci和Robinson-Rechavi，2016年）。对于Tosches等。（2018）在一组细胞类型（C）中，基因（g）对细胞类型（c）的特异性指数（s g，c））定义为g在c中的表达水平（g c）与g在整个C中的平均表达之间的比率（图1B）。然后可以计算细胞类型基因特异性指数的Pearson相关性，从而确定整个数据集之间的相关簇（红色框，图1B）。作者使用该分析来比较乌龟，蜥蜴和哺乳动物之间的皮层，海马和皮质细胞类型。他们发现哺乳动物中间神经元细胞类型是所有羊膜动物的祖先，但是哺乳动物新皮层主要由谱系特异性细胞类型组成（Tosches et al。，2018）。

之前的方法要求在计算相关性之前，要在物种之间手动匹配细胞类型。另外，随机森林机器学习（RFML）可以在数据集中无偏地分配聚类匹配（Breiman，2001 ; Denisko and Hoffman，2018）。这已被用来在斑马鱼哈贝努尔和小鼠视网膜的发育时间尺度和平台上分配细胞类型，从而鉴定出其他异质性，以及幼虫和成年细胞类型之间的差异（Shekhar等，2016；Pandey等，2018）。）。首先，根据单细胞测序产生的基因表达矩阵对算法进行训练，以预测物种A的细胞类型（图1C，第1步））。这产生了一组决策树，每个决策树都将细胞分配给细胞类型，并用于基于每个细胞的基因表达特征为每个细胞生成共识预测。然后，该决策林可用于预测物种B中每个细胞最相似的物种A细胞类型。这种比较的结果是一个混淆矩阵，该矩阵表示物种B中每个群集的细胞百分比，类似于物种A中的每个群集（图1C）。

单细胞数据集的计算集成

即使假设群集在各个数据集之间正确匹配，由于批处理效应，细胞转录组的比较分析仍然是一项艰巨的任务（Stuart和Satija，2019）。数据集的计算集成允许进行统一的下游分析，但是，删除特定于物种的批次效应时必须考虑几个因素。大多数批次校正方法都是基于线性回归的，线性拟合适用于描述批次效应的线性模型，然后在没有建模批次效应的情况下插补新的表达矩阵（Johnson等，2007；Risso等，2014；Ritchie等， 2015年）。这种方法对于单细胞RNA-seq数据存在问题，因为它假设每个数据集中的细胞类型相同，并且在所有细胞类型上均具有统一的批次效应（Haghverdi等人，2018 ; Welch等人，2019）。单细胞RNA-seq整合方法必须能够区分物种之间共享的特异性和细胞类型的特异性，并说明由于采样方法（观察到的细胞/基因数量，或由于物种之间的解离方案而引起的差异）引起的差异。通常，这些技术旨在将两种物种的细胞嵌入一个共享的低维空间，在其中可以比较簇和细胞。

此类整合方法中的第一个已发布，即mnnCorrect / fastMNN，可在高维基因表达空间中识别相互最近的邻居（MNN），以识别特定细胞类型的批次校正载体（Haghverdi et al。，2018）。MNN被标识为跨数据集彼此最接近的单元（图2A）。每对MNN细胞的表达谱之间的差异是代表生物学批次效应的载体，用于估算新的批次校正基质（虚线，图2A ; Haghverdi等人，2018）。

R工具箱Seurat还整合了几种数据集集成方法（Butler等人，2018）。原始的Seurat对齐过程涉及使用规范相关分析（CCA）跨数据集或物种识别共享的相关结构（图2A）。CCA鉴定了在表达上具有相关差异的基因组。然后使用非线性动态变形将这些差异用于批处理校正每组基因，从而得到一个共享的低维空间（图2A；Berndt和Clifford，1994年））。在Seurat v3.0中，作者结合了MNN的使用来辅助集成。在CCA和动态时间扭曲之后，MNN在数据集之间被识别，并用作“锚点”以计算进一步的校正向量，类似于mnnCorrect / fastMNN（Haghverdi等人，2018；Stuart等人，2019）。

这些方法的一个大问题是在整合过程中过度拟合，导致细胞类型合并，或模糊了数据集特定的基因表达差异。当单元格类型仅出现在数据集中的一个子集中时，Seurat和mnnCorrect / fastMNN都使用MNN会减少这种影响，因为它们在任何其他数据集中都不会有彼此最近的邻居。Scanorama的全景拼接算法使用更通用的MNN技术，旨在通过类似于从单个图像创建全景图的过程进一步减少数据集之间的过拟合量（Hie et al。，2018）。

第三种方法LIGER使用集成非负矩阵分解（iNMF）来学习数据集之间共享的和唯一的基因表达签名（Welch等人，2019）。iNMF将一个矩阵（例如按基因表达矩阵的细胞）分解为多个基本向量矩阵（按因子矩阵的细胞）和系数向量（按基因矩阵的因子）。因子代表基因共调节的模式，通常与代表特定细胞类型的基因组相对应。对于每个数据集，LIGER还可以推断出与物种特定信号相对应的单独因子（图2B）。考虑到物种特异性因素，可以跨数据集识别细胞类型，并鉴定导致每种细胞类型物种特异性差异的基因特征（图2B）。除了特定物种的批次效应外，Seurat和LIGER都可以跨模式（蛋白质表达，染色质修饰和空间定位）整合数据（Stuart和Satija，2019年 ; Welch等人，2019年）。

最后，已经开发了几种工具，可用于对大型数据集或大量数据集进行高效计算集成。Harmony将不同数据集的相似细胞类型校正为低维PCA空间中的共享质心，并迭代运行直到数据集收敛（图2C ; Korsunsky等人，2018年）。Conos使用统一的图形表示法来跨大量数据集映射单元格类型。数据集之间的虚假连接被最小化-只有在多个数据集之间相互映射的单元格才被用来识别常见的亚群（Barkas等人，2018）。在不久的将来，将所有这些工具作为不同种类的数据的基准，并在彼此之间进行广泛的比较将是重要的。我预见到，这些技术中的许多技术将是互补的，并且组合方法对于实现跨多个物种的强大性能可能至关重要。

将转录组进化的理解整合到单细胞比较中

尽管上述方法为比较物种间的单细胞数据提供了令人兴奋的可能性，但在实现方面存在许多警告。当前所有的方法都要求在分析过程中仅使用物种之间的直系同源基因。这些基因用于特征选择和PCA（图1A）。仅在一个数据集中表达的非同源基因对变异起了重要作用，并且可以驱动细胞与自己的物种聚集，而不是跨物种的相同细胞类型聚集（图2C ; Stuart和Satija，2019年）。但是，通过排除不具有一对一匹配或具有一对多匹配的基因，物种特异性信息可能会丢失。实际上，已知进化枝特异性基因可以驱动物种特异性细胞类型的多样化（Santos等人，2017年；Florio et al。，2018），基因复制后一种基因拷贝的表达模式亚功能化或新功能化很常见（图2D ; Farrè和Albà，2010年）。

对于密切相关的物种，例如人类和小鼠，可以轻松匹配基因符号以鉴定直系同源物。对于更远距离相关的生物，可以使用ENSEMBL之类的数据库来识别一对一的匹配（Zerbino et al。，2018）。这对于密切相关的物种效果很好，但是随着物种之间进化时间的增加而变得更加困难，并且基因之间的关系变得不清楚（Thornton和Desalle，2000）。直系学鉴定在系统发育组学领域已经得到了很大的解决，即鉴定物种关系并在功能上注释基因组。存在许多用于检测矫形的技术，其中大多数基于序列相似性和倒数BLAST以及其他方法（在其他地方综述）Sonnhammer等，2014；Nichio等人，2017）。将基因正交或序列相似性的度量纳入聚类算法对于避免依赖一对一的同源性来理解基因功能非常重要。

最近的工作还确定了驱动物种间转录组变异的独特进化力（Liang等，2018）。具有类似调节逻辑的基因组被认为以模块化的方式进化，这些基因的转录变化与控制其表达的转录因子相联系（Arendt等，2016）。上面概述的某些整合方法可能已经解释了基因表达中这种相关的进化差异（LIGER，Seurat）。或者，在聚类分析过程中去除最相关的基因也是一种审慎的方法（Liang et al。，2018）。

未来展望

细胞系统发育的构建也应努力正确地识别物种内部和物种之间的转录相似细胞类型之间的进化关系。相似性可能源于共同祖先（同源性），也可能源于融合到相同的细胞身份（同源性）。同源细胞模块和基因调控网络的重用，重新定位或共同选择被认为是细胞类型趋同的基础（Tschopp and Tabin，2017）。这种深同源性不仅导致相似的细胞功能，而且潜在地也导致高度相似的细胞转录组。因此，可能难以使用单细胞测序将同质性与同源性区分开。必须对沿较大系统发育的许多组织进行采样，以鉴定特定的细胞类型在进化史中出现的时间和地点（Hejnol和Lowe，2015年）。从这些实验中，可以得出简约的解释，为同源性或同质性提供证据，并鉴定特定细胞身份的进化史。

最后，在比较物种之间关于细胞类型和基因表达模式的差异时，有必要纳入系统发育比较方法。由于这些物种的进化历史，它们的生物特征显示出跨物种的依赖性-密切相关的物种共有更多相似的特征。这也应适用于细胞类型身份和基因表达模式（邓恩等，2013）。系统发育比较方法考虑了进化历史，模拟了沿进化树的性状变化，并在统计比较中明确考虑了它们的依赖性（Felsenstein，2002；Garamszegi，2014）。这些已经成功地适用于大量的转录组数据，并且应该扩展到单细胞转录组学，在这种情况下经常假设性状是独立的（邓恩等人，2013）。

结论

用于单细胞测序的许多技术，工具和技术已经适用于跨物种比较。但是，应将基于进化知识的当前方法的改进和完善视为转录组学和进化细胞生物学领域的优先事项。了解进化历史和细胞之间的关系将提供对细胞类型定义以及控制其身份的分子机制的深入了解。使用这种进化框架，研究发育阶段，细胞状态和细胞类型之间的连续性甚至可以阐明细胞类型如何进化（Griffith等人，2018 ; Arendt等人，2019）。全面鉴定细胞类型及其进化起源将需要多种证据组合，不仅包括分子鉴定，还包括功能询问和发育谱系信息。已经开发出了新的方法来重建计算机或使用CRISPR条形码的发育谱系轨迹（Briggs等人，2018 ; Farrell等人，2018 ; Plass等人，2018 ; Raj等人，2018 ; Wagner等人， 2018 ; Packer等人，2019）。将沿袭信息纳入进化比较将是一项艰巨而重要的任务。对进化和细胞类型的这种全面了解将使我们能够建立细胞类型的系统发育史，并使用它们来提出有关细胞变化如何影响机体适应性和选择以及进化如何作用于细胞生物学单元的重要问题。

参考材料：

https://www.frontiersin.org/articles/10.3389/fcell.2019.00175/full

单细胞转录组数据的跨物种分析