单细胞RNA测序(scRNA-seq)技术的空前的技术进步现在使以低成本和高通量分析单细胞中全基因组表达成为可能。 正在进行大量工作,使用scRNA-seq测量来识别形成复杂组织成分的“细胞类型”,类似于生态学中的分类物种。 来自scRNA-seqdata的细胞类型分类涉及扎根于降维和聚类的计算工具的应用,以及统计分析以识别每种类型独有的分子标记。 随着数据集规模和复杂性的不断增长,计算难题到处都是,要求分析方法具有可伸缩性,灵活性和鲁棒性。 此外,需要认真考虑这些测量所特有的实验偏差和统计挑战,以避免出现伪影。 本章在细胞类型识别的背景下介绍了这些主题,并为进入这一领域的研究人员概述了具有指导意义的分步示例生物信息学管道。
关键词:单细胞rna测序,转录组分类,细胞类型识别,细胞分类,聚类,无监督机器学习,细胞类型的跨物种比较
1.Introduction
人体大约有40万亿个细胞,呈现出惊人的形态和功能的多样性。越来越多的人认为,将这些细胞分类为不同的类型是一个基本的要求,以便更详细地了解组织的功能和相互作用,并揭示[2]病理状态下的具体机制。暂时地,一种特定类型的细胞有一个共同的特性,这个特性是由多种可测量的特性定义的,这些特性与组织位置、功能、信号传导特性、形态学、电生理反应、分子组成和物理有关(b)提供了一个框架探讨惊人的细胞het-erogeneity丰富生物,(c)提供mechanisticinsight这种异质性的一代在振早期,(d)提供了一个框架的合理改善vitro-derived细胞类型,(e)促进跨物种比较[3],为特定的细胞类型和(f)涉及的角色和他们的相互作用[4]incomplex疾病
尽管复杂哺乳动物的基因组包含约30,000个基因(及其多种同工型),但这些基因的表达方式并非彼此独立。 基因调控过程诱导基因表达水平之间的相关性,进而导致转录组的“模块化”结构[7]。 这种模块化的结果是,细胞的分子状态在基因表达的整个空间中占据了一个低维子空间(通常称为“流形”)。 单细胞RNA测序(scRNA-seq)技术的进步使得可以使用成千上万个单个细胞的转录组状态来定义细胞类型[8-10]。 此外,单核轮廓分析技术的发展已使彻底研究冷冻和堆积的组织,包括具有挑战性的组织,例如成年人脑切片[11,12]。 一连串的最新研究表明,使用基于聚类和降维的计算方法对单细胞转录体进行无偏分类,不仅可以恢复经典定义的细胞亚集,而且还可以发现功能未知的新型细胞[13-15] 。 我们的目标是向读者介绍scRNA-seq数据分析的概念[16]和计算[17]挑战,然后介绍使用R统计语言的scRNA-seq分析的基本实际工作流程
1.1 What Is a CellType?
虽然每个细胞都是独一无二的,但多年来生物学家的经验表明,细胞可以根据可量化的共同特征来分组。这种分类使对复杂组织的系统和可重复的分析成为可能,类似于物种的概念,这大大简化了生物体的多样性,使之成为一种可解释的分类法,同时又不否认任何单一成员[18]的个性。用于定义细胞类型的特征包括谱系、位置、形态、活性、与其他细胞类型的相互作用、表观遗传状态、对certai的响应
基于scrna -seq的细胞分类涉及到将数据划分为单个细胞簇,其中每个簇由相对于其他簇的唯一基因表达签名定义,因此,代表一个假定的细胞类型。然而,需要注意的是,计算定义的聚类不一定对应于细胞类型的1:1,因为scRNA-seq测定的细胞的分子状态不一定反映了46karthik Shekhar和Vilas Menon的所有特征
如上所述。 此外,某些分子属性在细胞生命周期中比其他分子属性更具瞬态性,因此有必要区分细胞的类型(其主要身份)与其当前的“状态”(例如,神经元放电期间神经元放电速率的暂时变化) “上”和“下”状态,或内分泌细胞的分泌活性水平不同)。 如果scRNA-seq的转录特征足够明显,它们可能会解析相同细胞类型的不同“状态”,并且如果在实验阶段不再表达在早期发育过程中指定其身份的分子,则会折叠两个不同但密切相关的类型。 即使局限于分子状态,也无法仅通过RNA-seq解决细胞“类型”与“状态”之间的差异,并且可能需要以其他方式进行检查,例如那些捕获有关细胞表观遗传状态或其动态信息的方式。 回应。 综上所述,这些注意事项在scRNA-seq数据的解释中尤其是在仅根据转录组学信息识别细胞类型的情况下要格外小心。 作为人类项目图谱[2]和BRAIN计划等大型项目的一部分,正在进行的工作正在不断完善细胞类型的概念
.2 A Brief Overviewof scRNA-Seq
scRNA-seq不是单一方法,而是一套协议,各有其优点和局限性[20]。 目前,每个scRNA-seqprotocol均包括三个步骤(图1):( 1)单细胞捕获和条形码编码;(2)文库制备;以及(3)测序。 当前的协议通过组织解离来分离单个细胞,然后通过荧光激活细胞分选(FACS)进入平板上的单独孔中,或将单个细胞捕获在微流腔,微孔或单个液滴中。 在单细胞捕获之前,可以使用FACS或磁活化细胞分选(MACS)通过分选步骤随意分离解离的细胞,以富集或消耗表达标记物特定组合的细胞。 文库的制备涉及使用聚合酶链反应(PCR)或体外转录(IVT)将mRNA反转录为cDNA并进行扩增。 最近开发的协议在捕获阶段(上面的步骤1)使用唯一的分子标识符(UMI)标记转录物,该分子标识符是随机核苷酸序列[21]。 原则上,每个捕获的转录本都用不同的UMI标记,这可以在下游对扩增偏差进行校正。 然后将扩增的cDNA片段化,然后在扩增子片段的末端添加分子衔接子,以实现高通量测序。 图书馆可以保留每个转录本的全长,也可以标记每个mRNA的30或50末端-选择的依据是进一步的考虑。 排序通常是高度多路复用的,取决于上游选择,可以是单端或成对的。 一个重要的考虑因素可能是每个细胞的测序深度,通常与所分析的细胞数量有关[22]。从单细胞转录组学数据中鉴定细胞类型47
1.3 Batch Effectsin scRNA-Seq Analysis
细胞类型的数据驱动识别可能会被批处理效应(batcheffects)所混淆,批处理效应是由在不同时间、使用不同试剂批次、不同实验人员或三个[23]混合制备的实验复制之间的细微但系统的差异造成的。由于技术因素,批量效应会导致相同细胞类型的转录组状态在不同复制之间发生变化;当这种效应很强时,细胞可以按批次聚集,而不是按生物学特性聚集。如果除了转录差异外,不同批次的特定细胞类型的频率也不同,也会产生批处理效应[24,25]。如果不同的生物条件(例如,控制与扰动)或不同的样品来源(例如,来自癌症患者的活检)在不同的批次中进行处理,在统计上不可能消除生物学效应和技术效应。虽然批次效应可以通过仔细的实验设计来减轻,包括不同生物条件在实验批次之间的均匀分布(“块设计”),但如果样品处理的延迟会影响质量,这种设计在逻辑上可能并不总是可行的。在这种情况下,细胞类型and在单个实验批次中识别出的分子信号必须被怀疑,只有在多个独立复制或其他数据模型中支持这些结果时,才能相信它们。检测和纠正批处理效应是计算创新的一个不断发展的领域,最近提出了许多方法[24 26]。
未来有希望的研究途径包括将scrna -seq数据直接与其他数据模式集成。特别是,最近将RNA-seq与空间定位(如fisseq[27]和“空间转录组学”[28])联系起来的发展,以及高分辨率和扩展显微镜技术的出现,都是在原位单细胞水平上收集转录组范围的信息,而不需要细胞分裂。除了消除细胞类型或转录本中与解离相关的偏差外,转录组学和空间定位的整合将创建基于组织的细胞类型地图集,提供一种无偏的高度多路复用的情况下杂交方法[29,30]。类似地,其他交叉模式技术也处于成熟的不同阶段:这些包括连接单细胞RNA-seq与电生理测量(Patch-Seq[31])、基因扰动(CRISPR-Seq和扰动seq[32])、蛋白质表达(CITE-Seq[33])和谱系追踪(MEMOIR [34], scGESTALT[35])。所有这些技术以及其他技术的大规模应用即将出现,并将导致复杂组织中细胞类型的新的多模态分类和表征。最终,单细胞转录组学的力量,及其相关的计算方法,将继续作为产生关于复杂组织的组织、调节和功能的新假设的关键组成部分而取得进展。尽管有这些发展,细胞类型识别的scRNA-seq数据分析的基本方法仍然基于一个基本框架,如下所述
2 Methods
以下工作流程(图2概述)描述了用于从单核(sn)RNA-seq数据识别分子上不同的细胞类型的基本计算步骤。 但是,它不涉及与原始测序数据的预处理,比对和量化有关的任何步骤,这些步骤已在其他地方进行了介绍[36,37]。 我们使用R编程语言(https://www.r-project.org),它是用于多种基因组分析的通用平台,并得益于广泛的统计和生物信息库的可用性。 多年以来,已经开发出了许多用于单细胞跨膜分析的软件包(https://github.com/seandavi/awesome-single-cell),其中许多可以通过Bioconductor获得。生物信息学图书馆的开放源代码档案,拥有活跃的用户社区。该工作流以前主要使用Seurat包[38],这是一组主动维护的scRNA-seq分析工具
在这里,我们分析了覆盖人类额叶皮层(FC),视觉皮层(VC)和小脑(CB)的单核(sn)RNA-seq数据[39]。 尽管正文主要指单个“细胞”,但以下方法和一般概念同样适用于snRNA-seq数据,也适用于其他单细胞水平测量,例如表观基因组学和蛋白质(例如,大规模细胞计数)数据(尽管 统计学上的考虑有所不同)。我们的工作流程始于基因表达矩阵X,其行与基因相对应,其列代表单细胞。 矩阵的条目表示读取或转录本的数字计数,具体取决于生成数据的scRNA-seq协议。 尽管我们的演示文稿使用了特定的示例数据集,但是可以使用任何基因表达矩阵执行下面的步骤(图2)。 以下步骤在RStudio(R的一个免费和开源集成开发环境(IDE))中实现
2.1 Preprocessing:Read the Count Matrixand Setup the SeuratObject
1.首先,我们加载必要的packages.utilities.Ris是一个脚本,其中包含一些作者为此工作流程编写的自定义函数
2.然后,我们读取从[39]的Gene ExpressionOmnibus提交文件(NCBI Gene Expression Omni-bus,GSE97942)[39]下载的FC,VC和CB对应的各个数据矩阵。 这些存储在名为Data的本地可访问文件夹中。 由于这些表达矩阵的大多数条目均为“ 0”,因此我们立即使用Matrix程序包将它们转换为稀疏矩阵格式,以减少内存占用。
3.接下来,我们在三个组织矩阵中添加“组织起源”标签,并将它们绑定到一个矩阵中。 最终矩阵的行对应于三个组织矩阵中每一个的基因的并集。 假定不表达任何矩阵中缺失的基因。 我们使用Matrix.utils包中的rBind.fill函数来填充缺失的基因,从单细胞转录组数据中识别细胞类型
4.接下来,我们初始化Seurat类的S4 R对象。 对此对象将执行各种下游计算。
-
然后我们检查标准化表现矩阵的维数和每个样本的细胞数。heresnd@identstore存储了这些细胞的样本ID,与它们的大脑原始区域相对应。
6.因此,我们有23,413个基因和34,234个细胞,其中VC中有19,368个细胞,FC中有10,319个细胞,CB中有4637个细胞。 我们可以使用Seurat绘图命令VlnPlot(例如,将每个细胞的基因数量(nGene)和每个细胞的转录本/ UMI数量(nUMI))可视化为“小提琴图”(旧的“箱须图”的经典版本)。 3)
2.2 Normalizethe Data
1.由于细胞裂解和mRNA捕获效率的技术差异,两个等效细胞的计数载体在所有基因的转录本/UMIs总数上可能不同。这使得有必要首先对数据进行归一化,以减弱这些差异,这分两个步骤进行。这里,我们选择总转录sper细胞的中位数作为比例因子。这通常被称为“库大小规格化”(b)我们对这样的标量表达式值应用对数变换,如thatElog(E + 1)(1的添加是为了确保零映射到零值)。这种信息有两种可取的特性:100020003000小脑额叶皮层可视皮层识别(cortexidentityngene200040006000小脑额叶皮层可视皮层识别(cortexidentitynumifig)。每个细胞的基因数量(左,y轴)和每个细胞的UMIs(即转录本)数量(右,y轴)的样方分布(如小提琴图)。Dots代表来自单细胞转录组数据的细胞类型的单个细胞标记
它缩小值,使数据更均匀地分布在其值范围内,这在有异常值时尤其有益。lSince logAðÞ�logBðÞ¼logAB��, 它 转换 distancesalong gene-axis log-fold values. 变化其结果是,不管基因的绝对表达值如何,细胞/样本的表达差异都被平等对待。这对于低表达的基因,如泛素因子,可能是特别理想的。
2.3 FeatureSelection: IdentifyHighly Variable Genes
1.在高维数据分析中,通常选择特征可能比表示统计噪声的特征更有价值的特征,这一步骤称为“特征选择”。在scRNA-seq数据中,这是通过选择“高度相关”的基因来完成的。 假设大多数基因的变异性不代表有意义的生物学。 另一个挑战是基因的变异性水平与其平均表达(一种称为异源城市)的现象有关,必须对其进行明确说明。 我们使用最近发表的Poisson-Gamma混合模型[40]进行可变基因选择,事实证明该模型能够准确捕获基于UMI的scRNA-seq数据的统计特性(图4)。
因此,我们在数据中找到了1307个可变基因。 我们向读者介绍其他可变基因选择方法,例如M3Drop [41],mean-CV回归[42]或Seurat的内置函数FindVariableGenes。
2.4 Z-Score the Dataand Remove UnwantedSources of VariationUsing LinearRegression
1.与细胞身份有关的scRNA-seq数据变异可能被许多不需要的变异源掩盖。 一个共同的挑战是批次效应,这可以在等效实验批次之间的转录组差异和细胞类型组成差异中反映出来。 如前所述,裂解效率,mRNA捕获和扩增的变化会导致等效细胞的转录组之间出现实质性差异。 可能会因生物学过程(例如细胞周期,对解离的反应,应激和凋亡)而导致变异的其他来源,这些变异可能会主导所测细胞的转录组状态。
校正这种影响仍然是研究的一个活跃领域,最近已经引入了许多复杂的方法[24,25],但是我们无法进行全面的概述。 在这里,出于说明目的,我们删除了与文库sizenUMI高度相关的变异基因表达。Seurat使用nUMI作为预测因子对每个基因的表达水平进行线性拟合,并将残基作为“校正的”表达值返回。 接下来,对每个基因的表达值进行z-scoredor标准化,
这里的Eij是原始细胞的校正后的基因表达值,Eiand是所有细胞中基因表达的平均值和标准差。 现在,转化的表达值在所有基因中均具有零均值和等于1的标准差。2。 使用Seurat的functionScaleData一起执行消除nUMI和z计分的影响,然后将转换后的基因表达值存储在slotnd@scale.data中
2.5 The Curseof Dimensionalityand DimensionalityReduction Using PCA
1.对高维scRNA-seq数据的分析提出了大量的挑战,通常统称为“维度曲线”(COD)[43]。对于高维和噪声的数据,从相同和不同的细胞亚群(即例如,细胞类型)彼此之间的距离可能相等,因此很难区分类型内的变异和类型间的变异。COD通常有两种处理方式(图2)。首先,特征/基因的数量可以过滤,只包括高度可变的基因,如前一节所述。其次,可以使用一种算法将数据投影到一个较低维度的子空间,该算法保留了原始数据的一些重要属性,包括基因-基因关系,这种选择通常是由感兴趣的潜在生物学问题决定的。降维有多种方法,如主成分分析(PCA)[44]、独立成分分析(ICA)[45]、非负矩阵分解(NMF)[46]、自编码器和扩散映射(DM)[47]。降维的结果是将原始基因表达数据压缩为更少的“复合”变量,每个“复合”变量都是原始基因特征的复杂组合,根据算法的不同,原始基因特征可以是线性的,也可以是非线性的。这些合成特征编码了前面提到的转录组的模块结构,可以解释为基因模块或“元代”,每个元代由一个加权的基因组合来定义。然后,每个细胞观察到的表达谱可以作为每个异世代的聚合体,根据其在该特定细胞中的活性进行加权。当多个宏因子在某些细胞中被激活而在其他细胞中不被激活时,可能导致细胞在基因表达空间中分离。在这幅图中,每个细胞类型都是一个分离良好的降维空间中的点云,其位置由基因表达模块的活性模式确定。2。 在这里,我们执行主成分分析(PCA),这是一种经典且用途广泛的降维方法,可识别最准确地捕获数据差异的线性子空间[44]。 该子空间的每个个体轴称为主向量(PV),是原始基因的线性组合,原始数据在这些轴上的投影称为主成分(或PC)。每个PV由一组权重定义 对应于基因(称为“载荷”)。 一个PV被认为是由具有高权重(正或负)的基因“驱动”的,并且两个PV代表独立的正交方向。 RunPC的打印输出将沿顶部PV的最大负载(正负)基因进行扫描.2.6可视化PCA输出1.Seuratallows以多种方式可视化PCA输出,这些对获得生物学直觉非常有用。 沿任意数量的用户指定的PV加载(图5).2 PCAP允许在PC的降维空间中绘制细胞,并且通常可以突出显示亚种群结构(图6).3。 图5和图6显示了具有高价值的PC1异型树突状细胞的细胞,其特征是特征性蛋白如蛋白脂蛋白1(PLP1)和Mye-lin碱性蛋白(MBP)的负载量很高(图5)。 接下来,PCHeatmapallows可以从单细胞转录组数据中识别细胞类型
每个PV由一组与基因对应的权重(称为载荷)定义。一个PV被认为是由高权重(阳性或阴性)的基因驱动,并且两个PV被重新发送独立的、正交的方向。runpcalista打印输出的基因在PVs上具有最高的量级负载(阳性和阴性)。
2.6 Visualize PCA Output
Seuratallows有多种可视化PCA输出的方式,这对获得生物学直觉很有用。VizPCA显示了沿任意多个用户指定的PV的绝对负荷最高的基因(图5)。
2。PCAPlotallows在PC的缩减维空间中绘制细胞, 并且经常可以突出显示亚种群结构(图6)。
3。 图5和图6显示了具有高价值的PC1异型少突胶质细胞的细胞,其特征是特征性蛋白如蛋白脂蛋白1(PLP1)和Mye-lin碱性蛋白(MBP)的负载量很高(图5)。 接下来,PCHeatmapallows可以从单细胞转录组数据中识别细胞类型轻松观察沿数据中每个PC的基因表达变化,并且在尝试确定要包括哪些PC进行进一步的下游分析时特别有用(图7)。 细胞和基因均根据其PCA分数和沿每个PC的负荷进行排序。 将cells.use设置为数字可在频谱的两端绘制“极限”单元。 例如,在这里我们看到低水平的PC3是星形胶质细胞,其特征是转运蛋白sslc1a2和slc1a3的表达。
虽然有很多正式的方法来确定数量统计上显著的个人电脑(例如,seeShekhar et al .,细胞,2016[13]),一个特别简单的和受欢迎的方法是检查thesuccessive减少方差被增加电脑,andidentify肘部的电脑在哪里的边际效用(这通常被称为噪声地板)。我们使用SeuratfunctionPCElbowPlot来实现这一点(图8)。
2.7 Identify Clusters
1.我们根据图8选择25台PC。 因此,数据中的每个单元都从约23,000个基因减少到25个PC(维数减少了约1000倍!)。 接下来,我们使用SeuratFindClusters函数使用基于图的聚类[48]确定此数据中的子种群。 图聚类在最近的scRNA-seq论文中已得到广泛使用,并且与其他方法(例如k均值聚类,分层聚类和基于密度的聚类)相比具有许多理想的属性。在这里,我们首先在kRNA上构建k最近邻图。 数据,根据转录相似性将每个单元连接到其k个最近邻单元。 使用欧几里得距离度量,基于PC空间中的邻近度来确定最近的邻居。 接下来,类似于Levine等人[49]所采用的策略。 和Shekhar等。 文献[13]基于Jaccard-likeity度量对图的边缘权重进行了细化,从而消除了簇之间的虚假边缘。FindClusters实现了一种算法,该算法确定了使PC123的数学偏差最大的标准簇。 8前50个PC(x轴)占标准偏差(y轴),以便根据“肘”的存在来大致识别重要PC的数量。下游分析选择了大约25台PC60Karthik Shekhar和Vilas Menon在Jaccard-weightedk-nearest neighbor graph上称为模块化的函数。该函数包含一个aresolution -tionparameter,该参数调优集群的粒度,增加的值将导致更多的集群。我们使用值1,但是需要测试此参数的变化,以检查其健壮性。
-
因此,我们在数据中获得了26个簇。我们可以使用t-distributed randomneighbor embedded (t-SNE)[50]来可视化这些细胞,这是一种保留局部距离的二维嵌入方法(图9)。细胞根据光泽标签着色
3.接下来,我们使用Seurat sBuildClusterTreefunction根据其平均转录组的相似性将这些簇排列到树状图上(图10)。这有助于可视化集群之间的关系,并揭示相关集群的子组。
4.在这一点上,重要的是要注意我们是否找到了集群的“最佳”数量是开放的。重要的是,构成细胞类型集群的标准必须独立于算法的目标——它可以是数据驱动的,比如与其他基因相比,该集群中富集的差异表达基因的最小数量,或者算法恢复某些已知类型(例如,细胞类型)的能力。、地面真理)。然而,通常,对scRNA-seq团簇的评价需要通过实验技术将分子特性与其他细胞形态、位置和功能相结合。这里我们采用一个数据驱动的标准来评估集群的稳定性。简单地说,Seurat的assessnodefunction在树状图的每个二进制节点上训练一个分类器,并计算左/右集群的分类错误。我们可以使用此信息来折叠任何显示>15%分类错误的节点。显示集群(节点)之间转录关系的10树状图62Karthik Shekhar和Vilas Menon
2.8 CompareClusters with OriginalCell Type Labels fromLake et al.
-
在这里,我们看到最大的包分类错误(OOBE)小于我们的阈值。因此,我们保留了所有26个集群。接下来,我们将聚类结果与发表在Lake等人的[39]上的光泽标签进行比较,后者在分析中列出了33个聚类。虽然我们的聚类数量明显较少,但研究它们与Lake等人的结果的比较将会很有趣。我们首先阅读它们的集群标签
在此,Ast表示星形胶质细胞,End表示内皮细胞,Ex1表示兴奋性神经元组1,依此类推。 为了将集群标签与Lake等人的标签进行比较,我们绘制了一个“混淆矩阵”,其中每一行对应于Lake等人的33个集群之一,而每一列对应于我们的集群(图11)。 对矩阵进行行归一化,以描述Lake等人的每个集群如何。 从单细胞转录组学数据中识别细胞类型63
-
令人鼓舞的是,我们发现,尽管我们的分析工作流程与原始论文中报告的结果无关,但我们的许多集群与集群ofLake等人呈现出1:1的对应关系。例如,Cluster 21 (n 624)对应于
小胶质细胞(Mic),而簇25(n¼4058细胞)对应于少突胶质细胞(Oli)。 在多个Lake等人的情况下。 集群映射到我们的集群,这些是相关的。 例如,浦肯野细胞簇Purk1和Purk2映射到Clus-ter 1(n977),而抑制性神经元In6a和In6b映射到簇6(n1462)。 可能有必要进行第二轮迭代聚类,以解决紧密相关的类型(例如In6a和In6b)之间的差异。尽管这令人鼓舞,但我们也注意到一些差异-第2类(n 390),24(n 139)和26(n¼30)确实存在差异。 这些簇通常不对应于Lake等的任何一个簇,而集群18(n2061)和19(n¼2877)似乎没有特别地映射到许多Lake等。 集群3。 我们可以可视化每个三脑区域的簇组成(图12)
从图中可以看出,包括Purkinjeneurons和小脑颗粒细胞在内的1 4和26个簇是CB样本所独有的,而其余的簇主要来源于theFC和VC样本。
2.9 Identify Cluster-Specific DifferentiallyExpressed Genes
-
接下来,我们使用Seurat sFindMarkersfunction在每个集群和其他集群之间执行不同的表达式(DE)分析,从而找到特定于集群的标记。findmarkers支持使用多种统计方法进行DE(在测试中指定)。useparameter seeSeurat文档)。在这里,我们用学生的t-test,因为它计算效率高。然而,我们注意到对于单细胞RNA-seq数据的t检验有许多限制,特别是its无法计算零通胀。 读者必须探索其他方法,例如由Seurat支持的MAST和tweeDEseq(有关DE方法的全面综述,请参见Sonson和Robinson [51])。
-
输出是总结特定于集群的标记的ada .frameobject。在这里,每一行是一个基因,丰富的acluster显示在列集群。pct。1是簇中表达这一标记的前部分细胞,而epct。2是背景中表达该标记的细胞比例。我们可以按如下方式检查给定集群的标记
3.如预期的那样,前两个基因是少突胶质细胞的经典标记物PLP1(蛋白脂质蛋白1)和MOBP(髓磷脂相关少突胶质细胞碱性蛋白)。 接下来,我们检查集群12(一个兴奋性神经元簇),它对应于Ex6a,并由包括HTR2C和NPSR1-AS1在内的多个基因标记(图13)
详细检查这些集群的标识超出了这个工作流的范围。我们鼓励读者深入挖掘,并尝试测试上述方法的变化。最后,我们演示了两种常见的解释结果的方法:(a)检测基因集丰富度,(b)调整备选数据集的簇。
2.10 ExamineClustersfor Enrichmentof BiologicalProcesses
1.识别标记后,我们可以评估簇特异性基因是否丰富了任何基因本体论(GO),疾病本体论(DO)或疾病基因网络(DGN)基因列表或类别。 这些调用中的每一个都有多个参数,反映出统计重叠的严格性,但是它们对于评估功能或疾病相关性的群集是有用的工具。
-
例如,查看GO、DO和DGN类别丰富的基因区分簇1(浦肯野神经元)。请注意,这些类别是根据调整后的p值排列的,而且许多类别并没有显著地丰富。从单细胞转录组数据中识别细胞类型
2.11 Comparewith Mouse CorticalCell Types
-
细胞类型分类研究中面临的众多挑战之一是如何在不同的数据集上调整聚类,这些数据集可能包括不同的批次、不同的条件(例如,正常与疾病),甚至不同的物种。在这里,我们尝试使用智能seqmethod[15]将从成年小鼠中分离和分析的视觉皮层(VC)神经元的数据集中的集群映射到使用管理学习算法的人类CB、VC和FC集群。我们使用前面描述的[13]的多类分类方法。
首先,我们读取由1679个单元格组成的鼠标VC数据,并创建一个SeuratS4对象。 为了使基因ID与Humandata匹配,我们将所有基因名称都大写-请注意,更精确,更冗长的方法是基于适当的正交数据库匹配基因。 我们还读取了每个单元的群集分配。 Tasic等。 确定了49种转录组类型,包括23种抑制型,19种兴奋性和7种非神经元类型[15]。 Wenext选择功能来训练我们的分类器。 我们使用Seurat的FindVariableGenes函数(图14)来识别可变基因,它更适合于Smart-seq数据[40]。 使用NB.var.genes扩展snRNA-seq数据中的可变基因集后,我们计算出通用可变基因以训练多类分类器。
2.接下来,我们在snRNA-seq数据上训练一个随机森林(RF)模型[52],并使用该模型将簇标签分配给mouseVC数据。 给定一个单元格,分类器将其映射到26个集群之一中,以解决snRNA-seq(3-0偏置,基于UMI的)和Smart-seq(全长,基于非UMI的)之间的尺度差异 ,我们将两个数据集标准化(每个基因的z得分值)。 在snRNA-seq数据上对其进行训练后,我们将该分类器从鼠标VC数据应用于每个细胞,并将其分配给26个snRNA-seq群集之一。
3.群集分配与从Tasic等人获得的群集标签相比如何? [15]? 请注意,后一种标签未以任何方式用于构建分类器或影响细胞的簇分配。 因此,有趣的是,根据无偏分类器,在小鼠皮层细胞类型及其分配的“人类”类型之间是否存在任何对应关系。 我们像以前一样检查混淆矩阵(图15),
这些行对应于Tasic等。 簇,而每个列对应一个snRNA-seq簇。 矩阵进行行归一化,因此每一行总计为100%。 首先,我们发现小脑起源的聚类1-4和26从鼠标VC数据获得的匹配很少,这些数据在很大程度上映射到源自VC和FC样本的人类聚类。 在非神经元细胞中,我们看到小鼠星形胶质细胞和少突胶质细胞映射到群集23和25,分别是人类星形胶质细胞和少突胶质细胞。 抑制性神经元组分别表达小白蛋白(Pvalb),生长抑素(Sst)和血管活性间肽(Vip)映射到簇6、5和8,检查snRNA-seq数据中这些标志物的表达可验证RF 集群分配(图16)。 因此,尽管事实上这两个数据集在物种(人与小鼠)上有所不同,但对细胞馏分进行了分析(仅胞质与仅细胞核),分析方法(智能测序与基于液滴的测序)和聚类方法(基因聚类 与基于PCA的方法与基于PCA-Louvain聚类的方法相比,总体结果具有可比性和可解释性,这表明这些细胞所占据的转录组空间已被适当地解析为亚型。