二代测序技术(NGS)近几年来迅猛发展,应用于多种复杂的生物学体系中,例如肿瘤基因组、微生物种群等。基于NGS的各种技术(基因组、表观组、转录组)将关注点放在个体细胞的识别上。相对于传统的bulk-seq,单细胞分析使得研究者可以发现更多前人未能挖掘到的新发现。在生物信息学工具的进一步技术革新,将极大地促进这些测序技术在基础科学和医学上的应用。
将基因型和表芯对应起来在生物学和药理学上是一件非常困呐的事情,目前一个非常有力的解决办法就是开展转录组分析。尽管人体内几乎所有细胞都含有相同的基因型,但是任何一个细胞的转录组都只反映了局部信息。而且,越来越多的证据表明即使是在非常相似的细胞类型中,基因表达谱也是不尽然相同的,就是这种表达谱的随机性导致了细胞分群的多样性并且引发了细胞命运的走向。然而,目前大多数的转录组分析实验仍然是基于这样的假设——来自相同组织的细胞是同质的。因此,这些研究可能会忽略重要细胞间的异质性。为了更好地理解随机生物学过程,更准确地理解单个细胞的转录组对于阐明它们在细胞功能中的作用以及理解基因表达如何促进有益或有害状态是至关重要的。
评估个体细胞之间的基因表达差异可以发现稀有的亚群,稀有亚群细胞的功能对癌症耐药性和复发有重要的作用。目前,现有的实验技术和生物信息学的重大进展也使研究人员能够对健康和患病状态下的高度多样化的免疫细胞群体进行去卷积。此外,scRNA-seq越来越多地被用于描述早期发育、成肌细胞分化和淋巴细胞命运决定中的细胞谱系关系。
- 单个细胞的分离技术。
(1) 流式细胞术(FACS)已成为分离高纯度单细胞最常用的方法。当靶细胞表达非常低水平的标记物时,流式细胞术也是首选的方法。这个方法里,细胞首先被打上带有荧光标记的单克隆抗体,这种抗体可以识别细胞表面的标记物,并且能对不同的种群进行分类。这种方法夜壶出现阴性选择的结果,没有染色的细胞有时也会被筛选到。这种情况下,基于预定好的荧光参数,使用静电偏转系统将电荷施加到感兴趣的细胞上,细胞通过磁力分离。这技术的潜在限制包括需要大量的起始量(低通量细胞低于10,000就很难分离了)和需要单克隆抗体靶向感兴趣的蛋白。(2) 激光捕获显微切割利用计算机辅助的激光系统从固体样品中分离细胞。(3) 用于单细胞隔离的微流控技术。由于其低样品消耗和低分析成本,以及能够实现精确的流体控制,且获得广泛应用。
- 在scRNA-seq中数据处理
对许多实验室来说,实验上处理手段越来越精通,但是数据处理流程还是尚有缺陷。一些商业性的公司(如10× Genomics 、Fluidigm)提供了许多软件工具,但是任然只涉及到这项领域的初步阶段,一些金标准的工具有待被开发。下面,我们谈及一些已有的生物信息学工具。
(1)对于数据的预处理。质控和比对:当读段(reads)数据经过实验处理获得后,就需要进行质量控制(QC)。目前已有的QC软件FastQC可以完美地检查整个reads的质量分布。对于低质量的片段以及测序接头,都需要在这个阶段被去除,可以使用的工具有Burrows-Wheeler Aligner (BWA)和STAR,这两个也是传统的bulk RNA-seq数据分析中经常使用到的工具。在比对之前,要对UMIs序列进行修减,以提高定量准确性,目前已有的工具UMI-tools。RNA-seQC工具提供比对后的统计情况,比如去重的比对后的reads情况,比对到注释后外显子区域的reads情况,和具体的已有文库的覆盖情况。为了标准化和QC,可以加入人造的标准品序列进行参照(spikes-ins),由于RNA降解或者细胞溶解问题,内源性RNA和spikes-ins的比对率的比值会非常低。
(2)在比对之后,reads就定位到外显子、内含子或者其他一些基因元件。只有定位到外显子的reads被抽取出来用于生成基因表达矩阵。scRNA-seq数据的一个显著特征是由于基因缺失或瞬时表达等原因而存在零膨胀计数。为了揭示这个特征,需要进行归一化去除细胞之间误差,当然,这一步也会影响下游的一些软件(如monocle拟时序轨迹分析)
(3)不同样本的测序深度和文库大小可能不同,那么基因表达量差异就存在一部分因素来自这里。为了更真实反映基因差异的生物学意义,就要将数据进行一个转换(例如RPKM、TPM等),可以让同一基因在不同样本中具有可比性,单细胞中也可以使用Seurat包中LogNormalize()进行操作。scaling factors默认取值10000。而在PCA降维聚类之前需要利用ScaleData()标准化预处理,将各个表达量放在了同一个范围中。换句话说,Normalization 主要着眼于样本文库大小差异,Scaling 着眼于基因的表达分布差异。为了解决样本归一化方法出现了更多替代的方法,TMM是edgeR中归一化的方法,这背后的基本思想是,高度变异的基因主导计数,从而转换表达谱的相对丰度。
(4)归一化后,下一步是考虑有哪些混杂因素。我们知道,观察到的计数结果受到一系列不同因素的影响,包括生物因素和技术因素。而初始的材料越少,越容易造成很大的技术误差,此时我们可以加入spikes-ins作为内参减少误差。此外,单细胞测序不同于buik RNA-seq测序,需要按批次测序,不同条件需要分别测序,因此会导致“批次效应”,这属于技术误差。若在同一条件下,对所有细胞进行重复的分析,理论上可以改善批次效应,但是这样会耗费额外的成本和人工。除了技术误差外,生物误差(比如细胞状态、周期、大小、凋亡)也会对基因表达造成一定的影响。目前,为了解决这一难题,有些方法研究被开发出来,例如scLVM方法,这个软件可以用于探究细胞分化之前,对细胞的周期基因进行过滤,使得细胞周期基因不会干扰细胞分化相关基因,目前也有更好的代替方法如 ccRemover,这是因为scLVM 仅仅是考虑细胞周期直接相关基因,而且没有考虑细胞类型,其实不同类型的细胞哪怕是在同一个时间点的细胞周期状态,它们的细胞周期相关基因表达也是不同的。更重要的是,还有很多非直接细胞周期相关基因也需要考虑,所以ccRemover可以更好的来去除单细胞转录组数据里面去除细胞周期影响。
(5)细胞型的分类。根据marker gene将人体内的众多细胞识别出来是一件很困难的事情,对于任何一种特定的细胞类型,几乎没有可靠的标记存在,即使有成熟的标记,也仍然隐藏着很多不确定性 (例如,免疫细胞中的CD因子的标记)。PCA是一种无监督线性降维的方法,还有一些非线性的降维的方法,如TSNE(t-distributed stochastic neighbor embedding)、LLE(locally linear embedding)和Lsomap。尽管LLE和Lsomap在微阵列数据中具备良好的表现,但是运用于单细胞数据需要进一步挖掘。
(6)确定marker基因。一旦聚类完成,下一步就是确定在不同簇间有差异表达的标记基因。使用泊松分布作为计数数据的统计模型(variance = mean),为了计算出单细胞测序的噪音,将使用负二项分布模型(variance = mean + overdispersion×mean2,对于大部分基因都有overdispersion(偏大离差))。
(7)推断调控网络。基因调控网络(GRNs)可以帮助我们加强理解活细胞中复杂的生物过程并且这些网络可以大致上揭示基因和蛋白之间的互作。基因网络调控是介导基因型和表型的桥梁。单细胞基因技术相比bulk RNA-seq可以更好的推断GRNs,因为可以捕获数以千计的同一状态下的细胞,这就增加了统计效能。但是,由于细胞内的异质性以及基因和基因的互作,GRN的推定仍然具备挑战性。目前,许多的算法被开发出来用于推断GRN,可以大致归类为基于机器学习、基于共表达、基于模型以及基于信息理论的方法。基于模型的方法(比如贝叶斯网络)需要使用较多参数而且比较耗时。此外,概率图论模型需要为许多基因寻找所有的概率路径,这显然是非确定性多项式样的难题。最近,基于信息论的方法利用互信息和条件互信息获得了广泛的应用,因为它们不需要假设,可以测量基因之间的非线性关联。从单细胞的角度来看,单个细胞的特征必须适当地整合到GRN模型中。如上文所提到的,技术噪音很难和生物多样性区分开。但是,单细胞数据具有不同步的属性,以及多种细胞亚型的存在可以为探测GRNs提供内在统计可变性。一些值得注意的方法已经开发出来,可以从单细胞数据中识别GRNs,并已成功应用于T细胞生物学,从共表达分析数据中提供了新的见解,例如[Victoria Moignard](javascript:;)等人的SCNS(single-cell network synthesis (SCNS) toolkit)。[Andrea Ocone](javascript:;)等人展示了一个重构基因网络动力学的框架,结合造血干细胞的数据,在不同的通路中,重构出基因表达动力学图并推断出重要基因的调控网络结构。
(8)重建细胞层次结构。单独的细胞不断地经历着动力学过程并且对环境的刺激做出反应。这些反应中,有些很快,有些很慢,甚至会反应好多年(疾病的发展)。这些动力学过程特别表现在细胞的分子中,可以检测到RNA和蛋白质含量的变化。为了研究全细胞基因组范围的动态过程,细胞必须使用复杂的技术进行同步。显然,在单细胞系统中,细胞是不同步的,这使得沿着整个轨迹捕捉不同的瞬时时间点成为可能。然后,我们可以应用算法重建有关分化或细胞周期进展的动态细胞轨迹。在Monocle软件中,伪时序(pseudotime)的概念被引入,用于测量细胞的生物学过程。最大简约法是推导细胞动力学的基本原理,在进化生物学中广泛应用于系统发育树的重建。最开始的Monocle里面,使用节点代表细胞,边缘代表每一对细胞。细胞与细胞之间的距离是通过ICA(独立分量分析)降维得到的。根据细胞与细胞之间的距离推算到边缘权重。然后用最小生成树的算法来寻找最长的骨干网。这些方法的主要局限性是构造的树非常复杂,因此用户必须指定具体分支进行搜索。Monocle2是一个更加先进的方法,这个方法比一代更加快,具有更好的鲁棒性。它利用反向图嵌入技术且合并了非监督数据驱动的方法。在有时间信息的情况下,基于监督的学习方法可以更加准确。使用峰峦分析(SCUBA)的方法进行单个细胞聚类。目前,多时间点测量的小鼠干细胞基因表达谱,通过SCUBA,建立小鼠干细胞早期发育谱系。单细胞测序已经成功的运用于构建发育谱系,有一种改编的技术Div-seq通过密度梯度离心法获得神经元的细胞核,经过流式分选之后对单细胞核进行转录组测序。这种方法不需要进行组织上的酶解,这就避免了很多RNA降解的可能性。Naomi Habib等人利用这项技术在成体海马中实现高灵敏辨别细胞类型并追踪新生神经元转录的动态变化。最初的轨迹推断的方法是基于线性轨迹,目前的方法整合了分支的概念,这可能是理解动态细胞系统的关键。但是,这些方法,无法精确追踪细胞从一种状态转变到另一种状态时所采用的发育路径。在一项新的研究中,来自美国布罗德研究所的研究人员利用一种称为“最佳运输(optimal transport)”的数学方法构建出一种称为Waddington-OT的框架。他们随后在对干细胞重编程开展的大规模scRNA-seq时间进程研究中使用这种方法来预测细胞群体如何从一种状态转变到另一种状态。