文献解读:Hedlund, E., & Deng, Q. (2018). Single-cell RNA sequencing: technical advancements and biological applications. Molecular aspects of medicine, 59, 36-46.
1 引言
细胞是机体的基本组成单位,机体的每一个细胞都具有其独特性。单细胞RNA测序(single-cell RNA sequencing method,scRNA-seq)技术作为一项革命性工具,在揭示细胞独特性上达到了前所未有的精度。自从第一项scRNA-seq研究发表以来,这项技术已经被广泛用于多个方面的生物医学研究,包括肿瘤异质性研究、新细胞类型的鉴定、组织发育与细胞分化过程研究、基因调控网络研究、不同等位基因表达研究等。这篇文章主要针对scRNA-seq技术的技术进展及其在生物学研究中的应用进行介绍。
2 scRNA-seq技术
目前为止研究者们已经发展出了多种不同的scRNA-seq方法,这些方法有着各自不同的优势与适用性。一般来说,scRNA-seq主要包括4个步骤:(1)单个细胞或单个细胞核的分离或裂解;(2)逆转录;(3)cDNA扩增;(4)文库构件与测序。
2.1 单细胞分离与捕获(参见Fig 1)
这一步通常借助于酶解反应来完成,也可以通过激光捕获显微切割(laser capture microdissection,LCM)和膜片钳(patch clamping)技术进行辅助分离。酶解反应的时间应当快速以避免影响细胞的转录表达,同时也不能太短,应当使得细胞充分分离。之后需要将得到的单细胞悬液分离进行单个反应管之内。
微吸(Micro-pipetting)技术主要用来处理稀有细胞类型。
荧光激活细胞分选(fluo- rescent activated cell sorting,FACS)和微流控(microfluidic)技术用来处理大量细胞。FACS同时可以针对每种特定细胞类型进行富集,但是会出现更多的doublets现象,而且分选压力可能会对细胞造成伤害。微流控技术对细胞伤害更少且更加经济,缺点是容易丢失细胞且受到细胞大小影响。目前商用的微流控技术包括Fluidigm C1 system、10X Genomics Chromium、Illumina Biorad SureCell system。
微孔板(microwell)技术能够克服细胞大小带来的偏差,同时通过显微观察能够排除doublets现象的发生。
应当注意的是,单细胞的酶解过程可能是有问题的,尤其是针对粘附性较强的组织而言。酶解反应给细胞带来的应激反应可能导致细胞表面膜蛋白的降解以及内部转录水平的改变。一种可行的替代方法是仅针对细胞核进行分离和测序,目前仅能通过FACS技术实现这一目标。单细胞核测序的问题在于细胞核中含有的RNA含量极少。
2.2 逆转录(参见Table 1)
大部分实验protocol中使用oligodT priming的方法,主要针对多腺苷RNA和长链非编码RNA进行逆转录。缺点在于排除了非多腺苷RNA,包括多数非编码RNA与环形RNA等。
SUPeR-seq可以针对多腺苷和非多腺苷RNA进行逆转录。
MATQ-seq可以对基因全长进行测序,而且能够对细胞内全部RNA进行捕获。
2.3 cDNA扩增
首先通过反转录形成cDNA第一条链,第二条链可以通过多种方法进行合成。一类方法是SMART(switching mechanism at 50 end of RNA template)方法,利用了M-MLV转录酶(Moloney鼠白血病病毒逆转录酶)的转移酶和链转换活性来整合模板转换寡核苷酸作为下游PCR扩增的衔接子。具体方法包括Smart-seq,Smart-seq2,STRT。PCR是用来扩增cDNA的常用方法,由于PCR是指数扩增,对断链和GC含量少的DNA链来说具有偏性。
线性扩增的方法则包括CEL-seq,CEL-seq2,MARS-seq。
拟线性扩增的方法包括MALBAC-RNA。
2.4 如何选择测序方法与样本数量
已有的scRNA-seq方法包括十几种,总的来说可以分成两大类:全长(full-length)测序与基于标签(tag-based)测序。全长测序即对基因全长进行测序,可以对基因的异构体(isoform)、剪切事件、SNP等进行分析。缺点在于无法将所有样本混入一个试管中进行建库,因此不适合高通量测序平台。此外大部分全长测序无法进行UMI(unique molecule identifiers)的插入。
UMI是一系列碱基顺序特异的短序列,在逆转录时添加在cDNA末端,这样所有来自同一cDNA的PCR扩增产物带有相同的UMI分子。对同一基因的不同UMI分子进行计数就能够作为基因转录mRNA含量的量化。最近发展出的MATQ-seq方法已能够在进行全长测序的同时进行UMI标记。
多数测序方法采用基于标签的方法,其中又可以分为基于3’(CEL-seq/CEL-seq2,MARS-seq)或是基于5’(STRT)。基于标签的方法能够结合UMI分子进行高通量测序,成本较低;缺点在于测序比对的敏感性差,此外仅能用于基因表达的测定,不能进行基因异构体分析和剪切事件的鉴定。
具体选择何种测序方法应当根据以上特点介绍来进行选择。就研究者对多种方法的比较来看,Smart-seq2在敏感性和可重复性上都要优于其他方法;如果测序的细胞很多,Drop-seq是一种合适的方法,每个细胞可测得4000个基因左右。此外,mRNA检测的敏感性与测序深度也有关系,如果是仅仅进行基因表达的量化,在测序深度达到1M reads/sample时就能达到帕累托最优;如果要分析可变剪切,测序深度应当更高。
另一个常见的问题是需要测序的细胞数量,这跟待测细胞的稀有程度有关。一个用来估计数量的式子是:
其中P(d)是检测效力,s是细胞频率,n是所需细胞数量。按照这一公式,如果感兴趣的细胞类型在组织细胞中占比1%,则需要对250个细胞进行测序才能达到0.9以上的检测效力。此外为了对测序的假阳性率和假阴性率进行控制,一定数量的生物学重复也是必要的。如果感兴趣细胞在转录组上与其他细胞存在较大差异,那么测序的细胞数量和测序深度都可以适当降低要求。
2.5 scRNA-seq中的技术问题
由于单个细胞中RNA含量很低且存在基因的随机表达特性,scRNA-seq数据面临的一个重要问题就是细胞间变异性。这种变异性可能来自于技术误差(比如RNA捕获效率不同)或是生物学误差(比如基因随机表达、不同的细胞状态、细胞大小、细胞周期阶段)。
此外批次效应是在高通量测序过程中常见的一个系统误差。在细胞捕获与测序、不同的试剂使用、多个样本等处理过程中,都可能引入批次效应。通过仔细规划实验步骤和使用多个生物学重复可以减少批次效应的影响。但是由于生物样本间不同的遗传背景以及不同的捕获效率而导致的基因检出率差异是很难控制的。通过PCA降维来观察不同批次的样本是否均匀分布是检查批次效应的一种常用方法。
为了去除技术误差的影响,一种常用的方法是向样本中加入已知丰度的外源性spike-in RNA(比如有ERCC提供的92 spike-in RNA),根据spike-in RNA的检测率来对数据进行质控和标准化。缺点在于spike-in RNA在分子特性上可能与内源性RNA存在差异,此外也无法完全避免批次效应的影响。
因此scRNA-seq技术的一大挑战就在于如果避免RNA信息的丢失以及确保数据的高保真性。此外,对测序分析结果进行实验验证也是很有必要的。