RNA sequencing: the teenage years

老板最近在群里发了这篇文章，大致扫了下，发现这篇文章梳理了10多年来RNA测序相关的知识，几乎涵盖了市面上所有RNA测序相关的技术，而且各项技术的发展、优缺点都讲的比较详细，是一篇非常好的综述。所以这里我决定大致翻译下这篇文章。

由于我比较懒，并不会逐字逐句去翻译，加上我偶尔会加上自己的一点看法，可能会比较乱，大家如果感兴趣还是可以去看原始的文章。

对于一些专业术语，我会保留其英文。因为我觉得中文解释不了这些单词。但我会尽量放一些能解释这些单词的链接。

这篇综述的参考文献列的很多，大家要是对某个部分感兴趣可以直接看参考文献。

RNA-Seq的发展已经历经了10余年，现在几乎已经成为了各种生物学研究的标配。在RNA-Seq的应用中，differential gene expression（DGE，差异基因表达）无疑是最广泛的。相比于以前，DGE的步骤并没有太多的区别：实验部分还是提取RNA、mRNA富集或者核糖体去除，cDNA合成、建库。测序深度一般就是10-30M reads。测序完成之后就是分析：比对/或者组装（取决于有参还是无参），计数，过滤或者标准化，然后就是应用统计模型来找到差异基因/转录本。

除了DGE之外，RNA-Seq还可以帮助我们理解如可变剪切、非编码RNA、enhancer RNA等问题。当然，这些技术大部分还是利用illumina的short-read来做的。但近几年来，在long-read方面的技术也逐步在帮助我们解决一些short-read所不能解决的问题。

然后作者概述了下他们接下来要讲的内容，这里不再一一赘述。值得一提的是，作者自己也提到了，由于篇幅的限制，作者有些RNA-Seq的技术并没有提到，包括非编码RNA的转录组、原核生物的转录组、表观转录组（如RNA修饰）等。

但作者给出了参考的综述，大家感兴趣可以看看。

Advances in RNA-Seq technologies

Short-read cDNA sequencing for DGE

相比于之前的芯片，RNA-Seq建库更加的方便，测序也更加的便宜，配套的分析方法也更加的完善。而且，short-read RNA-Seq的数据质量也很好，在平台内和跨平台的稳定性也很高。尽管如此，在建库和分析的过程中还是会有一些问题。比如说，我们可能不能正确地鉴定和定量来自同一个基因的不同isoform。再比如说，不同的技术对于ambiguous或者multi-mapped reads有着不同的定量方法。

作者在这里提到了一种叫做synthetic long reads的方法来解决这些问题。大致意思应该是利用UMI来把short-read努力拼成全长mRNA。大家感兴趣的可以看下。

但最终能够解决short-reads这种短读长问题，还是得依赖long-read cDNA测序和dRNA-Seq。

Long-read cDNA sequencing

相比于之前用short-read拼成长read，PacBio和Nanopore的long-read技术能够克服short-read技术自身的一些缺陷。例如，ambiguous reads会少很多，也可以帮助鉴定捕捉到更多的isoform，同时，也可以帮助减少一些short-read RNA-Seq工具带来的splice-junction错误。

我感觉ambiguous read对于isofrom或者说transcript层面的比对是不利的，对gene层面的比对可能问题不是那么大。multi-mapped read对于gene层面的比对问题可能比较大，因为某些gene是同源的，某些部分本来就是一样的，short-read就很难正确分辨来源。

splice-junction指的应该是由于RNA-Seq的read是外显子拼接而成的，RNA-Seq的比对工具相比于WGS工具，需要考虑到外显子拼接。

关于三代测序的基本介绍，我推荐看看《陈巍学基因》的三代测序部分和黄树嘉老师的一篇文章。

这部分稍微讲了下Pacbio和ONT（Oxford Nanopore Technology）的long-read cDNA建库，个人感觉讲的比较一般，还不如看看黄老师的文章。

Long-read direct RNA sequencing

这部分介绍了下Nanoprore的long-read（可以直接测RNA的）技术，讲了下建库，还讲了下long-read技术相比于short-read有一些优点：可以提高isoform的检测，可以用来估计polyA的长度。Nanopore自己研发了nanopolish-polya可以用nanopore自己的数据来计算polyA的长度。这个分析已经证明了那些保留内含子的转录本，会比完全剪切的转录本，含有更长的polyA尾巴。同时，这种直接测RNA的long-read对于RNA碱基修饰的检测也会有一定的作用。

Comparing long-read and short-read technologies

long-read的缺点之低通量

short-read一般是10^9-1010数量级，而Pacbio和ONT则是10^6-107数量级。这种低通量会导致差异基因检测的sensitivity下降。不过，并不是所有的地方都需要用到高通量的。如果你只是希望发现isoform或者说更看中length而不是depth，那么这种缺点也没有关系了。而且，read depth事实上只对于一些中低表达的差异基因影响比较大，对于高表达的基因，影响不是那么的大。

long-read要想撼动short-read在差异基因上的优势，其还得提升2-3个数量级才可以。不过，一旦通路上去了，long-read就能到达跟short-read一样的sensitivity，但会有更高的specificity。

就现在来说，一般大家会用二三代结合的方法来做Iso-Seq（isoform-seq），这样既可以增加测序深度，也可以增加sensitivity，specificity。同时也可以保证转录本定量的准确性。

long-read的缺点之高测序错误率

相比于传统的illumina short-read测序，三代的测序错误率要高1-2个数量级，一般的错误是插入-缺失错误。不过对于RNA-Seq来说，这个错误倒不是那么的致命。因为RNA-Seq并不要求每个碱基都是正确的，它只要能够比对到转录本/isofrom上就行。当然，对于高错误率，也有一些解决办法。因为三代的测序错误是随机发生的，像Pacbio就可以利用CCS来一遍遍地测来进行纠错。不过，如果花太多的资源在纠错上，可能会导致最后unique Transcript会比较少，毕竟我们也不可能无限地去测。

关于Pacbio的CCS，可以看下这几篇文章。

http://www.genome.cn/News/Industry/549.html

https://www.zhihu.com/question/25409882

http://files.pacb.com/software/smrtanalysis/2.2.0/doc/smrtportal/help/!SSL!/Webhelp/Portal_PacBio_Glossary.htm

long-read的缺点之sensitivity

这里主要强调了建库的一些问题导致的sensitivity下降，大家感兴趣可以看看。

Improved RNA-seq library preparation

这部分讲了一些优化的RNA-Seq建库策略，包括

oligo-dT enrichment when selecting RNAs for sequencing
methods to specifically select for the 3ʹ or 5ʹ ends of transcripts
the use of UMIs to differentiate technical from biological duplication
improved library preparation for degraded input RNA

Moving beyond poly(A) enrichment

现在大部分文章用的RNA-Seq建库都是用oligo-dT去富集polyA尾的mRNA。但是这种方法会造成3' biased，同时也不能检测一些非编码RNA，比如说miRNA，enhancer RNA等。尽管如此，直接去除oligo-dT富集也是不对的，因为你可能最后95%的reads都是rRNA了。

然后这里作者提到了可以用WTA（whole-transcriptome-amplification，全转录组扩增的方法）来检测mRNA和一些非编码RNA。对于一些WTA测不到的短非编码RNA，则用特定的技术，比如小RNA测序等。

作者还介绍了WTA建库过程中的核糖体去除方法（应该是WTA建库过程中，这里我也不太清除）。一种是把rRNA从其他RNA中分离出来（所谓的pull-out），另一种是用RNase H选择性地降解rRNA。

这里也懒得翻译了，大家感兴趣的可以自己看看。

Enriching RNA 3ʹ ends for Tag RNA-seq and alternative polyadenylation analysis

这里作者介绍了一种转录本3'端富集的建库方法，这种方法测序深度会更低，同时read长度会更短。这种方法比较适合于想要在基因水平做差异表达或者有大量的样本重复要做的情况。相对应的数据分析也会有一定的简化，不需要exon-junction detection和基因长度的标准化。不过这种方法对于一些同源基因的定量效果并不是很好，同时也不适合isoform分析。

作者也提到这种3'富集的方法可以帮助我们探究3‘ UTR的调控机制。这种调控机制可以帮助我们理解miRNA的调控、mRNA的稳定性、定位以及翻译。

Enriching RNA 5ʹ ends for transcription start-site mapping

作者介绍了富集5'端的方法，主要是用来鉴定启动子和转录起始位点的。大家感兴趣的可以看看。

Use of unique molecular identifiers to detect PCR duplicates

这一部分还是值得好好讲讲的，因为大家一开始总是会纠结去不去重复的问题。

RNA-Seq的数据经常会有很高的重复率，即许多read mapping在了同一位点上。WGS产生的重复reads我们经常会假定是PCR那步产生的technical biases，所以我们一般是去掉的。但RNA-Seq的重复reads，我们实际上是分不出其是真实的生物学信号还是PCR technical biases，所以一般是不去的。

这种重复在单端测序的时候更常见，因为单端只有一条read，如果是mapping 在同一地方，就会认为是重复。而双端只有两条read都mapping在同一地方，才会认为是重复。

现在一般解决的方法是利用UMI，好处有

可以更加准确地定量基因的表达，从而更加准确地做差异表达分析
更加准确地做RNA-Seq variant calling，估计allele frequency。

Improving the analysis of degraded RNA

这一部分讨论了如何提高RNA建库的质量，尤其是对于那些低质量或者降解的RNA。比如说像那些临床的，泡在福尔马林的样本。

Designing better RNA-seq experiments

这一部分作者从重复数目、测序深度以及单双端的选择三个方面来探讨如何设计更好的RNA-Seq实验。

Replication and experimental power

总得来说，重复的重要性是大于测序深度和read length的。尽管RNA-Seq的技术稳定性要高于以前的芯片，但做生物学重复还是很有必要的。用额外的重复可以帮助我们鉴定离群点，从而在进行下一步分析前，移除离群点或者下调这些离群点的权重。

决定重复的数目需要考虑到以下几个方面

effect size
within-group variation
acceptable false-positive
false-negative rates

但事实上，决定适合的重复数目并不是一件容易的事情。一个48个重复的酵母研究发现，当只含有3个重复的时候，大部分的差异表达检测工具只能检测20%-40%的差异基因。这个研究实际上推荐的是大于6个重复。还有个研究推荐4个重复，不过其也强调要考虑衡量样本的生物学内在差异性。比如说有些生物学差异很大的样本，例如肿瘤患者的组织，就需要增加更多的重复了。

Determining the optimal read depth

一般来说我们是测10-30M reads。但如果你的样本重复够多，且你只关注一些高表达基因的差异，那么对于很多样本来说，1M reads就可以有差不多的效果了。reads depth的估计可以检查在样本间的reads分布以及饱和曲线。

Choosing parameters: read length and single-end or paired-end sequencing

对于很多测序，read length是越高越好的，因为其可以保证更多的DNA覆盖率。但对于RNA-Seq来说，并不是那么的重要。因为你只需要知道这个read来源于哪里即可，过长的read对于最终的定量并没有太多的影响。当然，如果你想要分析isofrom，那更长的read是会有帮助的。

SE和PE的选择也是如此，单端的差异基因表达分析，其实是差不多的。但如果涉及到融合基因，可变剪切，新转录本发现等等，那么PE就会更有优势了。

不过现在单端价格和双端价格好像已经是一样了

RNA-seq data analysis

现在市面上针对差异基因有着许许多多的工具，不同的工具以及组合最终会带来不同的效果。总的来说，基本上做完一套差异基因需要四个步骤

步骤1：提取测序read，然后mapping
步骤2：定量基因或者转录本。这一步可能会有几个子步骤，这一般来说取决于你是有参还无参的。
步骤3：过滤以及标准化read
步骤4：差异表达

关于工具的选择，这里列了很多综述，大家可以去看看。

Phase 1 — alignment and assembly of sequencing reads

在得到了测序reads之后，就会把read比对到参考基因组上，工具一般有Tophat，STAR，HISAT。测序产生的cDNA是来源于RNA的，而RNA是由多个外显子拼接而成的，所以这些工具的主要不同是在外显子比对的算法上。

如果没有高质量的参考基因组，就要考虑比对时候先拼接转录本，然后再把read和拼接的转录组进行比对。工具有StringTie 和SOAPdenovo-Trans。除了对于非参物种的研究，这种方法还适用于异常转录本（比如说癌组织）。

近年来，还发展出了一些“alignment-free tools”，比如说Sailfish，Kallisto和Salmon。这类工具直接是把reads和转录本关联起来，并不需要额外的定量步骤。这些工具在高丰度表达的基因上表现比较好，而在低丰度或者短转录本上表现较差。

总的来说，不同的mapping工具差异体现在如何分配一部分read上，比如说multi-mapped read或者ambiguously mapping read上。

这里作者列出了一些关于mapping 工具如何分配reads的工具，感兴趣的可以看看。

Phase 2 — quantification of transcript abundance

选择定量工具这一步非常的关键，其对最终结果的影响可能还超过选择比对工具。如果是转录本层面的定量，短reads可能比较麻烦，因为其可能不能跨过外显子，所以并不能清楚地知道这个reads是来自于哪个isoform。事实上，即使是基因层面的定量，也不是那么地清楚的。比如一个样本的主要isoform是另一个样本的主要isoform的2倍长度，但表达量却是2倍，如果我们仅仅从基因水平来看，并不能真正地明白差异的来源。（毕竟长度越长，含有read的可能性越大）

通常的定量工具有RSEM、CuffLinks、MMSeq、HTSeq以及前面提到过的alignment-free工具。不同的工具对于align reads的处理是不一样的，比如有些是直接丢掉，有些是经过一定的方法进行估计。

Phase 3 — filtering and normalization

通常来说，为了避免测序深度、表达模式，技术biases，我们会对表达矩阵进行一定的过滤和标准化。过滤一般就是去掉那些低表达的基因，标准化就稍微复杂点，需要考虑到GC含量以及测序深度。早期的一些标准化方法比如RPKM，现在已经证明是不可取的了，取而代之的是一些如quartile or median normalization方法。

选择不同的标准化方法会对最终的差异结果有很大的影响。一般来说，大部分标准化的工具都基于两个假设。第一是在重复样本之间，绝大部分的基因表达水平是一致的。第二个是在不同样本之间，总的mRNA水平并不会有非常显著的区别。这两个假设是非常重要的，因为当你的样本不符合这两个基本假设的时候，就要考虑用不同的标准化方法了。（最明显的例子应该还是肿瘤的例子）

另一类标准化的方法是利用spike-in的方法。基本原理应该是跟做定量PCR时候的内参差不多。不过我没接触过这种，大家感兴趣的可以自己去看看。

Phase 4 — differential expression modelling

差异表达的建模一般分成两种，一种是差异基因，一种是差异转录本。差异基因的工具有edgeR，DESeq2以及limma+voom。差异转录本工具有CuffDiff，MMSEQ，Ballgown，这类工具要求的算力更高，且不同工具之间结果差异比较大。

Beyond bulk RNA analysis

这部分讲了单细胞测序和空间转录组。我觉得大家要是感兴趣还是别看我的翻译了……毕竟二手的翻译不如自己看的清楚。要是看的时候有什么问题，可以在下面交流。

Single-cell analysis

作者这里提了下单细胞的不同建库方法，不过我觉得要是想看详细的还是建议去看对应的单细胞综述。不过这里作者提到了要根据你自己的目的去选择对应的单细胞方法，即考虑测序的深度（每个细胞测尽可能多的转录本）和测序的广度（测更多的细胞）以及花费。一般来说，plate-based 或者 microfluidic methods 捕捉的细胞数目较少，但每个细胞能检测到更多的基因。而droplet-based systems 则可以捕捉更多的细胞

Spatially resolved RNA-seq methods

不管是bulk还是single-cell，实际上最后的测序结果都是丢失空间信息的。而空间信息的建立对于我们探究细胞环境与细胞表达的关系是至关重要的。文章里面提到了两种空间转录组的方法：“spatial encoding”和“in situ transcriptomics”。

spatial encoding又分成两种，一种是isolating spatially restricted cells（比如是显微激光切割，LCM（laser-capture microdissection ）），另一种是利用barcoding。前者已经在多个组织样本中实现了，但其要求的设备很多，比较难以推广。现在的10X 空间转录组和Slide-Seq都是用的barcoding来标记RNA，从而记录空间信息。不过，现在的空间转录组很多分辨率并没有达到单细胞的水平，这也是一个比较麻烦的地方。

In situ transcriptomics用的是另一种思路，即单分子荧光原位杂交。这种方法尽管只能检测少量转录本，但其的确可以直接检测RNA，提供组织信息以及微环境，甚至还可以产生亚细胞数据。不过这个技术也需要显微成像设备的支持。

Beyond steady-state RNA analysis

因为RNA-Seq一般来说只是研究了成熟mRNA。但真正的RNA合成是一个mRNA转录，加工和降解相互平衡的过程（这让我想起了单细胞分析中比较火的RNA速率分析）。所以这里作者讲了两者研究RNA动态的方法，一种是利用nascent RNA研究RNA的动态转录，一种是利用ribosome-profiling 研究RNA的动态翻译过程。由于我也不做这方面，大家感兴趣的可以自己去看看。

Beyond analysis of gene expression

前面都是RNA表达层面的，这部分作者讲了RNA结构分析，RNA-RNA互作以及RNA蛋白互作的研究方法，大家感兴趣可以自己去看。