2019-10-03-学习RNA-seq这十年记录

首先是目前10年来测序技术的的发展平台的更迭变化

来自生信技能树

我摘抄了重点的内容关于不同读长方式测序结果的优缺点比较如下

短读长、长读长cDNA与直接RNA-seq分析的比较。超过90%的人类基因(gene)存在可变剪接，它们会形成两个或更多的可表达异构体（转录本x与y）。
短读长cDNA测序中就增加了捕获信息的复杂性，短读长对异构体的检测会受到其读长的限制，在这种技术里，短读长无法精确地map到转录组上，而长读长测序方法则能直接鉴定异构体。
在短读长cDNA测序中，有很大比例的读长会不明确地map到不同异构相同的外显子上；而那些跨越了外显子-外显子连接处的读长可以提高对异构体的分析效果，但是当不同的异构体都含有这个连接处时，这种操作意义不大。
这些问题都加剧了数据分析的复杂性，以及无法对结果进行明确地解释。
长读长cDNA方法能够产生全长的异构体读长，从而去除或大幅度降低这些不精确的结果，并改进差异异构表达的分析结果。
然而这些方法依赖于cDNA的转换，它去除了RNA碱基的修饰信息，并且只能粗略地估计多聚腺苷酸(poly(A))尾巴长度。
dRNA-seq可以进行全长导构体分析，碱基修饰检测（例如N6-甲基腺苷(M6A)）和poly(A)尾巴长度估计。

然后从这个比较中就明白了如果想要的结果是做RNA修饰的那么首选直接RNA测序也就是选择ONT平台，但是他的缺点是低通量，样本制备与测序偏移不明，无法对降解的RNA进行分析。
如果是想要的结果只是RNA表达的上下调而且强调研究新异构体或者着力于新转录本的发现，那么就选择长读长cDNA，也就是PacBio或ONT平台的测序方法，缺点同样是通量低，但针对降解的RNA比直接测序要好一点。
但是目前市面上最常用的还是Illumina平台的短读长cDNA，这个的缺点就是前面两个的优点，而优点就是通量高，能对小RNA有更好的分析，最大的优点就是目前的RNA-seq方法基本上都是针对这个测序方法开发的。

长读长RNA-seq分析正被研究者们迅速采用，并与深度短读长RNA-seq数据结合起来，用于更全面的分析，这非常类似于基因组组装所采取的混合方法。随着时间的推移，长读长和dRNA-seq方法可能会用于证明已经鉴定的基因和转录本的列表，即使在研究很透的生物中，对于基因和转录本的研究也还远远不够。随着方法的成熟，以及测序通量的增加，差异转录本分析将会成为常规方法。合成长读长RNA-seq或其它技术的发展将对这个领域产生什么样的影响，还有待观察。

然而从目前来看，Illumina短读长RNA-seq依然占据了主导地位，这篇综述集中讨论短读长测序。
RNA-seq最初用于分析多聚腺苷酸化的转录本，使用的方法源于早期的表达序列标签(expressed-sequence tag)和芯片研究。这种方法存在局限性，随后进行了改良：在选择RNA进行测序时，取代dligo-dT富集的替代方法，或者是那些专门选择转录本的3ʹ或5ʹ末端的方法，或者是使用UMIs进行区分技术重复和生物重复的方法，以及针对RNA易降解特性改良的文库制备方法。并将这些方法的组合使研究者们阐明由可变poly(A)(alternative poly(A),APA)，或替代启动子(alternative promoter)使用和可变剪接(alternative splicing)生成的复杂转录本。

改良RNA-seq建库方法

1.Poly(A)富集的替代方法
2.富集的RNA 3ʹ末端用于Tag RNA-seq以及可变多聚腺苷酸分析(Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis.)
3.富集的RNA 5ʹ末端用于起始位点map(Enriching RNA 5ʹends for transcription start- site mapping)
4.使用唯一分子标识符来检测PCR重复
5.提高降解RNA的分析

设计更好的RNA-seq实验

1.重复与实验功效(replication and experimental power):研究表明，至少应该使用6个生物学重复，这个数量要超过文献中常用的3到4个生物重复的数量。
2.确定合适的读取深度(Determining the optimal read depth)
3.选择参数：测序长度，单端测序或双端测序:目前普遍选择双端PE

下面就是重头戏

RNA-seq数据分析

首先是分析流程

来自文献figure2

其次是RNA-seq数据分析工具

来自生信技能树总结的原文table2

第1阶段-测序读长的比对(alignment)与组装(assembly)

几点需要注意
1.处理下机后的FASTQ文件最常见的第一步操作就是将测序读长map到已知的转录组上（或已经注释的基因组上），将每个测序读长转换为一个或多个基因组坐标。这一过程可以使用多个不同的比对工具，例如TopHat，STAR或HISAT，它们都依赖于一个参考基因组。
2.一些组装工具，例如StringTie，SOAPdenovo-Trans使用利用那些已经比对好的结果中的空隙来推测其外显子边界，以及可能的剪接位点。当参考基因组注释没有或者是不完整时，或者是你感兴趣的组织（例如在肿瘤组织）中转录本异常的情况下，这些从头组装转录本的工具尤其好用。
3.最近，已经开发出了计算高效的“免比对”(alignment-free)工具，例如Sailfish，Kallisto与Salmon，这些工具可以直接将测序读长与转录本进行关联，从而无需单独的定量步骤（参考后面的第2阶段部分）。这些工具在那些表征更高丰度（以及更长的）转录本方面表现得非常良好；然后它们在那些定量低丰度或短转录本方面表现不佳。

第2阶段-转录本丰度的量化

1.不同的比较研究表明，在量化步骤中采用的不同的方法对最终的结果影响最大，这种影响甚至超过了第1步中比对工具的选择。
2.常用的量化工具包括RSEM，CuffLinks，MMSeq与HTSeq以及前面提到的那些免比对工具。

一些基于读长计算的工具，例如HTSeq（或者是R equivalent，featureCounts）通常会丢弃许多比对好的读长，包括那些回贴到多个位置的读长，或者是重叠多个表达特征的读长。
RSEM会使用期望最大化的方法来分配那些比对不明的读长，
Kallisto这个无参比对工具会将比对不明的读长包括在它们相应的转录本计数中，从而导致结果偏倚。
使用tximport包可以将转录本丰度估计转化为读长计数值(read count equivalents)。
量化步骤中产生的结果通常会合并为一个表达矩阵，在这个矩阵中，每一行是表达特征（基因或转录本），每一列是样本名，表达矩阵中的值要和是实际的读长值，要么是一种估计丰度。

第3阶段-过滤和归一化

通常来说，定量后的基因或转录本计数结果还需要过滤和归一化，从而用于解释读长深度，表达模式以及技术偏倚。过滤用于去除那些不均一的低读长丰度特征的值，从而提高对那些真正差异表达值的检测能力。而对表达矩阵进行归一化则更加复杂。直接转换可以调整丰度值，以便能更加说明GC含量的差异以及读长深度。
早期用于归一化的方法就是RPKM，但这种方法现在已经淘汰，它已经被那些能够校正样本之间更细微差异的方法所取代，例如四分位数法或中位数归一法。

广泛的研究表明，归一化方法的选择会对最终的结果以及生物学结论产生重要的影响。

大多数进行归一化的算法依赖于两个重要的假设：第一，大多数基因的表达水平在重复的样本组之间保持不变；第二，不同的样本组在总体的mRNA水平上不表现出显著差异。
当这些基础假设不成立时，那么就需要慎重考虑是否进行归一化，以及如何进行归一化。

例如，如果一些基因在一个样本中高表达，同时相同的基因，以及另外的一些基因在同一组中的另外一个样本里正常表达，如果对读长深度进行简单的归一化则明显不够，因为相同数目的测序读长会分配到第二个样本里更多的基因上面。归一化过程，例如截断均值化M值(The Trimmed Mean of M-values,TMM)方法（它已经整合到的edgeR包中）就能解决这个问题。

选择一个合适的归一化方法或许很困难；一种做法就是深度使用多种方法进行分析，然后比较它们结果的一致性。如果结果对于归一化方法高度敏度，则应该对数据进行进一步的探索，以确定差异来源。但是，比较不同的归一化方法时，要谨慎确保这种归一化方法的比较不是为了选择与原始假设最兼容的归一化方法。

处理这些问题的一种方法的spike-in control RNAs，这种方法会引入一些外源已知的RNA序列，这些外源已知的RNA序列已知，浓度已知，在建库的过程中，将它们添加到样本中。RNA-seq中的Spike-ins方法包括外部RNA控制协会混合物(External RNA Controls Consortium mix, ERCCs)，spike-in RNA突变物(spike-in RNA variants, SIRVs)与测序spike-ins(sequencing spike-ins, Sequins)。

目前，spike-in控制法并没有在发表RNA-seq DGE实验中得到广泛使用，如果这种方法被进一步改进，提高其一致性的话，则这种方法会得到广泛使用，但现在很多研究者们在他们的单细胞实验（这种实验里会更加广泛地使用spike-in）使用了这种方法。

第4阶段-差异表达的统计建模

一旦测序读长被处理为表达矩阵，那么就可以对实验进行统计建模，从而确定哪些转录本发生了改变。一些工具可以达到这些目的；其中一些工具会对基因水平的读长数目进行统计建模，而一些则依赖于转录本水平的估计。
基因水平的工具通常依赖于比对好的读长数目，使用广义线性模型(Generalized Linear Models)处理这些数据，从而能够评估复杂的实验设计。
这些工具包括edgeR，DESeq2以及limma+voom，这些工具能够进行有效地计算，并提供比较结果。
对差异异构体表达进行统计建模的工具包括CuffDiff，MMSEQ与Ballgown，这些工具通常需要更多的算力(computational power)，并且不同工具的结果中的信息量更大。
但是，在进行选择差异表达工具之前做的那些工作，例如比对，定量或过滤以及归一化这些操作对最终结果的总体方差会产生更大的影响。
常规的RNA-seq分析流程需要掌握三个知识点

来自B站

常规RNA-seq进阶

常规的RNA-seq无法轻易地分辨出特定的细胞类型，也无法保存空间信息，而这两个信息都是理解生物系统复杂性的关键因素。
单细胞测序让人们发现了，即使在被认为研究透彻的疾病背后，还存在着一些未知细胞类型，例如发现了离子细胞(ionocyte cell)，这类细胞可能与囊性纤维化疾病有关。
空间分辨RNA-seq则提示了在实体组织中细胞与细胞之间的相互作用，例如发现了成年心脏组织中一小群胎儿标记基因表达的细胞。虽然在可预见的未来，常规RNA-seq仍然是一个占据主导地位的工具。但是，单细胞测序与分析方法正在快速地被研究者利用，并且随着空间RNA-seq方法的成熟，它们有可能成为常规RNA-seq分析中的一部分。

单细胞分析

scRNA-seq于2009年首次报道，当时的研究者在含有裂解缓冲液的EP管中分离了单个卵母细胞。
机械裂解和胶原酶加DNAase的酶解会生成单细胞悬液，从而产生大量可用的细胞，但是这种产生是高度组织特异性的，比较依赖于经验，其过程也需要非常小心。
一旦制备好了单细胞悬液，就可以通过各种方法分离单细胞（FIG 3a）；大多数的实验都是使用流式细胞仪来进行单细胞分选，这种方法是最容易，它可以将单个细胞直接分选到含有裂解液的微孔板中。
对于更高通量的实验，现存有大量分离单细胞的专门仪器，这些仪器需要自己构建或购买。
单细胞分离后，它们就被裂解，将RNA释放到溶解中用于cDNA合成，并将cDNA用于RNA-seq文库制备。
在文库制备过程中，来源于每个细胞的RNA会通过PCR进行扩增。这种扩增就引入了PCR偏倚，但是UMIs可以用于校正这种偏倚。
由于Poisson采样，一个细胞中只有10-20%的转录本会被逆转录，这就限制了转录本检测的灵敏度，以及各种方法产生的可用数据。

最近已经出现了关于scRNA-seq的实验设计指南。方法学的快速发展意味着scRNA-seq方法的技术已经快速过时了。然而Ziegenhain等人提供了scRNA-seq方法的详细概述，他着重强调了UMIs的在数据分析方面的重要性，并报道了提到了的6种方法中哪一种最为灵敏。然而他们的研究范围并不包括现在被广泛使用的10X Geneomics方法。

Figure3-单细胞RNA-seq与空间RNA-seq的概念

Figure3

当研究者们在选择scRNA-seq方法，需要考虑的主要因素包括：他们是否需要全长转录本的读长，在分析更多细胞表达谱（宽度, breadth）或每个细胞更多转录本（深度，depth）之间进行权衡，以及总体实验成本。

种草：希望下面3个小时的单细胞转录组课程能帮助你理解

来自生信技能树

全长scRNA-seq系统的通量比较低，因此每个细胞需要单独地处理，直到最终生成scRNA-seq文库。
虽然实验中测序的细胞数量是由选择的方法决定的，但是这也允许一些灵活性，不过随着分析的细胞数目的增多，测序成本的增加，往往限制了转录组分析的深度。因此，可以使用宽度和深度两个维度来评估不同的scRNA-seq系统。

最近，对A. thaliana根细胞原生质的分析表明，即使是植物的坚韧细胞壁这种障碍也能被解决，能产生用于测序的单细胞。scRNA-seq正在迅速成为生物学家们工具包的标准配置，并有可能在10年后被广泛使用，就像今天的常规RNA-seq一样。

当前的常规RNA-seq和scRNA-seq方法为研究者们提供了关于组织或细胞群体的高度详细的数据，但是没有捕获空间信息，就是会降低细胞环境与基因表达之间关系的分析能力。
空间转录组学(spatialomics)的两种方法是空间编码(spatial encoding)与原位转录组学(in situ transcriptomics)。

在RNA-seq文库制备过重中，空间编码方法能够记录其空间信息，或者是通过分离空间受限的细胞（例如，通过激光捕获显微解剖， laser-capture micro-dissection, LCM），或者是通过分离前的位置对RNA加上条形码（通过从组织切片中直接捕获mRNA）(FIG. 3b)。原位转录组学能够在组织切片中，通过对细胞中的RNA进行测序或成像来生成数据。技能树小编建议感兴趣的读者是阅读最近的深度评论，从而对这一领域进行更全面的理解。

LCM已经成功地用于从组织切片中的特定区域分离和分析单个细胞用于RNA-seq。虽然LCM需要专门的设备，但是许多机构已经广泛使用了这种技术。但是，虽然这种技术可能实现高度空间分辨率，但是它消耗人力，并且难以批量使用。
使用空间转录学 (Spatial Transcriptomics，10X Genomics)与Slide-seq方法可以直接从冰冻组织切片中直接捕获mRNAs，然后将这些mRNAs直接加载到寡核苷酸微阵列玻片(oligo- arrayed microarray slides)或严密包装寡核苷酸的pucks上。寡核苷酸包括空间条形码、UMI和oligo-dT引物，它们能唯一地识别每个转录本及其位置。
空间转录学方法已经被证明能够在一系列物种的组织中能发挥作用，其中就包括小鼠大脑和人类乳腺癌组织，人类心脏组织和拟南芥(A. thaliana)花序组织。Slide-seq是最近开发的一种技术，它已经被证明能够对小鼠大脑的冰冻切片进行测序。这些直接 mRNA捕获方法并不需要特殊的设备，且有相对简单的分析方法，并有可能大规模地应用于许多组织。

然而，还有两个局限需要解决。首先，该技术只能应用于新鲜的冷冻组织。其次，分辨率受到到阵列大小和捕获寡核苷酸点和珠子的间距的限制；目前的分析只能使用6.5x7 mm和3x3mm这两种规格，这就限制了组织切片的尺寸。空间转录组学斑点的直径为100µm，间距为100µm，这意味着它们不够小或不够密集，无法实现单细胞级分辨率。Slide- seq珠子则要小的多，直径只有10µm，而且非常密集，比相对前者具有十倍的空间分辨率，并且测序中的大约一半的珠子似乎是从单个细胞层面产生的数据。从分解的组织和空间编码的数据与scRNA-seq混合起来的计算方法可以改善分辨率，但是需要基础技术的进一步发展，以使其成为更常规的RNA-seq工具。

上述空间分辨RNA-seq方法的替代方案包括原位测序和使用单分子荧光原位杂交的基于成像的方法。这些方法能够产生比RNA-seq方法更窄的转录组信息，但它们能直接检测RNA，并且能够对低丰度的转录本进行分析。同时，它们还能提供组组织结构和微环境的信息，并能产生亚细胞数据。这种方法目前正取得了巨大进步，但是成像方法的一个主要局限就是需要高分辨率或超分辨率显微镜与自动流体技术结合，并且这种技术的成像时间可能要花上数小时，甚至是几天。测序成本的下降比摩尔定律预测的速度更快，与测序成本相比，高通量成规模的成像系统的机会似乎更有限。

上述提到的空间转录组学都受到无法产生深度转录组学数据的限制，以及受到细胞分辨率和/或高成本（时间和/或资金）的限制，但是这些方法正在迅速改进，并且已经应用于临床样本。
空间转录组学的具体计算方法开始出现。此外，原位RNA测序和成像方法的进步已经使得 $10^3$ 到 $10^5$ 个细胞生成的转录组数据成为可能，这与基于液滴的单细胞方法获得的数据量相近。

动态RNA-seq分析(Beyond steady-state RNA analysis)

DGE分析是使用RNA-seq来检测稳态下的mRNA表达水平，这一表达水平是通过mRNA的转录，加工和降解速度来决定的。但是，RNA-seq也可以用于研究涉及转录，翻译所涉及的过程与动力学特征，这些研究为基因表达提供了新的思路。

使用新生RNA(nascent RNA)方法来研究活性转录

基因表达是一个内在的动态过程，但是在检测复杂转录应答的细微以及快速变化或确定不稳定的非编码RNAs，例如增强子RNAs方面，常规的DGE分析方法就比较受限。RNA-seq可以用于绘制TSSs以及定量新合成的新生RNA，这就可以用来研究RNA动力学。
但是，与DGE分析相比，nascent RNA的分析则比较难，因为它们半衰期短，丰度低。
因此，为了研究这些动态的重要性，研究者们就开发了多种方法来分析nascent RNA；这些方法揭示了在启动子处的差异转录程度，表明RNA聚合酶II(Pol II)在启动子附近的暂停是基因表达的关键调节步骤，证明了nascent RNA有直接调节转录的作用，并表明其序列和结构影响转录的延伸，暂停和停顿，以及发挥染色体修饰结合和增强了子的作用。
nascent RNA- seq方法旨在区分新近转录的RNA和其它RNAs，这些方法可以分为3类：run-on方法，Pol II免疫沉淀法，代谢标记法(FIG. 4)。

Figure4-nascent RNA与翻译组分析的关键概念

Figure4

nascent RNA分析方法是将那些在一个细胞中新转录的RNAs从其它的RNAs中富集出来，并将它们与未富集的RNA（成熟的RNA）进行比较，富集nascent RNAs的方法主要有三种。

(a)Run-on方法是利用一个限时脉冲的方法将修饰过的核糖核酸添加到细胞培养基中，对细胞的RNA进行标记；这一过程可以用使用各种修饰的核苷酸，但是，图中的GRO-seq使用的是Bru修饰的核苷酸。当修饰过的核苷酸整合到RNA后，利用抗BrU的抗体，通过IP的手段将nascent-RNA链富集起来，并用于文库制备以及测序分析。
(b)RNA聚合酶II(Pol II)的IP方法则是利用了微球菌核酸酶(micrococcal nuclease)消化了染色质后，使用相应的抗体拉下了与Pol II结合的RNA。在染色质消化过程中，nascent RNA通过其Pol II足迹保护而不受核酸酶活性的影响，并不会被降解。
(c)代谢标记方法标记RNA的方法类似于Run-on方法，但前者使用的是核苷酸类似物4 sU。提取RNA后，烷基化4 sU，在逆转录过重中，就会产生G核苷酸的错配，从而通过在碱基对级分辨率的突变分析中直接确定4 sU的整合位点。制备3'末端RNA文库会通过降低未标记的RNA数量来增加测序过程中的信号强度。

Run-on法是将核酸类似物添加到样品中，从而使nascent RNA能够从总的RNA混合物中进行富集，并能够检测瞬时RNA的转录(FIG. 4a)。
全局run-on测序(Global run-on sequencing, GRO-seq)与精确核酸run-on测序(Precision nuclear run-on sequencing, PRO-seq)是分别将Bru或生物素修饰的核酸在RNA的转录期整合到nascent RNA中来实现的。
由于run-on过程中标记的核苷酸的数据，GRO-seq只能测到10-50bp的长度，这就降低的TSS检测的精度。
PRO-seq能够实现单个碱基级的分辨率，因为生物素标记的核苷酸掺入后转录就停止，可以识别出转录位点。
Pol II的免疫共沉淀方法包括，天然延长转录测序(native elongating transcription sequencing, NET-seq)和哺乳动物染色质天然转录测序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq)，使用抗FLAG（用FLAG标记的Pol II）抗体进行沉淀的方法，或各种针对Pol II C末端结构域(CTD)的沉淀方法(FIG. 4b)。
NET-seq缺乏特异性，因为任何与Pol II强烈结合的RNA都会污染nascent RNA的富集效果，例如在NET-seq数据中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多个CTD抗体提示了VTD修饰是如何影响转录的，检测到了RNA加工的中间体，并能能够将特定的Pol II nascent RNAs定位于TSSs。
然而，这些检测能力是以更复杂的实验，更多的细胞数量和更高的测序成本为代价的。
使用核苷酸类似物硫代吡啶(4-thiouridine, 4 sU)进行代谢脉冲标记(Metabolic pulse- labelling)的方法可以识别nascent RNA(FIG. 4c)。
但是，在那些需要长标记时间的方法中，大多数的转录本都会被标记，这就限制了这种方法的灵敏度。
TT-seq将标记时间限制在5分钟，因此只标记新转录本的3’末端，它在进行生物素亲和纯化前，有一个RNA片段化操作，用于富集标记的RNA。SLAM-seq整合了3’mRNA-seq文库制备方法（虽然它也用于其它的文库制备，例如miRNA），它仅针对标记的新转录的RNA进行测序，而非整个转录本进行测序。此外，在SLAM-seq中，提取RNA后，还要加入碘乙酰胺(iodoacetamide)，用于烷基化已经插入到新生成的nascent RNA链中的4 sU残基。这种修饰会诱导反转录式依赖的胞腺嘧啶到胞嘧啶的转换(T > C)，这在测序分析中会被检测为“突变”，从而直接识别为4 su整合位点。
然而，低掺入率意味着只有少量的4 sU位点可以被转换为胞嘧啶，这就限制了灵敏性。有两种方法，即TUC-seq与TimeLapse-seq也使用T>C这种突变分析方法，但是它们并不富集3’末端。这两种方法用于研究细胞干扰后的转录应答和RNA的半衰期。
Nascent RNA分析方法还未进行过直接比较。Nascent RNA方法都受到非特异性背景和/或降解的RNA的负面影响，这会影响读取深度。
通过仅测序3’末端，那么non-nascent RNA的效应就会在PRO-seq，TT-seq和SLAM-seq中降低，但是几乎没有证据表明是否有其他方法更优。亲和纯化方法费时费力，与代谢标记法相比，前者需要更多的起始材料，但是，确定脉冲标记的时间比较复杂，并且短脉冲产生用于分析的RNA很少，这限制了灵敏度。

最近开发的，组织特异性RNA标记方法以及亲折突变分析计算方法或许能够促进研究者转向使用生化（基于生物素）富集的手段来研究富含生物学意义的nascent RNA和其它RNA。Nascent RNA方法以及它们与其它方法的综和，例如空间转录组学或RNA-RNA与RNA-蛋白质相互作用的方法，将会提高我们对转录过程的理解。

使用核糖体分析方法检测活跃的翻译

RNA-seq的主要用途在于研究样本中的mRNA的种类与数量，但是mRNAs的存在与否并不直接关系到蛋白质的合成。
现在有两种方法可以研究转录以外的翻译情况，可以让研究者们更好的理解翻译组(translatome)：一种是多核糖体表达谱(polysomal profiling)，一个是核糖体足迹RNA-seq(Ribo-seq)。
核糖体对mRNAs的翻译具有高度的调节作用，蛋白质水平主要由翻译活性决定。多核糖体表达谱与Ribo-seq可以让研究者探索一个转录本占用多少个核糖体以及核糖体在转录本上的分布(FIG. 5)。

这种方法可以让研究者推断在特定时间或细胞状态下哪些转录本正在被活跃地翻译。这两种方法都假设mRNA 核糖体的密度与蛋白质合成的水平相关。在不同样本之间进行比较，就能提示治疗条件下，时间推移以及疾病发展过程中，核糖体的动力学特征，上述的这些情况都与翻译的异常调控有关，例如纤维化，朊病毒或癌症。

Figure 5

Figure 5-翻译组的关键概念。翻译组方法是从那些与核糖体结合的RNA中生成RNA-seq数据，这种方法假设mRNA上的核糖体的密度与蛋白质的合成水平相关。
(a)多核糖体表达谱的方法是通过离心将RNA分子分成多核糖组分，然后通过RNA-seq的方法进行比较。在多核糖体组分中表达较高的RNA被认为是更活跃的转录。
(b)核糖体足迹(Ribo-seq)法使用RNase来降解暴露的RNA，同时保留那些被核糖体保护的未被降解的RNA。通过对这些保护的RNA进行测序，就可以揭示出核糖体的密度与位置。通过修改变标准Ribo-seq方法，定量翻译起始测序(QTI-seq)或翻译复杂表达谱测序(TCP-seq)可以专门富集起始核糖体或其亚基，同时剔除延长的核糖体，因此可以对翻译的动态过程进行更详细的分析。对翻译组RNA-seq数据的过计算分析可能确定每个mRAN的相对翻译程度，可以研究翻译的起始，延长与终止的动力学过程。
标准的RNA-seq工具可以用于Ribo-seq的计算分析，但最近已经出现了特定的工具用于寻找开放阅读框，用于差异或异构体水平的翻译分析，以及用于研究密码子偏倚。
Ribo-seq的主要限制就是超速离心，以及由于核酸酶不同批次间的变化，以需要经验来确定RNase I的消化条件。
这些方法检测的是来自翻译起始、延伸和终止的信号的平均强度，但是对Ribo-seq的修改可使得其能够研究翻译动力学。

所有的翻译组方法在概念上都是相似的；它们假设mRNA核糖体的密度与蛋白质的合成水平相关。虽然它们的样本制备方案不同，但都需要大量的起始细胞数。最终，翻译组与RNA-seq结合起来研究基因的表达水平，并与蛋白质组学一道来研究蛋白水平，这可能就需要对mRNA的翻译进行一个广泛地理解。

种草：Ribo-seq分析必看文献知识（四）：核糖体与蛋白质合成相关生物知识

RNA结构与相互作用分析(Beyond analysis of gene expression)

RNAs在调节其它生物分子和生物过程（例如剪接和翻译）中发挥着重要作用，它们涉及RNA与各种蛋白质和/或其它RNA分子的相互作用。

Figure6--RNA结构和RNA-蛋白质相互作用分析的关键概念

Figure 6

RNA结构和RNA-蛋白质相互作用分析的关键概念。
- (a)结构组分析使用核酸酶或化学标记试剂在全转录组范围内来研究结构化RNA（例如双链RNA，dsRNA）或非结构化RNA（单链RNA，ssRNA）。
- 在大多数实验中，在单独的反应中对ssRNA和dsRNA进行检测，其结果联合反应性分析法来确定其结构特征。核酸酶消化方法使用针对dsRNA和/或ssRNA的一个或多个核酸酶来研究RNA的结构。
例如，在对RNA结构要的并行分析(PARS)中，在体外使用RNase V1（一种dsRNA特异性核酸酶）或S1核酸酶（一种ssRNA特异性核酸酶）来酶切并行样本。酶解后剩余的RNA被转化为cDNA，然后进行测序，测序的读长深度与比对区域的反应性成正比。RNA-seq数据的覆盖和比较结果就能推断RNA的结构。化学分析法(Chemical-mapping methods)，例如使用引物延伸的选择性2ʹ-羟基酰化分析法(SHAPE-seq)或突变表达谱分析法(SHAPE-Map)，这些方法通过结构依赖形式在体外或体内对双链或单链区域的核糖核苷酸进行修饰。标记物可以阻断逆转录，导致cDNAs的截短，或者是导致修饰位置错误地掺入突变。RNA被转化为cDNA后进行测序，读长深度或突变率与比对区域的反应性成正比，从而推断RNA的结构。
- (b)RNA-RNA的相互作用分析方法，例如SPLASH，这种方法的第一步是将有相互作用的RNA分子通过生物素化的补骨脂进行交联，然后以通过链霉亲和素对其进行富集，
- 第二步是在邻近位置加入相互作用RNA的自由端加入邻近连接与及片段化。
- 第三步是进行RNA接头的连接以及环化，制备RNA-seq文库用于测序，从而揭示出分子内（也就是结构）的RNA相互作用以及分子间的相互作用位点。
- (c)RNA-蛋白质相互作用方法，例如RNA交联免疫沉淀后测序(CLIP-seq)，这种方法使用UV辐射在相互作用的RNA和蛋白质之间产生共价交联。
- 目的蛋白被抗体富集后，与此蛋白结合的RNA也就被富集了下来，这些RNA加上3'接头后，提取出来用于cDNA的合成。
- 从结合了接头的RNA生成的cDNA用于文库制备，测序。

通过研究RNA分子内的相互作用来研究RNA的结构

核糖体RNA和tRNA构成细胞的大部分RNA。它们与其他结构非编码RNA一起在细胞中发挥各种作用，例如从基因调节到翻译。
现存主要有两种研究RNA结构的方法：基于核酸酶的方法和化学探针方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的结构。
本文集中讨论核酸酶和化学分析方法之间的主要区别(图·6a)，如果想对这方面有进一步的理解，可以看Strobel在这方面的综述。

核酸酶方法，例如RNA结构的平行分析法(Parallel Analysis of RNA Structure，PARS)和片段测序法(fragmentation sequencing, FRAG-seq)，这两种方法使用能消化单链RNA(ssRNA)或双链RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文库构建。随后通过对产生的RNA序列数据进行计算分析来识别结构化(双链)和非结构化(单链)区域。核酸酶易于使用，可以用于研究ssRNA和dsRNA，但是由于核酸酶消化法的随机特性，它们与化学分析法相比，分辨率比较低。此外，由于核酸酶尺寸比较大，这就限制了这些核酸酶进入细胞，这就使得它们不适合体内研究。

化学分析法使用与RNA分子反应的化学探针，来标记结构化或非结构化核苷酸。这些标记要么阻断逆转录，要么导致cDNA的错配，从而可以定位并分析RNA-seq读长，用于揭示结构组。SHAPE之后进行测序，这种技术方法能够RNA骨架上的核糖2’-羟基反应来标记未配对的ssRNA，虽然发夹环中的碱基折叠会降低其效率。Structure-seq与硫酸二甲酯测序(dimethyl sulfate sequencing, DMS-seq)能使用DMS来标记腺嘌呤和胞嘧啶残基，阻断逆转录，最终从生成的截短cDNAs分析中推断出RNA结构。SHAPE和突变表达谱(SHAPE and utational profiling, SHAPE-Map)和DMS突变表达谱测序(DMS-MaPseq)都修改了实验条件，从而提高了逆转录酶的加工能力，并防止cDNA截短。相反，化学标记会导致错配事件，在RNA-seq数据的分析中，能够检测出这些“突变”，从而揭示RNA结构。化学探针是小分子化合物，尽管由于细胞内的环境处于动态变化中，数据有可能更加多变，但是化学探针还是能够用于研究活体内的有生物学意义的结构。化学探针还可以用于nascent RNAs的结构分析，并揭示共转录RAN折叠的顺序。

核酸酶和反转录阻断方法通常产生短RNA片段，并且只报告单个酶切位点或化学标记，而错误结合和突变检测方法可以报告每个读长的多个化学标记。
没有方法不存在偏倚；
逆转录阻断永远不会100%有效，本应诱导突变的化学标记可以阻断cDNA合成，这两个因素都可以影响数据的解读。
Spike-in控制有可能改善结构组分析的质量，但尚未得到广泛使用。
SHAPE方法的比较揭示了仅在体内实验中才会出现效率差异，因此这就突显出比较类似复杂方法时所需要谨慎。
这些方法正在产生关于RNA结构如何在基因和蛋白质调控中发挥作用的新理解。

例如，DMS分析说明了，RNA结构有可能调控APA，或许会减慢催化活性区域的翻译，使得更多的时间用于蛋白质的折叠，从而减少错误折叠事件。结构RNA-seq方法的结合有可能产生所有的完整结构组信息。随着该领域的扩展，我们可能会发现，RNA的结构与疾病的进展和或疾病的状态有关；最近的结果表明，异常RNA结构在重复扩张性疾病方面可能发挥作用。最终，结构组分析也许会促进那些靶向作用于研究透彻的RNA结构的小分子的开发，从而开辟治疗开发的新领域。

研究分子间RNA-RNA相互作用

分子间的RRIs在转录后调控中发挥着重要作用，例如miRNA与靶基因的3’UTR结合。
现在已经开发了用于研究分子间RRI的工具，它们用于靶向分析和转录组分析。
这些分析方法含有一个共同的工作流程，即RNA在打断与邻位连接之前，通过交联来保护其相互作用(FIG. 6b)。
大多数并非全部，由不同方法嵌合生成的嵌合cDNA来源于稳定碱基配对（即相互作用）RNA分子的连接。
为了提高RRI分析的分辨率，RAP-RNA使用补骨脂素(psoralen)和其他交联剂，然后用反义寡核苷酸捕获RNA，以及使用高通量RNA-seq来检测直接和间接RRI。
虽然该方法可以进行更具体的分析，它需要制备多个文库（每个交联剂一个文库）。
对整理好的RNA相互作用数据的分析可以对多个相互作用进行可视化，并且这种分析方法已经提示了RNA各类的RRI分布的变化。总之，90%的RRIs涉及mRNAs。近一半涉及miRNA或长链非编码RNA，对于这些RNA，大多数相互作用都与mRNA靶基因相关。
对这些整理数据的比较揭示了不同方法对特定RNA物种的偏倚，这导致这些方法之间几乎没有重叠。因此，绘制RRI的完整图谱可能需要使用不止一种方法。
然而，RRI方法有几个局限性。也许最具挑战性的就是RRI是动态的，并受结构构象和其他分子间相互作用的影响，这使得在没有重复的情况下，很难对其进行解释。

分子内的相互作用为分子间的RRI分析增加了干扰，这就需要过滤并除去那些高度结构化的RNAs，例如rRNAs。其它的问题还包括RNA提取过程中相互相互作用的打断，这就需要稳定的交联方法，但最常用的RRI交联剂是补骨脂素和4’-氨基-甲基三氧沙林(4ʹ-amino- methyltrioxsalen, AMT)，这些交联剂只交联嘧啶，其效率比较低，会降低灵敏度。此外，邻近连接步骤低效，并且这会连接相互作用和非相互作用RNA，进一步降低灵敏度。

研究RNA-蛋白质相互作用

ChIP-seq已经成了绘制和研究DNA-蛋白质相互作用不可或缺的工具；类似的IP方法也用于研究RNA-蛋白质的相互作用。
RNA-蛋白质相互作用方法依赖于IP，利用针对感兴趣的RNA结合蛋白的抗体来捕获其结合的RNA进行分析（第一次报道时是用芯片进行分析的）(FIG. 6c)。
各种RNA-蛋白质相互作用方法之间最明显的区别在于相互作用的RNA和蛋白质是否交联以及如何交联：一些方法避免交联(天然IP， native IP)，其他方法使用甲醛进行交联，一些方法使用紫外线(UV)光进行交联。最简单的方法就是RNA免疫沉淀测序(RNA immunoprecipitation and sequencing, RIP-seq)，时常，但并非所有情况下都使用天然IP法，以及并非总进行RNA打断。这种简便性使用该方法易于被采用。
这种方法能产生有用的生物学信息，但是它有两个重要的缺陷。第一，用于保存RNA-蛋白质相互作用的前提是需要进行温和地洗涤，这就意味着富集的片段中有相对高的非特异性结合片段。第二，没有进行RNA打断就降低了结合位点的分析。
因此，RIP-seq具有高度灵活性，并依赖于RNA-蛋白质结合的自然稳定性。
使用甲醛交联在RNA与其相互作用的蛋白质之间产生可逆的共价键提高了稳定性，并减少了非特异性RNA的回收，但甲醛也会导致蛋白质-蛋白质的交联。
这种影响可以通过使用0.1%的甲醛（比ChIP-seq研究使用的甲醛低10倍）进行温和的交联来降低，这能在多个蛋白质靶点上产生高质量的结果。

随着公共数据库中可用的大量数据为计算分析提供了新的机会，因此谨慎考虑CLIP数据的质控，过滤，以及峰值调用(peak calling)和归一化方法就变得非常重要，这些会影响数据的生物学解释。为了更全面地讨论 RNA-蛋白质的相互作用的CLIP实验方法，生信技能树的小编建议读者可以阅读最近关于这个主题的综述。

一些RRI以及所有的RNA-蛋白质结合方法对IP的依赖限制了其对有良好特征抗体蛋白质的研究，而非特异抗体的结合仍然是一个问题（虽然这一问题并非局限于这个领域）。RNA结构也会影响RNA-蛋白质之间的相互作用；一些蛋白质能识别特异的RNA二级结构或与这些结构竞争结合RNA，这使得体外的发现转向体内就变得复杂了。此外，结构和RNA-蛋白质相互作用方法通常报告一个特定转录本或位置的平均值。在实验室方法中，在计算方法和单分子测序方面的未来发展或许有助于破译一些这些生物变异。

结论

Wang，Gerstein和Snyder关于RNA-seq将“革命性地[如何]分析真核转录体”的预测肯定是正确的。
但是，即使是他们，也有可能对这种转型的规模感到惊讶。
现在我们可以分析RNA生物学的许多方面，这对于基因组功能、研究开发和确定导致癌症和其他疾病的分子调控异常方面来说是必不可少的。
虽然生物学发现阶段还远未结束，但是已经在临床中使用了RNA-seq方法。
单细胞测序正在成为许多实验的标准配置，空间转录组学的分析可能会遵循类似的路径，使其能够在与开发当前方法的实验室范围之外使用。
长读长测序方法也有可能取代当前相当大比例的研究者们默认选择的Illumina的短读长RNA-seq。
对于这种情况的出现，长读长测序技术还需要在增加通量和降低错误率方面做出极大的改进。
然而，长读长mRNA异构体测序的优点是，如果它变得像现在短读长测序一样便宜和可靠，那么对于那些除了易降解材料外，长读长测序就可能是首选。
考虑到这些因素，那么任何关于RNA-seq在未来十年可能如何发展的预测都有可能过于保守。

文末福利也贴一下，真心不错

如果你看到这里，应该是真的对学习有追求，那么发邮件（jmzeng1314@163.com），需要你简单的自我介绍，诚心一点哦，就可以拿到本综述的markdown翻译文件、该综述的PDF、以及一套精心编辑好的转录组流程视频演练。

2019-10-03-学习RNA-seq这十年记录