RNA sequencing: the teenage years名词解释

2019年7月24日，Nature Reviews Genetics上发表了一篇了RNA-seq的综述，文献信息如下所示：
Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.
摘要：在过去的十年中，RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而，随着下一代测序技术的发展，RNA-seq技术也在不断发展。现在，RNA-seq用于研究RNA生物学的许多方面，其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体，structurome)。其它的应用也在开发中，例如空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合，RNA-seq技术的创新有助于人们更全面地理解RNA生物学，例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

这篇综述信息密度很高，我正在翻译，过几天翻译完了放上来，先把文献旁边的名词解释给译了一下，如下所示：

差异基因表达：Differential gene expression, 即DGE，一种分析方法，目标是使研究者们找出不同实验组之间的变化的基因。
读长深度：Read depth，一个样本测序后所获得的所有测序读长(reads)，注意与测试深度进行区分。
短读长：short-read：一种测序技术，产生的读长(read)的长度为500bp，但更常见的是100-300bp，它测的是打断后的mRNA。
长读长：long-read，一种测序技术，能够没到1000bp，它代表的全长或接近全长的mRNA。
直接RNA测序：Direct RNA sequencing,dRNA-seq，一种测序技术，在不用打断RNA以及反转录的情况下，对RNA进行直接测序，其目标通常是为了检测全长或接近全长的RNAs。6. 多重回贴读长：multi-mapped reads：来源于转录组的同源区（homologous region）的测序读长，这些读长无法明确地回贴到基因组上或转录组上。
合成长读长：synthetic long reads:一种方法，能够通过组装来对多个短读长进行合成，生长长读长。
唯一分子标签：Unique molecular identifiers，UMIs，一种短的序列或编码标签(barcodes)，这些短序列通常会在RNA-seq文库制备过程中进行添加（在进行PCR之前），这种序列能够对一个特定的起始分子进行标记。此方法通用用于校正RNA-seq数据的定量偏差，在少量RNA进行测序或单细胞测序中使用尤为广泛。
9 。读长长度：read length：每个测序读长的长度，在短读长RNA测序过程中，这个长度通常是50-150bp。
灵敏度：Sensitivity，一种指标，它表示在每个样本中，能够检测到转录本的比例。样本处理，文库制备，测序以及数据分析都会影响这个指标。
特异性：specificity:一种检测指标，它表示的是差异表达的转录本在检测到的转录本中的比例。样本处理，文库制备，测序和数据分析都会影响这个指标。
标签读长：Tag read，对于一个转录本来说，一个标签读长是唯一，它通常来源于mRNA的3‘末端，这种读长用于分析差异表达转录本，或者是来源于5'端，这种通常用于分析转录起始位点和启动子。
重复率：duplication rates，在一个RNA测序样本中，回贴到转录本上同一位置的测序读长的比例。在RNA-seq文库中，对于一些转录本来说，重复率是比较高的，这是因为它们在样本中的的表达水平比较高，同时低表达的转录本重复率很低。在RNA-seq中，重复率一个重要问题，因为多数情况下，重复的读长或许代了真正高表达的转录本，而一些重复读长则是有可能来源于测序偏倚。
14:单端测序：single-end squencing，只测cDNA片段的一端的短读长测序手段，它通常用于基因表达分析实验，优势就是便宜。
双端测序：paired-end sequencing,同时测cDNA片段的两端短读长测序手段，通常用于基因表达分析实验，如果是要研究剪接，则需要最大的灵敏度，因为每个cDNA的更多碱基会被检测到。
生物学重复：Biological replicates：同时检测生物学意义上的不同样本，例如来源于3个研究对象的组织，生物学重复可以发现生物学偏差，这要么代表了自身的一种研究駨，要么代表了噪音。相比之下，技术重复则是对同一个样本进行重复的要检测，例如同一个组织检测3次。
表达矩阵：Expression matrix，RNA-seq中差异表达基因的数值矩阵。行代表RNA特征，例如基因名或转录本名，列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示，表达矩阵可以用于估计异构体特征，在进行下游分析之前，通常要经过归一化处理(normalization)。
外参控制(spike-in control)，处理样本之前，将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列，会被提前混合，用于监测反应效率，并确定方法学的偏倚处理以及用于监测假阴性。
空间转录组学， Spatialomics，一种转录组分析方法，它能保留一个样本中每个转录本的空间信息，例如一个组织的不同区域。
初始RNA，Nascent RNA，刚开始被转录的RNA，这些RNA与那些已经被处理后，输送到细胞质的RNA不同。
4-硫尿核苷，4-Thiouridine， 4 sU，含有一个硫原子的核苷，通常不并存在于真核生物的mRNA中，它很容易整合进核酸中，用于初始RNA分析。
翻译组：Translatome，一个细胞，组织或机体中，所有从mRNA翻译到蛋白质的总和。
结构组：Structurome, 一个细胞，组织或机体中，所有二级和三级结构的RNA总和。
相互作用组：Interactome，一个细胞，组织或机体中，所有分子之间相互作用的总和，包括RNA-RNA，RNA-蛋白质之间的相互作用。

RNA sequencing: the teenage years名词解释

推荐阅读更多精彩内容