新生RNA测序(nascent RNA sequencing)是一种针对于全基因组正在进行转录的RNA进行测序的技术,被广泛的应用于绘制全基因组范围内RNA聚合酶位置与状态图谱。nascent RNA sequencing以2008年发表在Science上的一篇文章开始“声名远扬”,而这篇文章所开发的技术正是大家闲杂所熟知的GRO-seq (global run-on sequencing)(Core et al., 2008)。介绍一下GRO-seq技术,简单来说GRO-seq的整个过程可以概括为“转录终止——转录延伸(run-on)——捕获标记RNA——建库测序”。
详细来说:首先将细胞放入液氮中强行终止其RNA的转录延伸,然后再将其细胞核取出,放在含有Br-UTP的run-on工作液中进行延伸,然后再利用特殊的beads来富集带有Br-UTP的RNA片段,最后再进行建库测序。整项技术最关键的目的就在于要精确定位RNA聚合酶的位置,所以在run-on工作液中进行转录延伸是非常重要的一步,如果延伸时间太长就会使得实验的resolution降低,所以作者也指出了解决这个问题的两个措施:
(1)降低run-on工作液中的核苷酸浓度,防止过度延伸;
(2)进行run-on之前先用RNA酶将新生的RNA进行降解。
总之,Science这篇文章讲的很清楚,作为顶刊论文其supplementary file是非常详细的,可以供大家进行具体的参考。
通过对nascent RNA sequencing技术的初步了解,我们可以总结该项技术与传统的RNA-seq的两大差别在于:
(1)nascent RNA sequencing关注于转录的过程,而传统的RNA-seq关注于转录的结果;
(2)nascent RNA sequencing中的reads都是without splicing的,而传统的RNA-seq很多reads却是经过了splicing这个过程的。
所以nascent RNA sequencing在下面几个方面具有非常好的应用:
(1)精准检测实时转录状态的基因表达
(2)精确定位基因的转录位置和转录方向
(3)发现新的转录本,包括非编码RNA
(4)鉴定eRNAs分子
好的数据分析结果一定是要有好的数据质量作为支撑,前面针对于GRO-seq的介绍已经让我们感受到了这个技术中可能会影响数据质量的因素之多,所以我们在进行进行分析之前必须首先对其数据质量进行一个评估,为我们的后续分析提供行前参考。
2021年5月15日发表在Genome Biology上的一篇题为“PEPPRO: quality control and processing of nascent RNA profiling data”的研究论文给出了一份很好的解答(Smith et al., 2021)。这篇文章开发出了一个新的质量评估工具PEPPRO,从多个角度对nascent RNA sequencing数据质量进行了评估。
RNA integrity
这个标准主要是对RNA被降解的情况进行了评估,因为RNA一旦被降解就会影响nascent RNA sequencing技术的resolution,一般来说RNA聚合酶复合物能够保护一段20bp左右的RNA不被降解,所以测序得到的长度小于20bp的reads就很有可能是被降解之后的RNA片段了,显然这样的片段越少越好。
Library complexity
这个标准主要是对nascent RNA sequencing技术中的PCR duplicate进行评估,如果PCR duplicate含量太高,这个数据质量是不好的,换句话说library complexity是不高的。
Run-on efficiency
由于nascent RNA sequencing的实验过程存在非常剧烈的环境理化性质变化,所以对于那些处于pausing region的RNA聚合酶的继续延伸造成了很大的挑战。所以我们需要来评估一下run-on efficiency这个参数,一般来说这个参数比较大会更加符合我们对数据质量的期望。在RNA转录的过程中,gene TSS附近会有很多RNA聚合酶暂时停滞在这里,所以这段区域也被我们定位为pausing region。
PEPPRO针对于这个标准提出了两个评估方法,分别是pausing index和TSS enrichment。
检测到更多处于pausing region的reads就意味着我们剧烈的环境理化性质变化没有很大的影响到这些转录“脆弱”区RNA聚合酶的继续转录。
Nascent RNA purity
既然是nascent RNA sequencing,那么我们肯定要减少mature RNA的比例,因为这些经过转录后加工(如剪切)的RNA已经丧失了定位RNA聚合酶的功能了,所以我们需要对这个参数进行评估。对比nascent RNA sequencing和一般的RNA-seq技术的差异,我们可以用以下参数进行评估:
Read feature distribution
这个标准和前面很多都有类似之处,在此就不做赘述了,主要还是关注于nascent RNA sequencing和一般的RNA-seq的差异。
上面只列出了部分的评估标准,更多的内容还需要大家细读文章。
如何使用PEPPRO(个人感受)
讲实话,这个工具对nascent RNA sequencing数据质量的评估体系构建是一个很好的工作,但它的具体实现是一个比较让人头疼的问题。具体可见PEPPRO和其github源代码。
考虑到很多时候大家需要处理很多组的样本,所以PEPPRO使用looper工具来实现批量处理,实际上就是把它的peppro.py这个代码自动重复run了多次。我们在服务器上可以直接通过 peppro.py --help来查看其关键代码的帮助文档,根据自己的需要进行相应参数的设置。我在使用后是存在一些它描述的结果文件我没有输出的情况,所以在使用体验感上是比较难受的。另外它针对reads的计数也存在进一步商榷的地方。如果你也准备用PEPPRO,更多的细节可以在评论区留言,大家一起交流,我们一起把这个工具用好!
Reference:
[1] Core, L.J., Waterfall, J.J., and Lis, J.T. (2008). Nascent RNA Sequencing Reveals Widespread Pausing and Divergent Initiation at Human Promoters. Science 322, 1845-1848.
[2] Smith, J.P., Dutta, A.B., Sathyan, K.M., Guertin, M.J., and Sheffield, N.C. (2021). PEPPRO: quality control and processing of nascent RNA profiling data. Genome Biol 22, 155.