第一块
题目
TransBorrow: genome-guided transcriptome assembly by borrowing assemblies from different assemblers
通过借用不同的拼接工具的拼接结果来引导完成转录组拼接
作者
山东大学柳俊涛课题组喝沙特阿卜杜拉国王科技大学高欣课题组
杂志与时间
Genome Research 2021
第二块
摘要之摘要
RNA-seq技术由于其高通量、高精度以及低成本的优势,目前在转录组分析中得以广泛使用,并且也为揭示复杂结构的转录组提供了巨大机会。但是测序不可能一次性读完全长转录本,只能得到真实转录本的一段序列,所以需要通过组装的方法将测到的序列拼接成为完整的转录组。这项研究作者开发了一种新的转录组组装的工具——Transborrow,并在模拟数据集和100余组不同类型的真实数据集上进行了测试,与现有的一些经典转录组组装工具相比表现出了极大的优越性。
第三块
1、研究对象
转录组序列
2、研究背景
转录组测序的主要目的是检测所有表达的转录本并且测出不同isoform(异构体)的表达水平。由于真核生物中可变剪接机制的存在一个基因往往有不同的异构体,并且这些异构体有表达丰度上的差异,这些都给转录组拼接带来了困难。并且rna-seq会有2%的测序错误存在,也为计算所有的表达转录本带来了挑战。
转录组拼接分两种——有参转录组拼接以及无参转录组拼接。有参转录组拼接——scallop、Transcomb、stringtie2、cufflinks、isoinfer等,都是通过hisat、tophat等首先将reads匹配到基因组上,再根据剪接图模型从mapping结果中寻找拼接路径。无参转录组拼接则是直接对RNA-seq得到的reads进行拼接,难度更大,所以拼接结果的准确度要低一些。
转录组拼接的方法很多,但是还没有哪种方法是专门适用于拼接特定的转录组。也有一些工具是通过把不同工具拼接得到的结果组合起来,比如CISA,GAA,Metassembler等。
当跨越不同的RNA-seq数据集进行测试时,并没有哪个组装工具能始终如一地生成最准确的组装结果,并且很难确定要对RNA-seq数据集使用哪项工具。这项研究中作者开发了transborrow,通过reads的mapping结果建立剪接图,借用不同拼接工具的拼接结果提取可靠的拼接子路径,该组装工具首先建立基于片段回贴的剪接图,并利用双端测序信息从剪接图中提取可靠的双端子路。然后,它通过构建所谓的色彩图从不同的组装工具中借用可靠的子序列。随后,将这些可靠的子序列和双端子路径作为可靠的子路径映射到剪接图中,以指导表达的转录本正确组装。最后,作者采用一种新设计的路径延伸方法,通过在每个剪接图上以上述可靠的子路径为种子来搜索表示转录本的路覆盖,路覆盖中的每一条路径代表一个预测出的表达转录本。
3、研究方法(值得一记)
l 构造剪接图并且提取可靠的子路径
首先通过比对的工具将RNA-seq的reads比对到参考基因组上,reads被聚集到相关的基因座位上,然后就可以针对每个基因构造剪接图。(exon-exon,exoin-intron边界),每个节点代表一个外显子,连线代表外显子之间通过剪切之后造成的连接,连线的权重则代表有多少reads覆盖这两个外显子,这个是根据测序深度而来的。
l 提取可靠的成对子路径
通过双端测序的结果,从每个剪接图中提取成对子路径。
R1: P1=ni1→ni2→...→nip ;R2: P2 = nj1→ nj2→ ... → njq
从所有路径中寻找Pin= nip→ nm1→nm2→...→nms→nj1
如果有且只有这样一条路径存在并且满足长度p + s + q大于等于3,也就是说P1和P2通过Pin进行连接,我们就提取了成对子路径P = P1→ Pin→ P2。
这样每对双端测序的reads都可以产生一条子路径P,这些子路径集合叫做Sp。P的深度就是它所对应的双端测序reads的深度。
由于测序错误的存在,可能子路径P是不太可靠的。为了去除不可靠的,假设给定一条子路径P,将它进行拆解,4个节点子路径拆成一对3节点子路径。很多的成对子路径都可能产生该3节点子路径,在此基础上决定这个3节点的子路径的深度(大于2才认为可靠)。同样的道理,我们可以获得4节点、5节点子路径…n节点子路径,最后按长度分组,按深度进行排序。
l 构造色彩图
TransBorrow的主要贡献之一是充分利用来自不同组装工具的组装结果,这是通过从不同的组装工具中提取所有可靠的转录本子序列来实现的。
(1) 构建色彩图
将不同转录工具拼接的转录本map到基因上,获得色彩图Gc,点代表外显子连线代表剪接位点。每个工具赋予一种颜色,所以叫做色彩图。
(2) 从色彩图中提取可靠的子路径
由于具有不同转录组工具的拼接结果,可靠的结果更多,同时也会有很多假阳性。
色彩图中每一个子路径都代表唯一一个拼接的序列。
由于不同的拼接工具可能产生同样的子路径,在此基础上决定该子路径的深度。为了获得可靠的子路径,同样是将子路径进行拆解,比如说拆解成了3节点的子路径,计算3节点子路径的深度,大于2认为可靠。从而获得所有的可靠的拼接子路径,把他们按照长度分组并按深度排序。
(3) 将可靠的子路径映射到剪接图
组装过程在剪接图上执行,所有可靠的双端子路和拼接子路径实际上指导了剪接图上的组装过程。因此,需要将所有可靠的拼接子路映射到剪接图中。然后,每个可靠的拼接子路径对应于剪接图上的唯一子路径。
如何对应的呢?根据剪接图构建一个哈希表,对剪接图里的每一条边,键存储的是剪接位点所在的染色体上的位置,值存储的是这个图以及它边的索引。
将所有可靠的拼接子路映射到剪接图后,将拼接子路和可靠的双端子路合并,并删除的冗余子路(对拼接子路和双端子路中同时出现的子路,只保留一份),合并的子路径称为可靠子路。
(4) 以可靠的子路径为种子搜索代表性转录本
理论上来说,每个可靠的子路径都对应于表达转录本的一个片段,因此应该至少被一个表达转录本覆盖。所以作者为每个剪接图创建一个加权有向图,根据子路径的深度为每个边赋予权重,然后通过一种新的路径扩展技术寻找代表表达转录本的路覆盖,路覆盖中的每一条路径代表一个预测出的表达转录本。
由于充分结合了不同拼接方法的拼接结果,TransBorrow的拼接将达到一致性最优。
研究结果
作者分别从以下几个方面对TransBorrow的性能进行了评估,各种评估结果表明了TransBorrow有效地利用了来自不同工具的组装结果,包括stringtie2, scallop, cufflinks, 以及stringtie-merge、TACO两种merging-based工具,发现TransBorrow与其他组装工具相比,发现性能得到了极大增强。
本研究中常用的比较标准是,当且仅当参考转录本的内含子链与组装的转录本完全匹配时,才认为该参考转录本是正确检测到的。
l 模拟数据集上的表现
(1)转录本和基因水平上的评估
生成模拟的RNA-seq数据(73万双端测序数据),比较transborrow,scallop,stringtie2和cufflinks的准确性表现,选用精确率和召回率两个指标从转录本水平和基因水平进行评估。
依据两种不同比对工具,得到不同的评估结果。发现transborrow的综合性能是最好的。检测到的准确的转录本比stringtie2多出了5.64%和1.29%,比scallop多出了35.58%和7.53%,比cufflinks多出了52.29&和38.55%。
同时也在表达基因上比较拼接工具的表现。只要该基因的一条isoform被正确拼接出来,则认为该基因被正确拼接。类似的,召回率定义为正确检测到的基因占所有表达基因的比例,而精确率定义为正确拼接的基因占所有拼接出的基因的比例。
同样的依据两种不同比对工具得到不同的评估结果,发现transborrow和精确率和召回率都是最高的。
因此,在这两种比对工具的指导下,在基因水平和转录本水平两个方面,transborrow都是最优秀的。
(2)不同表达水平上的转录本检测比较
低表达的转录异构体通常更难被正确组装出来。为了比较拼接工具对不同表达量的转录本的拼接效果,将模拟数据分为三类:低表达、中等表达和高表达的转录本,发现transborrow的效果依然是最好的。
l 真实数据集上的表现
需要观察在真实数据集上的表现。因此从NCBI上手下载了四个数据集(简称R1,R2, R3, R4),包括两组数据,每组中有两个重复。
(1) 转录本水平上的比较
结果表明在4种数据集上,transborrow的召回率最高。如果是使用hisat为比对工具,transborrow的precision一致最高,但是如果使用star作为比对工具,在R1数据集上面,scallop比transborrow的precision更高,但是平均算下来f1score的值还是transborrow最高。说明总体表现,还是transborrow更好。
这取决于参数的设置,如果选择过滤掉更多低丰度的转录本,transborrow能在R1上取得最好的效果,所以这个灵活的过滤参数对应召回率和精确率之间的权衡。
(2) 基因水平上的比较
在四种数据集上,无论是选择hisat比对,还是选择star作为比对工具,transborrow均取得了最好的效果。
(3) 不同表达量的转录本比较
对于不同表达水平的转录本,我们使用kallisto评估转录本表达水平,分为低表达、中表达和高表达三种。
值得一提的是,在hisat2比对结果指导下,transborrow正确比stringtie2多正确组装了到了44.19%-54.53%的低表达转录本,比scallop多51.66%-79.37%的转录本,比cufflinks多出191%以上的转录本。
比较表明,TransBorrow在识别重构低表达转录本方面,不仅在模拟数据上,而且在真实数据集上,展现出了巨大优势。
l 使用时间和内存占用
真实数据集上,Scallop和stringtie2最快,transborrow的速度较慢,但偶尔高于cufflinks。
内存使用上,真实数据stringtie2只占用1GB内存,其他工具均不超过10GB,transborrow虽然不是时间和空间上最高效的,但是也适合时间使用。
研究总结
总的来说,TransBorrow是目前已知的第一个实现通过借用不同拼接算法,对RNA-seq的拼接结果来获取可靠子路,并利用获取的可靠子路来准确指导拼接过程的转录组拼接方法。该方法在大量的不同类型数据上验证了其有效性。主要体现在以下几个方面。
(1) 综合利用了不同转录拼接工具的拼接结果。
(2) 还有一些可以改进的地方。比如不适用于长读段的RNA-seq数据,并且没有考虑
到嵌合转录本的组装。Transborrow是在基因组的指导下的,所以不适用于de novo的组装。
亮点在于,一些转录本组装工具(EvidentialGene, Concatenation, Mikado等也是综合不同的转录本拼接的结果的,但他们的输入是拼接结果,而transborrow是拿RNA-seq的结果直接作为输入,构造剪接图并且依次搜寻路径,不同的拼接工具提供的拼接结果能够提供可靠的子路径。而其他的这些转录本拼接工具,完全依赖于拼接出来的结果,所以结果具有很大的局限性。
所以transborrow是第一款基因组指导下的,通过不同转录组拼接工具的结果搜寻可靠的子路径,并且依靠子路径作为种子在剪接图上进行延展得到转录代表路径的方法。TransBorrow将在包括癌症在内的与可变剪接相关的复杂疾病研究中起到重要的理论指导作用。
讨论之可为我所用
转录本和基因水平上分别展示
使用时间和内存消耗分析
讨论之存在问题
如何定义基因的至少一条isoform被拼接出来就认为基因被拼接出来?
Transcript level:recall是所有正确拼接到的表达转录本占所有表达转录本的比例,precision是正确拼接到的转录本占所有拼接到的转录本的比例。
Gene level:recall是正确拼接来的基因占所有表达基因的比例,precision是所有正确拼接的基因占所有拼接基因的比例。
讨论之画饼/其他
l 使用模拟数据集;
l Isoform如何判定?