2021-4-6【文献阅读】TransBorrow: genome-guided transcriptome assembly by borrowing assemblies from diff...

第一块

题目

TransBorrow: genome-guided transcriptome assembly by borrowing assemblies from different assemblers

通过借用不同的拼接工具的拼接结果来引导完成转录组拼接

作者

山东大学柳俊涛课题组喝沙特阿卜杜拉国王科技大学高欣课题组

杂志与时间

Genome Research 2021

第二块

摘要之摘要

RNA-seq技术由于其高通量、高精度以及低成本的优势，目前在转录组分析中得以广泛使用，并且也为揭示复杂结构的转录组提供了巨大机会。但是测序不可能一次性读完全长转录本，只能得到真实转录本的一段序列，所以需要通过组装的方法将测到的序列拼接成为完整的转录组。这项研究作者开发了一种新的转录组组装的工具——Transborrow，并在模拟数据集和100余组不同类型的真实数据集上进行了测试，与现有的一些经典转录组组装工具相比表现出了极大的优越性。

第三块

1、研究对象

转录组序列

2、研究背景

转录组测序的主要目的是检测所有表达的转录本并且测出不同isoform（异构体）的表达水平。由于真核生物中可变剪接机制的存在一个基因往往有不同的异构体，并且这些异构体有表达丰度上的差异，这些都给转录组拼接带来了困难。并且rna-seq会有2%的测序错误存在，也为计算所有的表达转录本带来了挑战。

转录组拼接分两种——有参转录组拼接以及无参转录组拼接。有参转录组拼接——scallop、Transcomb、stringtie2、cufflinks、isoinfer等，都是通过hisat、tophat等首先将reads匹配到基因组上，再根据剪接图模型从mapping结果中寻找拼接路径。无参转录组拼接则是直接对RNA-seq得到的reads进行拼接，难度更大，所以拼接结果的准确度要低一些。

转录组拼接的方法很多，但是还没有哪种方法是专门适用于拼接特定的转录组。也有一些工具是通过把不同工具拼接得到的结果组合起来，比如CISA,GAA,Metassembler等。

当跨越不同的RNA-seq数据集进行测试时，并没有哪个组装工具能始终如一地生成最准确的组装结果，并且很难确定要对RNA-seq数据集使用哪项工具。这项研究中作者开发了transborrow，通过reads的mapping结果建立剪接图，借用不同拼接工具的拼接结果提取可靠的拼接子路径，该组装工具首先建立基于片段回贴的剪接图，并利用双端测序信息从剪接图中提取可靠的双端子路。然后，它通过构建所谓的色彩图从不同的组装工具中借用可靠的子序列。随后，将这些可靠的子序列和双端子路径作为可靠的子路径映射到剪接图中，以指导表达的转录本正确组装。最后，作者采用一种新设计的路径延伸方法，通过在每个剪接图上以上述可靠的子路径为种子来搜索表示转录本的路覆盖，路覆盖中的每一条路径代表一个预测出的表达转录本。

3、研究方法（值得一记）

l 构造剪接图并且提取可靠的子路径

首先通过比对的工具将RNA-seq的reads比对到参考基因组上，reads被聚集到相关的基因座位上，然后就可以针对每个基因构造剪接图。（exon-exon，exoin-intron边界），每个节点代表一个外显子，连线代表外显子之间通过剪切之后造成的连接，连线的权重则代表有多少reads覆盖这两个外显子，这个是根据测序深度而来的。

l 提取可靠的成对子路径

通过双端测序的结果，从每个剪接图中提取成对子路径。

R1: P1=ni1→ni2→...→nip ；R2: P2 = nj1→ nj2→ ... → njq

从所有路径中寻找Pin= nip→ nm1→nm2→...→nms→nj1

如果有且只有这样一条路径存在并且满足长度p + s + q大于等于3，也就是说P1和P2通过Pin进行连接，我们就提取了成对子路径P = P1→ Pin→ P2。

这样每对双端测序的reads都可以产生一条子路径P，这些子路径集合叫做Sp。P的深度就是它所对应的双端测序reads的深度。

由于测序错误的存在，可能子路径P是不太可靠的。为了去除不可靠的，假设给定一条子路径P，将它进行拆解，4个节点子路径拆成一对3节点子路径。很多的成对子路径都可能产生该3节点子路径，在此基础上决定这个3节点的子路径的深度（大于2才认为可靠）。同样的道理，我们可以获得4节点、5节点子路径…n节点子路径，最后按长度分组，按深度进行排序。

l 构造色彩图

TransBorrow的主要贡献之一是充分利用来自不同组装工具的组装结果，这是通过从不同的组装工具中提取所有可靠的转录本子序列来实现的。

（1）构建色彩图

将不同转录工具拼接的转录本map到基因上，获得色彩图Gc，点代表外显子连线代表剪接位点。每个工具赋予一种颜色，所以叫做色彩图。

（2）从色彩图中提取可靠的子路径

由于具有不同转录组工具的拼接结果，可靠的结果更多，同时也会有很多假阳性。

色彩图中每一个子路径都代表唯一一个拼接的序列。

由于不同的拼接工具可能产生同样的子路径，在此基础上决定该子路径的深度。为了获得可靠的子路径，同样是将子路径进行拆解，比如说拆解成了3节点的子路径，计算3节点子路径的深度，大于2认为可靠。从而获得所有的可靠的拼接子路径，把他们按照长度分组并按深度排序。

（3）将可靠的子路径映射到剪接图

组装过程在剪接图上执行，所有可靠的双端子路和拼接子路径实际上指导了剪接图上的组装过程。因此，需要将所有可靠的拼接子路映射到剪接图中。然后，每个可靠的拼接子路径对应于剪接图上的唯一子路径。

如何对应的呢？根据剪接图构建一个哈希表，对剪接图里的每一条边，键存储的是剪接位点所在的染色体上的位置，值存储的是这个图以及它边的索引。

将所有可靠的拼接子路映射到剪接图后，将拼接子路和可靠的双端子路合并，并删除的冗余子路（对拼接子路和双端子路中同时出现的子路，只保留一份），合并的子路径称为可靠子路。

（4）以可靠的子路径为种子搜索代表性转录本

理论上来说，每个可靠的子路径都对应于表达转录本的一个片段，因此应该至少被一个表达转录本覆盖。所以作者为每个剪接图创建一个加权有向图，根据子路径的深度为每个边赋予权重，然后通过一种新的路径扩展技术寻找代表表达转录本的路覆盖，路覆盖中的每一条路径代表一个预测出的表达转录本。

由于充分结合了不同拼接方法的拼接结果，TransBorrow的拼接将达到一致性最优。

研究结果

作者分别从以下几个方面对TransBorrow的性能进行了评估，各种评估结果表明了TransBorrow有效地利用了来自不同工具的组装结果，包括stringtie2, scallop, cufflinks, 以及stringtie-merge、TACO两种merging-based工具，发现TransBorrow与其他组装工具相比，发现性能得到了极大增强。

本研究中常用的比较标准是，当且仅当参考转录本的内含子链与组装的转录本完全匹配时，才认为该参考转录本是正确检测到的。

l 模拟数据集上的表现

（1）转录本和基因水平上的评估

生成模拟的RNA-seq数据（73万双端测序数据），比较transborrow，scallop，stringtie2和cufflinks的准确性表现，选用精确率和召回率两个指标从转录本水平和基因水平进行评估。

依据两种不同比对工具，得到不同的评估结果。发现transborrow的综合性能是最好的。检测到的准确的转录本比stringtie2多出了5.64%和1.29%，比scallop多出了35.58%和7.53%，比cufflinks多出了52.29&和38.55%。

同时也在表达基因上比较拼接工具的表现。只要该基因的一条isoform被正确拼接出来，则认为该基因被正确拼接。类似的，召回率定义为正确检测到的基因占所有表达基因的比例，而精确率定义为正确拼接的基因占所有拼接出的基因的比例。

同样的依据两种不同比对工具得到不同的评估结果，发现transborrow和精确率和召回率都是最高的。

因此，在这两种比对工具的指导下，在基因水平和转录本水平两个方面，transborrow都是最优秀的。

(2)不同表达水平上的转录本检测比较

低表达的转录异构体通常更难被正确组装出来。为了比较拼接工具对不同表达量的转录本的拼接效果，将模拟数据分为三类：低表达、中等表达和高表达的转录本，发现transborrow的效果依然是最好的。

l 真实数据集上的表现

需要观察在真实数据集上的表现。因此从NCBI上手下载了四个数据集（简称R1,R2, R3, R4），包括两组数据，每组中有两个重复。

（1）转录本水平上的比较

结果表明在4种数据集上，transborrow的召回率最高。如果是使用hisat为比对工具，transborrow的precision一致最高，但是如果使用star作为比对工具，在R1数据集上面，scallop比transborrow的precision更高，但是平均算下来f1score的值还是transborrow最高。说明总体表现，还是transborrow更好。

这取决于参数的设置，如果选择过滤掉更多低丰度的转录本，transborrow能在R1上取得最好的效果，所以这个灵活的过滤参数对应召回率和精确率之间的权衡。

（2）基因水平上的比较

在四种数据集上，无论是选择hisat比对，还是选择star作为比对工具，transborrow均取得了最好的效果。

（3）不同表达量的转录本比较

对于不同表达水平的转录本，我们使用kallisto评估转录本表达水平，分为低表达、中表达和高表达三种。

值得一提的是，在hisat2比对结果指导下，transborrow正确比stringtie2多正确组装了到了44.19%-54.53%的低表达转录本，比scallop多51.66%-79.37%的转录本，比cufflinks多出191%以上的转录本。

比较表明，TransBorrow在识别重构低表达转录本方面，不仅在模拟数据上，而且在真实数据集上，展现出了巨大优势。

l 使用时间和内存占用

真实数据集上，Scallop和stringtie2最快，transborrow的速度较慢，但偶尔高于cufflinks。

内存使用上，真实数据stringtie2只占用1GB内存，其他工具均不超过10GB，transborrow虽然不是时间和空间上最高效的，但是也适合时间使用。

研究总结

总的来说，TransBorrow是目前已知的第一个实现通过借用不同拼接算法，对RNA-seq的拼接结果来获取可靠子路，并利用获取的可靠子路来准确指导拼接过程的转录组拼接方法。该方法在大量的不同类型数据上验证了其有效性。主要体现在以下几个方面。

（1）综合利用了不同转录拼接工具的拼接结果。

（2）还有一些可以改进的地方。比如不适用于长读段的RNA-seq数据，并且没有考虑

到嵌合转录本的组装。Transborrow是在基因组的指导下的，所以不适用于de novo的组装。

亮点在于，一些转录本组装工具(EvidentialGene, Concatenation, Mikado等也是综合不同的转录本拼接的结果的，但他们的输入是拼接结果，而transborrow是拿RNA-seq的结果直接作为输入，构造剪接图并且依次搜寻路径，不同的拼接工具提供的拼接结果能够提供可靠的子路径。而其他的这些转录本拼接工具，完全依赖于拼接出来的结果，所以结果具有很大的局限性。

所以transborrow是第一款基因组指导下的，通过不同转录组拼接工具的结果搜寻可靠的子路径，并且依靠子路径作为种子在剪接图上进行延展得到转录代表路径的方法。TransBorrow将在包括癌症在内的与可变剪接相关的复杂疾病研究中起到重要的理论指导作用。

讨论之可为我所用

转录本和基因水平上分别展示

使用时间和内存消耗分析

讨论之存在问题

如何定义基因的至少一条isoform被拼接出来就认为基因被拼接出来？

Transcript level：recall是所有正确拼接到的表达转录本占所有表达转录本的比例，precision是正确拼接到的转录本占所有拼接到的转录本的比例。

Gene level：recall是正确拼接来的基因占所有表达基因的比例，precision是所有正确拼接的基因占所有拼接基因的比例。

讨论之画饼/其他

l 使用模拟数据集；

l Isoform如何判定？

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,367评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,959评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,750评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,226评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,252评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,975评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,592评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,497评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,027评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,147评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,274评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,953评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,623评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,143评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,260评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,607评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,271评论 2赞 358