2021-06-21【文献阅读】Signal, bias, and the role of transcriptome assembly quality in phylogenomic infe...

第一块

题目

Signal, bias, and the role of transcriptome assembly quality in phylogenomic inference

信号、偏移以及转录组拼接质量对于系统发育基因组学推断造成的影响

作者

Jennifer L.Spillane

杂志与时间

BMC Ecology and Evolution


第二块

摘要之摘要



第三块

研究对象

三者:信号,偏移,转录本拼接质量


研究背景

Concatenation-based methods 遗传距离矩阵

先将不同物种之间的每个单拷贝基因单独进行多序列比对,然后将这些比对后的单拷贝基因进行首尾相连串接成一个supergene矩阵,最后将这个supergene用于构建系统发育树。

Coalescent-based methods 多基因树联合

先将不同物种之间的每个单拷贝基因单独进行多序列比对,并构建每一个单拷贝基因对应的基因树,然后将所有单拷贝基因对应的基因树进行合并重构出相应的物种树,再进行ML系统发育树的构建。

系统发育基因组用到的数据集通常来自不同研究小组提供的数据,这些小组可能利用了不同的测序和组装策略。因此在使用这些数据时存在多种问题。

很多基因组学研究者调查了去接头、错误矫正、以及不同方法对转录组拼接的影响以及拼接质量评价,但是用转录组做系统发育基因组研究的人并没有参考这些建议。

目前还没有一个综合的实证的关于转录组对下游研究造成影响的研究。

低质量的转录组会影响同源基因预测、比对质量以及遗传发育信号。

指标:同源基因集合的数量,partition比对的质量

目标是找出系统发育基因组中一些差异归因到转录组拼接质量上来。

对每个数据集(高/低质量转录组)进行相同的系统发育分析,识别它们的差异。发现更高质量的转录组产生的系统发育基因组数据集有着更低的比对模糊度,更低的组成偏差以及和约束树的结果更一致,无论采取哪种方法(concatenation/coalescent)

指示系统发育研究中的一部分不确定性出自于转录组的数据准备上。


研究方法(值得一记)


l Reads选择以及组装

Reads从公共数据库中下载,illumina测序得到的肝脏双端转录组片段,包含37个物种颅脑动物以及一个外类群。

组装是通过ORP流程。三种方法:Trinity,Trans-ABySS,rnaSPAdes, 四个k-mer参数,得到四种组装结果。

Transrate打分:将read比对到组装转录本上。对四种结果进行打分

ORP再进行组装

最后通过cd-hit去冗余。

ORP产生的研究结果是由5中组装策略中产生的最高质量-非冗余的序列。


l 质量分析以及高低质量数据集构造

每个物种都有五个组装结果,对这五个组装结果进行transrate打分,按照分数划分成高质量或者低质量的数据集。

这样数据集里就有不同方法产生的数据,避免单一方法之间的比较。


l 同源基因集合推断,统计学以及partition构造

Transdecoder翻译成蛋白,通过与参考的转录组比对能够使得它们拥有一致的名字,方便下游的比较。

Orthofinder构建同源基因集合,通过线性回归分析转录本数量、transrate打分以及busco complete打分与家族数量的统计学相关性。分布用wilcoxon秩和检验判断是否有差异。

过滤同源基因集合,保留每个物种至少有一个基因的集合。

找一对一的同源基因对,通过gblocks找保守区域。

衡量gblock过滤前和后的比对长度分布,比较partition的组成,分析独有的和共享的partion。

l GO分析以及比对矩阵

对两个数据集共有的partion,提取比对指标,包括保守位点比例,解释性位点比例,以及未通过卡方检验的数量。


l Constraint tree以及partion tree的比较

IQ-TREE:使用LG模型构造约束树,计算rf距离,代表partion树与约束树的拓扑结构差异,值越小代表差异越小。

RAxML:计算独立的partion树与约束树之间ICA值,代表partion树与约束树的冲突程度。

最后使用332棵交集的基因树构造ASTRAL树,我们计算了每棵树的归一化四分法得分,它代表了输入树中被物种树满足的四分法树的百分比,范围是0-1,数字越大表示不协调越少。


研究总结

l 数据集:根据transrate打分


颅脑动物系统发育

原因:系统发育解决的比较清楚,肝脏RNA-seq易获得

高质量转录组的数量显著少于低质量转录组(fig 2a),平均分别是178473条和321306条转录组。

Busco打分以及同源基因家族的数量也是高质量转录组比较高(table 1)

转录本数量与同源基因集合的数量显著相关。(线性回归,高p=0.001,低p=0.002 fig 2b)

高质量数据集的transrate打分中位数是0.47,低质量转录组的中位数是0.16,两者显著不同。(p<0.001, fig 2c)

但是transrate打分与同源基因集合的数量之间无显著相关(高p=0.43; 低p=0.51,fig2d)

除了在两个低质量转录组之外,同源基因集合的数量都是在高质量转录组中比较高,但是和低质量转录组是有可比性的,两个物种除外(TR 和CM)。这两个物种的busco打分也很低。

然而,除了transrate之外,高质量和低质量转录组的busco打分也是没有太大差距的。

但是busco打分和同源基因家族的数量是显著相关的(高低p=0.001, fig 2f)


l 高质量转录本经处理后会导致更多数量的分区数量


我们在所有类群中找一对一的直系同源基因。

转录本质量对基因组数据的主要影响是分区的结果。

高质量转录组获得2016 data partitions,低质量转录本为408个data partitions,二者重叠332个,证明大多数低质量转录本找到的高质量转录本也能找到。(fig 3a)

高质量转录本,会有更多独特的sequence partitions。

平均而言高质量转录组的比对序列长度更长

过滤之前两个数据集比对长度的分布显著不同,处理后差别变小了。


l 高质量比对过程减少了成分偏差以及序列模糊性


332 个共享的partition

高低质量数据集中比对的保守位点比例之间无显著差异(fig 4a)

同样的,比对中的解释性位点的数量之间也没有显著差异(fig 4b)

然而,组成没有通过卡方检验的序列数量以及超过50%比对模糊性的序列之间有显著差别(组成p=0.006; 模糊性p<0.001),这些值都是在低质量转录本中比较高。


l 低质量和高质量数据集的分区中基因含量没有偏差

如果分区是从特定基因中获得的,那么会影响系统发育信息。

高低转录本中获得的partition中的基因进行本体论分析,发现没有富集。


l 在基于concatenation(串联)coalescent(并联)的分析中,高质量组合的partition比低质量的在更大程度上再现了constraint tree


比较约束树:代表颅脑类动物系统发育关系

1)计算RF距离和节点间的ICA值

RF距离代表子树之间的拓扑距离,ICA值代表分区支持约束树的支持度

高质量转录本的RF值明显低于低质量转录本(fig 5),说明距离更短。并且ICA值比低质量的更高,但二者的分布无显著区别(fig 6)。

2)通过astral调查二者的表现

发现高质量转录组产生的基因树discordance(分歧)更少,标准化后的四分位数是9.75,而低质量是0.73。(fig 7)

总之,我们发现来自高质量转录组集合的数据集比来自低质量转录组集合的数据集产生更大的系统发育矩阵。除了数量更多之外,高质量的数据集中的数据分区在组成上的偏差也较小,比对的模糊性也较小,与约束树的不协调性也较小。


讨论之可为我所用

l 高质量转录本带来更多的分区

低质量转录本,包含很多的嵌合序列,或者不完整的序列,导致不完整的比对。所以分区的数量较少,高质量转录本比对上的序列长度更长,说明不完整比对的情况比较少。

尽管orthofinder对这些结果有一定稳健性,但是高质量转录本提供更完整的序列信息,orthofinder可以得到较高物种覆盖度的同源基因集合,以及更多的集合数量。


l 低质量转录本产生的比对有很多的成分偏差以及比对模糊性

IQ-TREE计算分区比对的一些指标值。

一个是成分异质性,衡量每个序列中氨基酸的特征组成与整个比对中的特征组成。卡方检验,低质量转录组提供的有较高的组成异质性的序列较高。因为在高质量转录组中这些分区都有相应的伙伴。

同样的,低质量转录本的序列比对中有超过50%的gap和匹配模糊度。


l 由高质量转录本产生的分区在concatenation和coalescent两种方法中表现更好

通过定量分析。高质量转录本在concatenation方法中与一致树的rf距离更小,并且在coalescence方法中得到的四分位数差异更小(fig 7)

高质量转录本的ICA值不是显著高于低质量,但是有更大的比例高于0.6。

这说明由高质量转录本分区推断出的基因树和颅脑动物的constraint树更加一致,并且显示出更多的系统发育信号。(fig6b)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容