第一块

题目

Signal, bias, and the role of transcriptome assembly quality in phylogenomic inference

信号、偏移以及转录组拼接质量对于系统发育基因组学推断造成的影响

作者

Jennifer L.Spillane

杂志与时间

BMC Ecology and Evolution

第二块

摘要之摘要

第三块

研究对象

三者：信号，偏移，转录本拼接质量

研究背景

Concatenation-based methods 遗传距离矩阵

先将不同物种之间的每个单拷贝基因单独进行多序列比对，然后将这些比对后的单拷贝基因进行首尾相连串接成一个supergene矩阵，最后将这个supergene用于构建系统发育树。

Coalescent-based methods 多基因树联合

先将不同物种之间的每个单拷贝基因单独进行多序列比对，并构建每一个单拷贝基因对应的基因树，然后将所有单拷贝基因对应的基因树进行合并重构出相应的物种树，再进行ML系统发育树的构建。

系统发育基因组用到的数据集通常来自不同研究小组提供的数据，这些小组可能利用了不同的测序和组装策略。因此在使用这些数据时存在多种问题。

很多基因组学研究者调查了去接头、错误矫正、以及不同方法对转录组拼接的影响以及拼接质量评价，但是用转录组做系统发育基因组研究的人并没有参考这些建议。

目前还没有一个综合的实证的关于转录组对下游研究造成影响的研究。

低质量的转录组会影响同源基因预测、比对质量以及遗传发育信号。

指标：同源基因集合的数量，partition比对的质量

目标是找出系统发育基因组中一些差异归因到转录组拼接质量上来。

对每个数据集（高/低质量转录组）进行相同的系统发育分析，识别它们的差异。发现更高质量的转录组产生的系统发育基因组数据集有着更低的比对模糊度，更低的组成偏差以及和约束树的结果更一致，无论采取哪种方法（concatenation/coalescent）

指示系统发育研究中的一部分不确定性出自于转录组的数据准备上。

研究方法（值得一记）

l Reads选择以及组装

Reads从公共数据库中下载，illumina测序得到的肝脏双端转录组片段，包含37个物种颅脑动物以及一个外类群。

组装是通过ORP流程。三种方法：Trinity，Trans-ABySS，rnaSPAdes, 四个k-mer参数，得到四种组装结果。

Transrate打分：将read比对到组装转录本上。对四种结果进行打分

ORP再进行组装

最后通过cd-hit去冗余。

ORP产生的研究结果是由5中组装策略中产生的最高质量-非冗余的序列。

l 质量分析以及高低质量数据集构造

每个物种都有五个组装结果，对这五个组装结果进行transrate打分，按照分数划分成高质量或者低质量的数据集。

这样数据集里就有不同方法产生的数据，避免单一方法之间的比较。

l 同源基因集合推断，统计学以及partition构造

Transdecoder翻译成蛋白，通过与参考的转录组比对能够使得它们拥有一致的名字，方便下游的比较。

Orthofinder构建同源基因集合，通过线性回归分析转录本数量、transrate打分以及busco complete打分与家族数量的统计学相关性。分布用wilcoxon秩和检验判断是否有差异。

过滤同源基因集合，保留每个物种至少有一个基因的集合。

找一对一的同源基因对，通过gblocks找保守区域。

衡量gblock过滤前和后的比对长度分布，比较partition的组成，分析独有的和共享的partion。

l GO分析以及比对矩阵

对两个数据集共有的partion，提取比对指标，包括保守位点比例，解释性位点比例，以及未通过卡方检验的数量。

l Constraint tree以及partion tree的比较

IQ-TREE：使用LG模型构造约束树，计算rf距离，代表partion树与约束树的拓扑结构差异，值越小代表差异越小。

RAxML：计算独立的partion树与约束树之间ICA值，代表partion树与约束树的冲突程度。

最后使用332棵交集的基因树构造ASTRAL树，我们计算了每棵树的归一化四分法得分，它代表了输入树中被物种树满足的四分法树的百分比，范围是0-1，数字越大表示不协调越少。

研究总结

l 数据集：根据transrate打分

颅脑动物系统发育

原因：系统发育解决的比较清楚，肝脏RNA-seq易获得

高质量转录组的数量显著少于低质量转录组（fig 2a），平均分别是178473条和321306条转录组。

Busco打分以及同源基因家族的数量也是高质量转录组比较高（table 1）

转录本数量与同源基因集合的数量显著相关。（线性回归，高p=0.001，低p=0.002 fig 2b）

高质量数据集的transrate打分中位数是0.47，低质量转录组的中位数是0.16，两者显著不同。（p<0.001, fig 2c）

但是transrate打分与同源基因集合的数量之间无显著相关（高p=0.43; 低p=0.51，fig2d）

除了在两个低质量转录组之外，同源基因集合的数量都是在高质量转录组中比较高，但是和低质量转录组是有可比性的，两个物种除外（TR 和CM）。这两个物种的busco打分也很低。

然而，除了transrate之外，高质量和低质量转录组的busco打分也是没有太大差距的。

但是busco打分和同源基因家族的数量是显著相关的（高低p=0.001, fig 2f）

l 高质量转录本经处理后会导致更多数量的分区数量

我们在所有类群中找一对一的直系同源基因。

转录本质量对基因组数据的主要影响是分区的结果。

高质量转录组获得2016 data partitions，低质量转录本为408个data partitions，二者重叠332个，证明大多数低质量转录本找到的高质量转录本也能找到。（fig 3a）

高质量转录本，会有更多独特的sequence partitions。

平均而言高质量转录组的比对序列长度更长

过滤之前两个数据集比对长度的分布显著不同，处理后差别变小了。

l 高质量比对过程减少了成分偏差以及序列模糊性

332 个共享的partition

高低质量数据集中比对的保守位点比例之间无显著差异（fig 4a）

同样的，比对中的解释性位点的数量之间也没有显著差异（fig 4b）

然而，组成没有通过卡方检验的序列数量以及超过50%比对模糊性的序列之间有显著差别（组成p=0.006; 模糊性p<0.001），这些值都是在低质量转录本中比较高。

l 低质量和高质量数据集的分区中基因含量没有偏差

如果分区是从特定基因中获得的，那么会影响系统发育信息。

高低转录本中获得的partition中的基因进行本体论分析，发现没有富集。

l 在基于concatenation(串联）和coalescent（并联）的分析中，高质量组合的partition比低质量的在更大程度上再现了constraint tree

比较约束树：代表颅脑类动物系统发育关系

1）计算RF距离和节点间的ICA值

RF距离代表子树之间的拓扑距离，ICA值代表分区支持约束树的支持度

高质量转录本的RF值明显低于低质量转录本(fig 5)，说明距离更短。并且ICA值比低质量的更高，但二者的分布无显著区别（fig 6）。

2）通过astral调查二者的表现

发现高质量转录组产生的基因树discordance（分歧）更少，标准化后的四分位数是9.75，而低质量是0.73。（fig 7）

总之，我们发现来自高质量转录组集合的数据集比来自低质量转录组集合的数据集产生更大的系统发育矩阵。除了数量更多之外，高质量的数据集中的数据分区在组成上的偏差也较小，比对的模糊性也较小，与约束树的不协调性也较小。

讨论之可为我所用

l 高质量转录本带来更多的分区

低质量转录本，包含很多的嵌合序列，或者不完整的序列，导致不完整的比对。所以分区的数量较少，高质量转录本比对上的序列长度更长，说明不完整比对的情况比较少。

尽管orthofinder对这些结果有一定稳健性，但是高质量转录本提供更完整的序列信息，orthofinder可以得到较高物种覆盖度的同源基因集合，以及更多的集合数量。

l 低质量转录本产生的比对有很多的成分偏差以及比对模糊性

IQ-TREE计算分区比对的一些指标值。

一个是成分异质性，衡量每个序列中氨基酸的特征组成与整个比对中的特征组成。卡方检验，低质量转录组提供的有较高的组成异质性的序列较高。因为在高质量转录组中这些分区都有相应的伙伴。

同样的，低质量转录本的序列比对中有超过50%的gap和匹配模糊度。

l 由高质量转录本产生的分区在concatenation和coalescent两种方法中表现更好

通过定量分析。高质量转录本在concatenation方法中与一致树的rf距离更小，并且在coalescence方法中得到的四分位数差异更小（fig 7）

高质量转录本的ICA值不是显著高于低质量，但是有更大的比例高于0.6。

这说明由高质量转录本分区推断出的基因树和颅脑动物的constraint树更加一致，并且显示出更多的系统发育信号。（fig6b）

2021-06-21【文献阅读】Signal, bias, and the role of transcriptome assembly quality in phylogenomic infe...