随机误差随着数据量增加而减少,系统误差随着数据量增大而增大。
常见的系统误差包括三种:
第一种是序列组成异质性(compositional heterogeneity)
第二种是速率异质性(rate heterogeneity)
第三种是碱基突变速率变化所造成的系统误差(heterotachy)
第一种是序列组成异质性(compositional heterogeneity)
原因原理:
目前常用的建树模型都假设DNA序列在不同生物类群的进化过程中, 其碱基的使用频率是不会发生改变的, 即进化过程中序列组分是同质的.
真实的情况下, 不同生物的序列组成成分存在一定的差异, 如果分析的数据集在不同物种间存在较大的序列组成异质性, 则在构树过程中往往会将序列组成相似的物种错误地聚为一支, 与真实进化关系存在偏差. (ps:这种所谓的组成相似并不是因为亲缘关系较近)
解决方案:
一般来说, 相对于第一、二位密码子, 第三位密码子比较容易出现较强的序列组成异质性; 相对于核酸序列, 蛋白质序列的组成异质性会更低. 因此, 在系统发育基因组学分析中, 可以尝试对DNA序列进行简并化处理或在蛋白质水平上进行系统发育分析, 以降低序列组成异质性可能带来的系统误差影响.
第二种是速率异质性(rate heterogeneity)
原因原理:
不同生物类群经历了不同的进化历史, 因而具有不同的进化速率. 当类群间进化速率高度不一致时, 某些进化快的类群可能由于多重突变随机地在某些位点上获得相同的碱基, 而现有的进化模型会把这种足以掩盖真实进化历史信息的非同源相似(homoplasy)当作真实的“信号”, 从而将进化速度快的类群进行错误聚类, 造成“长枝吸引”现象(long-branch attraction, LBA).
解决方案:
(ⅰ) 因为使用单个远缘生物作为外类群会在系统树中出现明显的长枝, 增加了长枝吸引发生的概率, 所以研究者应当采用亲缘关系近多个物种作为分析的复合外类群;
(ⅱ) 避免进化树中出现仅包含一个物种的长枝情况, 对于进化快的类群,尽量多选择一些物种加入分析, 可以截断长枝;
(ⅲ) 去除进化太快的序列位点或者基因, 可以降低长枝吸引的影响;
(ⅳ) 采用对LBA不敏感的速率异质性进化模型, 如Phylobayes程序的CAT模型.
第三种是碱基突变速率变化所造成的系统误差(heterotachy)
原因原理:
对于特定的碱基位点而言, 突变速率不是恒定不变的, 它会在某个时间段急剧增加, 也会在某个时间段下降, 但是这种随时间产生的速率转变在序列水平上无法检测, 而大多数现有模型的假设认为位点突变速率是恒定的, 当模型假设与现实出现严重不拟合的情况时, 就会得到一个错误的结果.
解决方案:
对于碱基突变速率变化这种系统误差的特性目前研究较少, 也没有较为可行的检测与分析算法, 所以在系统发育基因组学分析中一般较少考虑.
Reference
李佳璇, 梁丹, 张鹏. 系统发育基因组学方法研究进展[J]. 中国科学:生命科学, 2019, 049(004):456-471.