基因组组装质量评估

常用的评估手段包括:

  • LAI值,大于10表示达到参考基因组水平,>20表示达到金标准。目前的大部分是15-19之间。太低的话,可能代表组装的质量比较差。使用的是LTR_retreiver鉴定的。注意多倍体,特别是同源多倍体需要分开计算。可以调整参数,设置不同的长度阈值,来获取LTR,根据LTR来计算组装质量。一般默认值就可以,调整后LAI的值变化也不会差别太大。我写了流程LTRfind可以完成LAI的计算和初步可视化。

  • BUSCO,目前出到V5版本了。一般完整度要达到90%以上,正常的是99%以上。如果低于90%,可能代表组装质量较差。
    根据已有的数据库比对,通过和已知的序列比对来评判组装指标。
    列举一下植物中常用的BUSCO的V5数据库

类群 数据库 BUSCOgroups数量 下载地址
真核生物 eukaryota_odb10.2020-09-10.tar.gz 255 https://busco-data.ezlab.org/v5/data/lineages/eukaryota_odb10.2020-09-10.tar.gz
绿色植物 viridiplantae_odb10.2020-09-10.tar.gz 425 https://busco-data.ezlab.org/v5/data/lineages/viridiplantae_odb10.2020-09-10.tar.gz
有胚植物 embryophyta_odb10.2020-09-10.tar.gz 1614 https://busco-data.ezlab.org/v5/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
真双子叶植物 eudicots_odb10.2020-09-10.tar.gz 2326 https://busco-data.ezlab.org/v5/data/lineages/eudicots_odb10.2020-09-10.tar.gz
豆目 fabales_odb10.2020-08-05.tar.gz 5366 https://busco-data.ezlab.org/v5/data/lineages/fabales_odb10.2020-08-05.tar.gz

根据你自己的研究的物种选择对应的数据库,植物一般是用embryophyta_odb10.2020-09-10.tar.gz.尽量选择种类数量多的数据库。例如研究花生Arachis hypogaea,就可以使用数据库fabales_odb10.2020-08-05.tar.gz,比使用有胚植物的会精准很多。

  • 二代回比,illumina的重测序回比到基因组,可以使用merqury,计算QV.一般QV越大越好。QV太小的,例如低于20,组装质量就较差。根据K-mer来评估组装质量。
    merqury使用参考地址:https://www.jianshu.com/p/61fefb9a9c5f
  • 共线性分析 如果有别人已经组装完成的近似物种的基因组,也可以比较共线性。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容