常用的评估手段包括:
LAI值,大于10表示达到参考基因组水平,>20表示达到金标准。目前的大部分是15-19之间。太低的话,可能代表组装的质量比较差。使用的是LTR_retreiver鉴定的。注意多倍体,特别是同源多倍体需要分开计算。可以调整参数,设置不同的长度阈值,来获取LTR,根据LTR来计算组装质量。一般默认值就可以,调整后LAI的值变化也不会差别太大。我写了流程LTRfind可以完成LAI的计算和初步可视化。
BUSCO,目前出到V5版本了。一般完整度要达到90%以上,正常的是99%以上。如果低于90%,可能代表组装质量较差。
根据已有的数据库比对,通过和已知的序列比对来评判组装指标。
列举一下植物中常用的BUSCO的V5数据库
类群 | 数据库 | BUSCOgroups数量 | 下载地址 |
---|---|---|---|
真核生物 | eukaryota_odb10.2020-09-10.tar.gz | 255 | https://busco-data.ezlab.org/v5/data/lineages/eukaryota_odb10.2020-09-10.tar.gz |
绿色植物 | viridiplantae_odb10.2020-09-10.tar.gz | 425 | https://busco-data.ezlab.org/v5/data/lineages/viridiplantae_odb10.2020-09-10.tar.gz |
有胚植物 | embryophyta_odb10.2020-09-10.tar.gz | 1614 | https://busco-data.ezlab.org/v5/data/lineages/embryophyta_odb10.2020-09-10.tar.gz |
真双子叶植物 | eudicots_odb10.2020-09-10.tar.gz | 2326 | https://busco-data.ezlab.org/v5/data/lineages/eudicots_odb10.2020-09-10.tar.gz |
豆目 | fabales_odb10.2020-08-05.tar.gz | 5366 | https://busco-data.ezlab.org/v5/data/lineages/fabales_odb10.2020-08-05.tar.gz |
根据你自己的研究的物种选择对应的数据库,植物一般是用embryophyta_odb10.2020-09-10.tar.gz.尽量选择种类数量多的数据库。例如研究花生Arachis hypogaea,就可以使用数据库fabales_odb10.2020-08-05.tar.gz,比使用有胚植物的会精准很多。
- 二代回比,illumina的重测序回比到基因组,可以使用merqury,计算QV.一般QV越大越好。QV太小的,例如低于20,组装质量就较差。根据K-mer来评估组装质量。
merqury使用参考地址:https://www.jianshu.com/p/61fefb9a9c5f - 共线性分析 如果有别人已经组装完成的近似物种的基因组,也可以比较共线性。