文章
标题:CheckM2: a rapid, scalable and accurate tool for assessing microbial genome quality using machine learning
地址:https://www.nature.com/articles/s41592-023-01940-w
期刊:Nature Methods 2023
摘要
测序技术和生物信息学工具的进步极大地提高了宏基因组数据中微生物基因组的恢复率。 评估宏基因组组装基因组 (MAG) 的质量是下游分析之前的关键步骤。 在这里,我们提出了 CheckM2,这是一种使用机器学习预测 MAG 基因组质量的改进方法。 使用合成和实验数据,我们证明 CheckM2 在准确性和计算速度方面均优于现有工具。 此外,CheckM2的数据库可以使用新的高质量参考基因组快速更新,包括仅由单个基因组代表的分类群。 我们还表明,CheckM2 可以准确预测来自新谱系的 MAG 的基因组质量,即使对于那些基因组大小较小的谱系(例如,Patescibacteria 和 DPANN superphylum)也是如此。 CheckM2 提供跨细菌和古菌谱系的准确基因组质量预测,在从 MAG 推断生物学结论时增强信心。
提升
1 准确性和计算速度
2 新的高质量参考基因组数据库
3 准确预测新谱系基因组
github地址:https://github.com/chklovski/CheckM2
bioconda: https://bioconda.github.io/recipes/checkm2/README.html
安装
conda
conda create -n checkm2
conda activate checkm2
conda install -c bioconda -c conda-forge checkm2
mamba
mamba create -n checkm2 -c bioconda -c conda-forge checkm2
source /XX/huty/software/miniconda3/etc/profile.d/conda.sh
conda activate checkm2
checkm2 -h
# export数据库
export CHECKM2DB="/hwfsxx1/ST_HN/PXXX/huty/databases/checkm2_db/uniref100.KO.1.dmnd"
# 命令行设置数据库
checkm2 predict \
-i ./folder_with_MAGs \
-o ./output_folder \
--database_path /hwfsxx1/ST_HN/P18Z10200N0423/huty/databases/checkm2_db/uniref100.KO.1.dmnd
应用
source /hwfsxx1/ST_HN/P18Z10200N0423/huty/software/miniconda3/etc/profile.d/conda.sh
conda activate checkm2
checkm2 predict \
--threads 24 \
-x fa \
-i 02_MAG/$infile/bins/ \
-o 02_MAG/$infile/bins_checkm2 \
--database_path /hwfsxx1/ST_HN/P18Z10200N0423/huty/databases/checkm2_db/CheckM2_database/uniref100.KO.1.dmnd
[02/22/2024 10:29:10 AM] INFO: Running CheckM2 version 1.0.1
[02/22/2024 10:29:10 AM] INFO: Custom database path provided for predict run. Checking database at /hwfsxx1/ST_HN/P18Z10200N0423/huty/databases/checkm2_db/Ch
[02/22/2024 10:29:17 AM] INFO: Running quality prediction workflow with 24 threads.
[02/22/2024 10:29:23 AM] INFO: Calling genes in 74 bins with 24 threads:
[02/22/2024 10:30:46 AM] INFO: Calculating metadata for 74 bins with 24 threads:
[02/22/2024 10:30:47 AM] INFO: Annotating input genomes with DIAMOND using 24 threads
[02/22/2024 10:33:43 AM] INFO: Processing DIAMOND output
[02/22/2024 10:33:44 AM] INFO: Predicting completeness and contamination using ML models.
[02/22/2024 10:33:52 AM] INFO: Parsing all results and constructing final output table.
[02/22/2024 10:33:52 AM] INFO: CheckM2 finished successfully.