之前在某个群里看到有同鞋想要预训练的UNITE(ITS)分类器,刚好在qiime2论坛上靠前的帖子看到了这个,分享一下!
为 UNITE 数据库构建 Qiime2 分类分类器的流程
提示:这是一个非官方版本,尚未经过验证。使用风险自负!
这是 UNITE 数据库 9.0 版的分类器,经过训练,可与 Qiime2 2023.2 配合使用。这些可以用q2-feature-classifier
与“数据资源”页面上的类似内容一起使用。
UNITE 在 CC BY-SA 4.0 下获得许可。如果你使用它,引用它!
Abarenkov, Kessy; Zirk, Allan; Piirmann, Timo; Pöhönen, Raivo; Ivanov, Filipp; Nilsson, R. Henrik; Kõljalg, Urmas (2022): UNITE QIIME release for Fungi. Version 16.10.2022. UNITE Community <DOI GOES HERE>
DOIs for specific releases are listed here: https://unite.ut.ee/repository.php
先放上可以直接用的下载地址(贴心地列出了加速网址哦):
https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_29.11.2022-Q2-2023.2.qza
https://ghproxy.com/https://github.com/colinbrislawn/unite-train/releases/download/9.0-qiime2-2023.2-demo/unite_ver9_99_all_29.11.2022-Q2-2023.2.qza
变化:
- 将 Qiime2 更新至 2023.2
- 仅包含 99% 和“动态”阈值(默认禁用 97%)
- 现在使用已经存在的命名 conda 环境。这意味着您不会安装重复的 conda 环境,但在运行此流程之前,您必须先安装 Qiime2。如果需要,您仍然可以让此管道管理您的
Qiime2 conda env
。
此处提供了两个级别的分类:
- “99”,即分类群之间的99%同一性
- “动态”,在分类群之间使用97%至99%的同一性,由该领域的专家单独推荐。
有两个分类范围:
- 只是真菌
- “all”所有真核生物
有两个版本,带和不带“s”:
- 包括设置为 RefS 的单例(在动态文件中)。
- “s”包括全局和 97% 的单例。
(我不确定这意味着什么)
日期注意事项:
在 UNITE 主下载页面上,版本号 9.0 的发布日期为 2022-10-16。
- sh_qiime_release_16.10.2022.tgz
- sh_qiime_release_27.10.2022.tgz
- sh_qiime_release_29.11.2022.tgz
使用了最新的文件 (29.11.2022),这就是为什么文件日期比发布日期新的原因。
运行Snakemake的流程
建立:
- 安装Mambaforge并配置Bioconda。
- 使用推荐的环境名称安装所需的 Qiime2 版本。(为了加快安装速度,可以替换为 。
conda``mamba
- 将 Snakemake 安装到环境中,然后激活该环境。
配置:
- 打开并根据自己的喜好对其进行配置。(例如,您可能需要更新 Qiime2 环境的名称。
config/config.yaml
跑:
snakemake --cores 8 --use-conda --resources mem_mb=10000
这在我的机器上大约需要 15 个小时
报告:
snakemake --report results/report.html
snakemake --forceall --dag --dryrun | dot -Tpdf > results/dag.pdf
UNITE数据库
当前版本: 9.0;上次更新时间:2022 年 10 月 17 日 (了解更多)
ITS 序列数量 (UNITE+INSD): 8 395 383;数字对象标识符为 1.5% 阈值的 UNITE 真菌物种假设数量:290 922 (更多统计数据)
UNITE 是一个以真核核糖体 ITS 区域为中心的数据库和序列管理环境。来自国际核苷酸序列数据库协作的所有真核ITS序列都聚类到大约物种水平(物种之间的距离以0.5%为步长),并且所有此类物种假设都被赋予DOI,以促进明确的科学交流和数据组装。用户可以通过多种方式与这些物种假设(SH下同)(例如SH1566366.08FU)进行交互,并支持第三方序列和元数据注释。需要注册才能访问随附的冥王星工作台的更强大功能。提供一系列搜索和查询选项,并下载用于本地序列相似性搜索和 HTS 管道的预编译参考数据集。由于UNITE的真菌学根源,有两个版本的释放文件可用:所有真核生物(包括真菌)和仅真菌。UNITE 是一项社区工作,依赖于其用户的科学专业知识——请考虑通过例如注释您的专业知识分类群序列来做出贡献。