QIIME提供了3种OTU分类流程, 分别为de novo, closed-reference 和 open-reference。
De novo OTU picking
pick_de_novo_otus.py 是 De novo OTU 分类方法的主要接口, 主要包括: OTU分类, 物种注释, 序列比对 和 构建进化树。
优点:
- 可以对所有reads聚类;
缺点:
- 不支持并行,数据集比较大时运算速度比较慢。
以下情况必须使用 De novo OTU picking:
- 针对需要分类的reads没有相应的参考序列,比如说不常使用的marker gene。
以下情况不能使用 De novo OTU picking:
- 你比较的是非重叠扩增子,比如说16S rRNA的 V2 和 V4 区域。
- 数据集很大。
Closed-reference OTU picking
pick_closed_reference_otus.py 是 Closed-reference OTU picking 分类方法的主要接口, 比对上的 reads 被聚类到参考序列中, 没有比对上的 reads 被扔掉, 不参与后续分析。如果参考数据库中包含物种分类信息,会自动对OTUs进行物种注释。
优点:
- 速度快, 因为能够并行
- 建树 和 物种注释 更准确
缺点:
- 不能发现参考数据库以外的新物种。你只能关注已知物种的多样性。当你基于16S区域研究人体微生物时, Greengenes数据库覆盖了大部分的微生物,你可能只会抛弃掉1-10%的reads;但当你研究未知环境中的微生物时,可能会抛弃掉50-80%的reads。
以下情况必须使用 Closed-reference OTU picking:
- 你比较的是非重叠扩增子,比如说16S rRNA的 V2 和 V4 区域。你的参考序列必须覆盖这两个区域。
以下情况不能使用 Closed-reference OTU picking:
- 针对需要分类的reads没有相应的参考序列,比如说不常使用的marker gene。
Open-reference OTU picking
pick_open_reference_otus.py是 Open-reference OTU picking 分类方法的主要接口, 比对上的 reads 被聚类到参考序列中, 没有比对上的 reads 进行 De novo OTU picking。
Open-reference OTU picking 是更好的OTU分类策略。
优点:
- 所有reads都可以被聚类
- 速度 (参考数据库中包括大多数物种时)
缺点:
- 速度 (参考数据库中不包括大部分物种时)
多步OTU分类
当数据量比较大时,我们可以采用多步OTU分类策略,首先使用快速、粗糙的OTU分类方法(比如PrefixSuffix), 然后在使用慢的、准确的OTU聚类方法(比如cdhit)。
具体步骤可以参考Multi-step OTU picking.