Microbial MLST schma

在基因组分析中,模式是一组基因位点,这些位点满足以下条件:

核心基因组(cg)MLST模式:这些位点存在于大多数菌株中,通常在模式创建时使用95%的菌株存在率作为阈值。假设在每种菌株中,由于测序覆盖问题、组装问题或与使用草图基因组组装相关的其他问题,最多可能有5%的位点无法被识别。

泛基因组/全基因组(pg/wg)MLST模式:这些位点存在于模式创建时分析的至少一个菌株中。

附属基因组(ag)MLST模式:这些位点存在于少于95%的菌株中。

EXC - 完全匹配(100% DNA一致性)
与先前识别的等位基因完全匹配。

INF - 推断的新等位基因
这些等位基因在模式中没有完全匹配,但与模式中的某个位点高度相似。等位基因标识符中的INF-前缀表示该等位基因是在该基因组中新推断的,前缀后的数字是该等位基因的标识符。推断的等位基因会被添加到与其高度相似的位点的FASTA文件中。

LNF - 未找到位点
未找到与模式中所示位点数量对应的等位基因。这意味着对于这些位点,没有BLAST命中,或者它们不在等位基因分配的BSR阈值范围内。

PLNF - 可能未找到位点
在执行模式1、2和3时,如果未找到某个位点,则归为此类。这些模式不执行完整分析(完整分析仅在模式4(默认)中执行),这种分类表明更彻底的分析可能会找到未找到位点的匹配。

PLOT3/PLOT5 - 可能在查询基因组contig的末端(见下图)。
当查询基因组的CDS与已知的较大等位基因有BLAST命中,且该等位基因完全覆盖CDS序列,同时较大等位基因的未比对区域超出查询基因组contig的末端时,该位点被分类为PLOT(根据匹配模式位点的CDS位于contig的5'端或3'端,分别分类为PLOT5或PLOT3)。这可能是由于基因组片段化导致Prodigal预测的CDS较短而产生的假象。为避免位点错误分类,此类情况下的位点被分类为PLOT。

LOTSC - 当查询基因组的contig小于匹配的等位基因时,该位点被分类为LOTSC。

NIPH - 非信息性旁系同源命中(见下图)。当查询基因组中的≥2个CDS与模式中的一个位点匹配且BSR > 0.6时,该位点被分类为NIPH。这表明该位点在查询基因组中可能存在旁系同源(或直系同源)位点,由于等位基因分配的潜在不确定性(例如,由于同一移动遗传元件(MGE)的多个拷贝存在或基因复制后假基因化的结果),应从分析中移除该位点。大量的NIPH也可能表明基因组组装质量较差,因为存在大量较小的contig,导致部分CDS预测。这些部分CDS可能包含与多个位点匹配的保守结构域。

NIPHEM - 类似于NIPH分类,但特指完全匹配。当在第一次DNA序列比较中,来自同一基因组的多个CDS与同一位点的一个或多个等位基因具有100%的DNA相似性时,归为NIPHEM标签。

PAMA - 旁系同源匹配。归因于与多个位点高度相似的CDS。这种分类允许识别模式中被分类为旁系同源位点的相似位点组,并列在paralogous_counts.tsv和paralogous_loci.tsv文件中。

ALM - 等位基因长度比匹配位点长度分布的众数大20%(CDS长度 >(位点长度众数 + 位点长度众数 * 0.2))(见下图)。此判定基于当前识别的给定位点的等位基因集。需要注意的是,尽管不常见,但随着更多等位基因被调用并添加到模式中,众数可能会发生变化。

ASM - 类似于ALM,但适用于等位基因长度比匹配位点长度分布的众数小20%(CDS长度 <(位点长度众数 - 位点长度众数 * 0.2))。与ALM类似,需要注意的是,尽管不常见,但随着更多等位基因被调用并添加到模式中,众数可能会发生变化。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容