扩增子聚类之术语“ seed ”

前面的swarm聚类文章中讲到过，“ seed ” 是 de novo 思想的算法在聚类时，选择的第一个作为质心或起点的高丰度扩增子，它通常作为 cluster 的代表序列参与物种注释等其它分析。

从计算机角度来看：算法的开始，创建一个初始为空的数据库，并在处理输入序列扩展数据库。对于每一个 cluster ，数据库只精确地包含一个代表性序列。

在UCLUST中，“ seed 序列 ” 这个术语不再使用，为了避免与 BLAST 和 UBLAST 等算法中的对齐种子（即：查询序列与参考序列比对上的匹配词）混淆。作为替代，称质心为“ 代表序列 ”。

在这里用UBLAST举例来说明：

UBLAST是 Edgar 开发的 USEARCH 包中的一个工具。

UBLAST最常用于蛋白质或翻译搜索，低相似度的序列比对就可以提供信息。UBLAST也支持核苷酸搜索，但USEARCH通常更合适，因为核苷酸同源性只有在序列之间具有高相似度时才能检测到。

因此，UBLAST被设计为对较远的（ more distant）序列关系敏感，USEARCH对于这些序列而言敏感度较低，例如蛋白质的识别率（identity）低于50%。而当序列识别率较低时，查询序列和数据库参考序列可能只有一个简短的匹配词（common k mer），如下图所示。这个匹配词称作 “seed”（即：种子）。

图源： https://www.drive5.com/usearch/manual/ublast_algo.html

持续更新，禁止转载

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

扩增子聚类之术语“ seed ”

友情链接更多精彩内容