2024-07-24 CD-hit,seqkit 按照ID提取序列的应用

宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列,

再使用CD-hit 命令默认参数将序列进行去重复

然后使用seqkit seq -i 获取序列的id

再使用seqkit grep -f 获取原先每个bin中的fasta序列

注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容