2024-07-24 CD-hit，seqkit 按照ID提取序列的应用

宏基因组二代测序结果binning之后的序列可能存在重复，首先使用prokka将binning后的序列转化为蛋白序列，

再使用CD-hit 命令默认参数将序列进行去重复

然后使用seqkit seq -i 获取序列的id

再使用seqkit grep -f 获取原先每个bin中的fasta序列

注：转成氨基酸序列后，保证了序列相似度识别的准确性，再进行去冗余后可以尽可能保证剩余序列的唯一性

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

基因BIN来源分析（一）cd-hit去冗余，salmon计算基因TPM
导读 humann中有一个模块可以进行基因物种来源分析，但是内部怎么分析的。如果能获得每个物种的基因序列文件，那么...
胡童远阅读 6,344评论 2赞 4
核苷酸/氨基酸序列聚类去重Cd-hit
我们在分析测序数据或者下载数据库数据时，经常需要合并数据。期间不可避免的出现重复序列，为了减少减少后续资源的使用，...
xiaoji_hb阅读 2,004评论 0赞 3

使用cd-hit对蛋白质或核酸序列进行聚类
2018.9.7 星期四多云 biolearn cd-hit 是用于蛋白质序列或核酸序列聚类的工具，根据序...
biolearn阅读 22,705评论 2赞 19
cd-hit 去除冗余序列
最近一篇NG中使用到的软件，用来去除冗余的contigs，现简单记录。 CD-HIT早先是一个蛋白聚类的软件，其主...
斩毛毛阅读 4,603评论 0赞 8
Seqkit小工具处理序列、提取序列ID
Seqkit是一款专门处理fsata/q序列文件的软件，由go语言编写，功能比较完善，软件使用也很稳定。优点1....
队长的生物实验室阅读 17,632评论 0赞 5

赞1赞

赞赏

手机看全文