如何从一个序列文件中批量去掉特定序列?

比如我有一包含许多基因的ID文件,和所有ID对应的序列文件,文件内容如下

cat geneid.txt
gene1
gene11
gene34
gene57
gene78
gene789

less -S gene.fa
>gene1 length=2
AT
>gene2 length=6
ATCGGT
>gene3 length=8
ATATATCG
>gene4 length=15
ATATATATATATATC

如果我想去掉geneid.txt里面所有基因对应的序列该怎么做?

用seqkit软件就可轻松解决
  • 1.去掉单个序列
seqkit grep -v -p "gene2" gene.fa>nogene2.fa
  • 2.去掉一批序列
seqkit grep -v -f geneid.txt gene.fa >nogeneid.fa

相比于grep命令与python脚本,seqkit软件节省了时间,是一个非常不错的选择!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容