利用PGCGAP根据ids提利用PGCGAP根据id提取序列信息

使用场景

假设有一个 fasta 格式的序列文件 SRR9620252.faa ，我们想要提取其中的一些序列到一个新的文件中，我们拥有这些序列的 id （假设这些 id 存放在文件 ids.txt 中）。

常规操作的话，可以复制 id，在 fasta 文件中打开搜索，粘贴 id，点击查找，复制找到的序列，粘贴到新的文件中（假设为 Seqout.fasta ）。假如你只找一条序列，1 min 之内可以完成，假如你要找 100 条序列，1 h 可能没了。而用 PGCGAP 可以在 1 min 之内完成，剩下的 59 min 可以喝喝茶。

使用方法

PGCGAP 安装

参考官网: https://liaochenlanruo.fun/pgcgap/，需要版本v1.0.35及以上。

开始提取

在终端里打开 PGCGAP 的 conda 安装环境，并运行如下命令：

# ids.txt中含有要提取序列的id，可以是一列或者多列，如果为多列，需要用空格或者制表符来分隔列与列，id本身是不能带空格的。
pgcgap --ACC --id2seq --ids ids.txt --seqin SRR9620252.faa --seqout Seqout.fasta

提取的文件保存在 Seqout.fasta 中。

引用

Liu H, Xin B, Zheng J, Zhong H, Yu Y, Peng D, Sun M. Build a bioinformatics analysis platform and apply it to routine analysis of microbial genomics and comparative genomics. Protocol exchange, 2022. DOI: 10.21203/rs.2.21224/v6

示例获取

关注公众号 “生信之巅”，聊天窗口回复 “e6ae” 获取下载链接。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

利用PGCGAP根据ids提利用PGCGAP根据id提取序列信息

利用PGCGAP根据ids提利用PGCGAP根据id提取序列信息

相关阅读更多精彩内容

友情链接更多精彩内容