根据基因名称批量提取基因序列

实验中经常需要从基因组中提取、序列用于设计引物,或者进行基因功能研究等,之前看到别人使用的一个脚本,自己拿来用一下,感觉确实很方便

网站 http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/(网站内还有很多其他脚本可以下载使用,有时间可以研究一下)
下载faSomeRecords脚本:faSomeRecords.txt

faSomeRecords

将txt后缀删除后拷贝到指定的文件夹下即可运行,运行命令行加载脚本:

chmod +x faSomeRecords  
# 赋予文件可执行权限,为Linux系统下执行   

执行如下命令,找到自己需要的序列,一般使用CDs序列文件

./faSomeRecords genome.cds.fa ID.txt out.gene.fa   # 执行中 ./ 不能删除 
# 其中genome.cds.fa是原始的fasta文件,包含自己需要的基因  
# ID.txt 是需要查找并导出的基因ID,每行一个  
# out.gene.fa 为输出文件,包含对应ID的序列信息。
CDs文件示意图
ID.txt文件示意图
out.gene.fa输出文件示意图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容