windows bat批量提取序列文件

目的:下载了N个基因的fasta文件,想要将其合并成一个文件的fasta格式。
实现方法:windows bat批处理
实现思路: 先批处理,将fasta文件转变为txt,然后提取、合并成一个txt,然后修改txt为fasta格式

# 注意空格
ren *.fasta *.txt

修改文件后缀txt为bat

# mixfile为文件名
copy *.txt mixfile.txt

fasta与fastq的区别:
fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释。 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Python等脚本语言处理均可对其直接处理。结构分两行,第一行序列标识(ID),第二行为序列信息。
fastq格式(格式缩写为fq)是一种存储生物序列和对应序列质量的文件格式。 现已成为存储高通量测序数据的事实标准,相当于fasta的plus(+quality)版。结构分为四行,第一行序列标识(ID),第二行为序列信息,第三行为单独一个+(表示与第一行相同的序列标识,为了节省内存省略为+,此行保留以凑成偶数行保证后续数据处理的便捷性),第四行,对应第二行序列的质量值(用ascii码表示,通过质量值公式可以计算其准确度)。

fna,ffn,faa都属于fasta格式:
fna (fasta nucleic acid file)所有核酸序列信息
ffn (fasta nucleotide coding regions file)所有基因的核酸序列信息
faa (fasta Amino Acid file) 即所有基因对应的蛋白质序列信息

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容