目的:下载了N个基因的fasta文件,想要将其合并成一个文件的fasta格式。
实现方法:windows bat批处理
实现思路: 先批处理,将fasta文件转变为txt,然后提取、合并成一个txt,然后修改txt为fasta格式
# 注意空格
ren *.fasta *.txt
修改文件后缀txt为bat
# mixfile为文件名
copy *.txt mixfile.txt
fasta与fastq的区别:
fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释。 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Python等脚本语言处理均可对其直接处理。结构分两行,第一行序列标识(ID),第二行为序列信息。
fastq格式(格式缩写为fq)是一种存储生物序列和对应序列质量的文件格式。 现已成为存储高通量测序数据的事实标准,相当于fasta的plus(+quality)版。结构分为四行,第一行序列标识(ID),第二行为序列信息,第三行为单独一个+(表示与第一行相同的序列标识,为了节省内存省略为+,此行保留以凑成偶数行保证后续数据处理的便捷性),第四行,对应第二行序列的质量值(用ascii码表示,通过质量值公式可以计算其准确度)。
fna,ffn,faa都属于fasta格式:
fna (fasta nucleic acid file)所有核酸序列信息
ffn (fasta nucleotide coding regions file)所有基因的核酸序列信息
faa (fasta Amino Acid file) 即所有基因对应的蛋白质序列信息