简介不同的文件格之Fasta格式

在浏览核酸蛋白质数据库的时候会经常遇见不同的文件格式,常见的有Fasta格式文件、NBRF/PIR格式文件、 EMBL/SWISSPROT格式文件、Clustal(*.aln)格式文件、GCG/MSF(Pileup)格式文件、RSF 格式文件、GDE格式文件、Mega格式文件、Genbank格式文件、NEXUS格式文件、Phylip格式文件等。

Fasta格式

Fasta格式包含序列文件和质量文件

1.Fasta序列文件格式是核酸蛋白数据最常见的一种文件格式,第一行以'<'开头引导的序列名称开始,后面接序列的详细信息,随后的行接序列,每一行序列长度不超过80。序列由标准的IUB/IUPAC氨基酸和核酸代码表,出常见的ATCGU、20种常见氨基酸外还有下表1.1和1.2中代表的字符,'-'代表不明长度的字符序列。

2.Fasta格式质量文件第一行和序列文件一样,只是序列部分对应的是每个碱基的质量,用空格分隔。


表1.1

表1.2

Fasta格式序列文件


氨基酸序列文件

核酸序列文件

DNA质量文件
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容