问题:之前一直处理fasta文件,最近用了一个现成的数据集(data来自PDB),发现:一个pdb文件中的序列既有protein序列、又有DNA序列;并且序列中每个残基不是由一个字母表示,而是一个氨基酸残基由三个字母表示、一个核苷酸残基由两个字母表示。下述例子是一个pdb文件(ID:10mh)的截图,有三个链A,B,C,链A是protein序列,链B和C是DNA序列。
概况来说,即:
PDB文件中SEQRES (sequence residues)中protein序列和DNA序列。
1. 一个PDB文件中既有protein序列,又有DNA序列。
2. 序列中氨基酸残基、核苷酸残基的表示方式。
解决:
(1)如果是蛋白质复合体的话,它的pdb文件里会包括protein序列和DNA序列的信息。
蛋白质复合体(蛋白质复合物)是有两个以上功能相关的多肽链通过二硫键或者其他蛋白质相互左右所形成的复合物。如蛋白质与DNA的特定序列结合形成复合物。
(2)pdb文件里序列的表示,每个氨基酸残基由三个字母缩写表示,每个核苷酸残基由两个字母缩写表示。不同于fasta文件,每个氨基酸残基、每个核苷酸残基均由一个字母简写表示。
但是,经观察发现,除了上述二十种氨基酸之前,还有一些其他的非常见的氨基酸残基,但是几乎检索不到它们的缩写及简写!
例如,PDB_ID:173d的序列中氨基酸序列大部分由非常见氨基酸残基组成。