目前GO注释主要分为两种方法,其一,序列相似性即blast,其二,结构域相似性比对(InterProsScan),该方法在前面也提及过,本文就blast进行简要概述
所需文件
- query 蛋白序列
- swiss-prot 蛋白数据库
- idmapping.tb.gz, 即GO和swiss-prot的对应关系,也包括GO与其他数据库的对应关系
简单操作
1. blast比对
对swiss-prot建库后,进行比对
blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt
得到如下结果
YY_000250.1 Q8RXX9 38.728 173 75 5 24 178 14 173 1.29e-23 101 E3 ubiquitin-protein ligase ATL
YY_000260.1 Q9SK92 36.364 132 70 6 12 140 40 160 9.82e-12 69.3 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 37.302 126 67 2 5 118 43 168 1.51e-23 98.6 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 40.196 102 46 3 134 234 68 155 3.04e-14 73.2 E3 ubiquitin-protein ligase ATL
YY_000280.1 Q8W571 38.060 134 75 2 2 134 52 178 4.49e-23 95.5 RING-H2 finger protein ATL32 OS
其中第二列即为swiss-prot数据库中的ID
2. 下载GO对应关系
从 ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件较大,也可选择Filezilla 进行下载,或
wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
该文件均为一些对应关系,具体如下:
Q6GZX4 001R_FRG3G 2947773 YP_031579.1 81941549; 49237298 PF04947 GO:0046782 UniRef100_Q6GZX4 UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4 654924 15165820 AY548484 AAT09660.1
Q6GZX3 002L_FRG3G 2947774 YP_031580.1 49237299; 81941548 PF03003 GO:0033644; GO:0016021 UniRef100_Q6GZX3 UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5 654924 15165820 AY548484 AAT09661.1
Q197F8 002R_IIV3 4156251 YP_654574.1 109287880; 123808694; 106073503 UniRef100_Q197F8 UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464 345201 16912294 DQ643392 ABF82032.1
(1) UniProtKB accession
(2) UniProtKB ID
(3) EntrezGene
(4) RefSeq
(5) NCBI GI number
(6) PDB
(7) Pfam
(8) GO
(9) PIRSF
(10) IPI
(11) UniRef100
(12) UniRef90
(13) UniRef50
(14) UniParc
(15) PIR-PSD accession
(16) NCBI taxonomy
(17) MIM
(18) UniGene
(19) Ensembl
(20) PubMed ID
(21) EMBL/GenBank/DDBJ
(22) EMBL protein_id
3. 对应关系转换
根据blast结果,根据蛋白数据库中的ID将其对应的GO 注释到对应的基因上
python UniProt2GO_annotate.py idmapping.tb.gz blastoff output file
结果如下
c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1 GO:0006729,GO:0008124
c107639_g1_i1 GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1 GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1 GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8 GO:0015297,GO:0016021,GO:0015238
其中脚本UniProt2GO_annotate.py 下载
链接:http://pan.baidu.com/s/1kVjzJYv 密码:vigu