基于blast进行GO功能注释

目前GO注释主要分为两种方法,其一,序列相似性即blast,其二,结构域相似性比对(InterProsScan),该方法在前面也提及过,本文就blast进行简要概述

所需文件

  • query 蛋白序列
  • swiss-prot 蛋白数据库
  • idmapping.tb.gz, 即GO和swiss-prot的对应关系,也包括GO与其他数据库的对应关系

简单操作

1. blast比对

对swiss-prot建库后,进行比对

blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt

得到如下结果

YY_000250.1     Q8RXX9  38.728  173     75      5       24      178     14      173     1.29e-23        101     E3 ubiquitin-protein ligase ATL
YY_000260.1     Q9SK92  36.364  132     70      6       12      140     40      160     9.82e-12        69.3    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  37.302  126     67      2       5       118     43      168     1.51e-23        98.6    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  40.196  102     46      3       134     234     68      155     3.04e-14        73.2    E3 ubiquitin-protein ligase ATL
YY_000280.1     Q8W571  38.060  134     75      2       2       134     52      178     4.49e-23        95.5    RING-H2 finger protein ATL32 OS

其中第二列即为swiss-prot数据库中的ID

2. 下载GO对应关系

ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件较大,也可选择Filezilla 进行下载,或

wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz

该文件均为一些对应关系,具体如下:

Q6GZX4  001R_FRG3G      2947773 YP_031579.1     81941549; 49237298              PF04947 GO:0046782                      UniRef100_Q6GZX4        UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4           654924                          15165820        AY548484        AAT09660.1
Q6GZX3  002L_FRG3G      2947774 YP_031580.1     49237299; 81941548              PF03003 GO:0033644; GO:0016021                  UniRef100_Q6GZX3        UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5           654924                          15165820        AY548484        AAT09661.1
Q197F8  002R_IIV3       4156251 YP_654574.1     109287880; 123808694; 106073503                                         UniRef100_Q197F8        UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464           345201                          16912294        DQ643392        ABF82032.1
  • (1) UniProtKB accession

  • (2) UniProtKB ID

  • (3) EntrezGene

  • (4) RefSeq

  • (5) NCBI GI number

  • (6) PDB

  • (7) Pfam

  • (8) GO

  • (9) PIRSF

  • (10) IPI

  • (11) UniRef100

  • (12) UniRef90

  • (13) UniRef50

  • (14) UniParc

  • (15) PIR-PSD accession

  • (16) NCBI taxonomy

  • (17) MIM

  • (18) UniGene

  • (19) Ensembl

  • (20) PubMed ID

  • (21) EMBL/GenBank/DDBJ

  • (22) EMBL protein_id

3. 对应关系转换

根据blast结果,根据蛋白数据库中的ID将其对应的GO 注释到对应的基因上

python UniProt2GO_annotate.py idmapping.tb.gz  blastoff output file

结果如下

c93619_g2_i1    GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3    GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1    GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1    GO:0006729,GO:0008124
c107639_g1_i1   GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1   GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1    GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8   GO:0015297,GO:0016021,GO:0015238

其中脚本UniProt2GO_annotate.py 下载
链接:http://pan.baidu.com/s/1kVjzJYv 密码:vigu

参考

欢迎扫码交流

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343