2019-11-12科个小普:蛋白鉴定的常用公共数据库

转发自http://crickcollege.com/news/132.html

对于刚开始玩蛋白质谱数据处理的童鞋们来说,听得最多的,大概就是搜库了!没错,就像人生避免不了交税一样,谱图处理也绕不开搜库。那么问题就来了,有哪些公共又权威的数据库可以拿来搜呢?

关于搜库的门门道道,感兴趣的小伙伴们,还可以参考我们之前写的一篇小攻略:

蛋白鉴定攻略之—搜库只搜目标序列?

选择合适的数据库,进行正确的配置及参数设定,是很基本的但很重要的事情。那么今天小编就来帮初学的小伙伴们整理一下蛋白鉴定中常用的公共数据库,它们各自的特点以及下载方式,拿好不谢~

1. Contaminants
当我们搜索单一物种分类数据库时,记得养成一个好习惯,就是同时选择Contaminants数据库进行匹配,因为污染总是很难避免的!这类数据库中包含常见的污染蛋白如keratins、BSA和 trypsin,帮助我们把需要鉴定的目标蛋白与实验中污染进来的蛋白进行区分。

目前有两个组织提供此类数据库下载:

1) Max Planck Institute of Biochemistry, Martinsried,提供了一套来自多种来源,含有247个蛋白的数据库。
手动下载方式:
http://maxquant.org/contaminants.zip
Tips:不要在网页浏览器里打开哦,因为很可能会显示网址无效,直接找个下载工具下载即可,比如把链接拷到QQ里,启动QQ旋风下载助手就可以下载了。

2) Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116个来自于Swiss-Prot的污染蛋白库 。
手动下载方式:
ftp://ftp.thegpm.org/fasta/cRAP/crap.fasta

2. EMBL EST
由EMBL维护的EST Fasta 数据库,"single-pass" cDNA 序列,或表达序列标签 Expressed Sequence Tags。该数据库包含十个分类:
• ENV: Environmental Samples
• FUN: Fungi
• HUM: Human
• INV: Invertebrates
• MAM: Other Mammals
• MUS: Mus musculus
• PLN: Plants
• PRO: Prokaryotes
• ROD: Rodents
• VRT: Other Vertebrates

下载方式:单一分类的Fasta文件可以从EBI FTP 服务器上下载。比如FTP上啮齿类动物序列库的压缩文件名就是: em_rel_est_rod.gz,而真菌的是em_rel_est_fun.gz。
物种分类:一些比较友好的商业软件,比如Mascot,会将所有分类信息在后台进行自动更新下载。如果你用的软件没有这个功能,那就要手动下载,然后根据软件的操作要求,比如解压缩到某个Taxonomy子目录。

FASTA文件库:ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz
物种分类信息:ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene索引:NCBI的 UniGene的索引由GenBank序列自动分割成非冗余的以基因为单位的簇。如果使用UniGene索引,EST数据库的搜库结果会按照基因家族进行分类,而不会仅仅以原始的EST索引号展示。

3. NCBI EST
大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三个不同的 EST 数据库,同样也包含GenBank EST库中的"single-pass" cDNA 序列,或 Expressed Sequence Tags。

三个 EST 数据库分别是: human、mouse和 others。目前的版本,压缩过的EST_others 文件有11GB大小,而解压后有40 GB。小伙伴们需要注意,像这么大的数据库,32位操作系统是无法处理的,而必须使用64位系统配合足够大的内存。NCBI目前依然没有计划分割EST_others数据库,因此小编觉得比较实用的还是EMBL EST库。

下载方式:
访问 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz 或对应的其他名称下载相应的数据库。

物种分类:以Mascot为例,对于 EST_others,在数据库配置时选择 "dbEST FASTA using GI2TAXID"。Mascot需要更新以下文件来构建索引,如果手动下载,同样将它们解压到指定的Taxonomy目录:

ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene:与EMBL相同

4. NCBInr
Nr数据库也是由NCBI (National Center for Biotechnology Information) 维护。它包含来自于GenBank CDS translations、PDB、Swiss-Prot、PIR 和PRF的非等同序列。NCBInr的特点在于其更新速度非常快,且涵盖度很高。

下载方式:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
由于广受欢迎,一些搜索软件直接做了自动更新功能,比如Mascot 2.3版本及以上的,初始配置成功以后就不用管了,软件会自动去check并且在本地更新这个数据库。

物种分类:以Mascot为例,在联网更新NCBInr时会自动进行分类索引库下载,并应用"NCBI nr FASTA using GI2TAXID"的格式。

5. SwissProt
UniProtKB/Swiss-Prot (reviewed) 是一个高质量人工注释且非冗余的蛋白序列数据库。其中包含各类实验结果、计算得到的特征信息和文献信息等。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸数据库中的coding sequences (CDS) 序列翻译而来。 而UniProtKB 本身是European Bioinformatics Institute、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立。

下载方式:
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase
其中:
Version info: reldate.txt
SwissProt Fasta file: uniprot_sprot.fasta.gz
SwissProt Dat file: uniprot_sprot.dat.gz

物种分类:以Mascot为例,物种分类会自动后台更新,并对应格式: "SwissProt FASTA"。

6. Trembl
UniProtKB/TrEMBL (unreviewed) 计算辅助预测注释信息和功能信息的蛋白序列,而都还没经过人工注释。

下载方式,物种分类格式等信息均和Swissprot一致,相关文件为:
TrEMBL Fasta file: uniprot_trembl.fasta.gz
TrEMBL Dat file: uniprot_trembl.dat.gz

7. UniRef
UniRef (UniProt Reference Clusters) 从UniProtKB(含isoform序列信息)提供的序列进行聚类。所用的种子序列是各簇中最长的序列。UniRef包含三个子库,按照序列相似度分别为UniRef100, UniRef90和UniRef50。UniRef100无相同序列,而UniRef90和UniRef50则是非冗余的,聚类相似度90%和50%。基于质谱的序列搜索都要求序列的绝对匹配,因此UniRef100适用于蛋白质组学质谱搜库。
下载方式:
PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/
包含文件:
Version info: uniref100.release_note
Fasta file: uniref100.fasta.gz

物种分类:UniRef采用以下索引库: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

8. Uniprot Proteomes
UniProt全蛋白质组数据库包含多个模式生物的全基因组蛋白表达信息。其中收集的Reference Proteome包含多个研究比较透彻或者生物研究中比较受关注的物种的最全面的蛋白质组序列信息。

下载方式:相关物种的序列数据库可以访问http://www.uniprot.org 搜索Taxonomy,并点击有关键词"Complete proteome"的物种分类,或者直接使用关键词如: (e.g. http://www.uniprot.org/uniprot/?query=taxonomy%3A4530+AND+keyword%3A%22Complete+proteome%22&sort=score )可以搜索到人类基因组的Ref Proteome。
搜索结果中点击Download,并选择格式 FASTA(Canonical)。

9. 私有数据库
蛋白质序列数据库FASTA是一个非常流行的标准格式,而且要求非常简单。因此实验室自己收集整理的序列都可以格式化成FASTA并用于搜库。

Title text
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCE
Next title
NEXTSEQUENCE …

以上是一个标准的例子,> 之后是序列ID号和描述信息,然后紧跟整个序列信息,第二个蛋白重新以>开头即可。下面是一些ID和描述信息的例子。

gi|6|bgi|Contig1.seq_7|2412 3299 [+3 L= 888] [Delayed
20021010.2.1 1112073F09.y1 1112091F10.y1 1112073F0
IPI:IPI00140097.1|REFSEQ_XP:XP_168061 Tax_Id=9606
CCRB cytochrome c [validated] – rabbit
gi|129249|sp|P02820|OSTC_BOVIN Osteocalcin precursor
"ORF5 | start 2178-1309 | frame -1 | length=870 |

常用的搜库软件通常需要用户提供一个名称比较统一、符合一定规范的信息,才能将名称中ID和描述信息进行较好地分离。具体的操作需要参考不同软件的操作手册说明。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容