转发自http://crickcollege.com/news/132.html
对于刚开始玩蛋白质谱数据处理的童鞋们来说,听得最多的,大概就是搜库了!没错,就像人生避免不了交税一样,谱图处理也绕不开搜库。那么问题就来了,有哪些公共又权威的数据库可以拿来搜呢?
关于搜库的门门道道,感兴趣的小伙伴们,还可以参考我们之前写的一篇小攻略:
选择合适的数据库,进行正确的配置及参数设定,是很基本的但很重要的事情。那么今天小编就来帮初学的小伙伴们整理一下蛋白鉴定中常用的公共数据库,它们各自的特点以及下载方式,拿好不谢~
1. Contaminants
当我们搜索单一物种分类数据库时,记得养成一个好习惯,就是同时选择Contaminants数据库进行匹配,因为污染总是很难避免的!这类数据库中包含常见的污染蛋白如keratins、BSA和 trypsin,帮助我们把需要鉴定的目标蛋白与实验中污染进来的蛋白进行区分。
目前有两个组织提供此类数据库下载:
1) Max Planck Institute of Biochemistry, Martinsried,提供了一套来自多种来源,含有247个蛋白的数据库。
手动下载方式:
http://maxquant.org/contaminants.zip
Tips:不要在网页浏览器里打开哦,因为很可能会显示网址无效,直接找个下载工具下载即可,比如把链接拷到QQ里,启动QQ旋风下载助手就可以下载了。
2) Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116个来自于Swiss-Prot的污染蛋白库 。
手动下载方式:
ftp://ftp.thegpm.org/fasta/cRAP/crap.fasta
2. EMBL EST
由EMBL维护的EST Fasta 数据库,"single-pass" cDNA 序列,或表达序列标签 Expressed Sequence Tags。该数据库包含十个分类:
• ENV: Environmental Samples
• FUN: Fungi
• HUM: Human
• INV: Invertebrates
• MAM: Other Mammals
• MUS: Mus musculus
• PLN: Plants
• PRO: Prokaryotes
• ROD: Rodents
• VRT: Other Vertebrates
下载方式:单一分类的Fasta文件可以从EBI FTP 服务器上下载。比如FTP上啮齿类动物序列库的压缩文件名就是: em_rel_est_rod.gz,而真菌的是em_rel_est_fun.gz。
物种分类:一些比较友好的商业软件,比如Mascot,会将所有分类信息在后台进行自动更新下载。如果你用的软件没有这个功能,那就要手动下载,然后根据软件的操作要求,比如解压缩到某个Taxonomy子目录。
FASTA文件库:ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz
物种分类信息:ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
Unigene索引:NCBI的 UniGene的索引由GenBank序列自动分割成非冗余的以基因为单位的簇。如果使用UniGene索引,EST数据库的搜库结果会按照基因家族进行分类,而不会仅仅以原始的EST索引号展示。
3. NCBI EST
大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三个不同的 EST 数据库,同样也包含GenBank EST库中的"single-pass" cDNA 序列,或 Expressed Sequence Tags。
三个 EST 数据库分别是: human、mouse和 others。目前的版本,压缩过的EST_others 文件有11GB大小,而解压后有40 GB。小伙伴们需要注意,像这么大的数据库,32位操作系统是无法处理的,而必须使用64位系统配合足够大的内存。NCBI目前依然没有计划分割EST_others数据库,因此小编觉得比较实用的还是EMBL EST库。
下载方式:
访问 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz 或对应的其他名称下载相应的数据库。
物种分类:以Mascot为例,对于 EST_others,在数据库配置时选择 "dbEST FASTA using GI2TAXID"。Mascot需要更新以下文件来构建索引,如果手动下载,同样将它们解压到指定的Taxonomy目录:
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
Unigene:与EMBL相同
4. NCBInr
Nr数据库也是由NCBI (National Center for Biotechnology Information) 维护。它包含来自于GenBank CDS translations、PDB、Swiss-Prot、PIR 和PRF的非等同序列。NCBInr的特点在于其更新速度非常快,且涵盖度很高。
下载方式:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz。
由于广受欢迎,一些搜索软件直接做了自动更新功能,比如Mascot 2.3版本及以上的,初始配置成功以后就不用管了,软件会自动去check并且在本地更新这个数据库。
物种分类:以Mascot为例,在联网更新NCBInr时会自动进行分类索引库下载,并应用"NCBI nr FASTA using GI2TAXID"的格式。
5. SwissProt
UniProtKB/Swiss-Prot (reviewed) 是一个高质量人工注释且非冗余的蛋白序列数据库。其中包含各类实验结果、计算得到的特征信息和文献信息等。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸数据库中的coding sequences (CDS) 序列翻译而来。 而UniProtKB 本身是European Bioinformatics Institute、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立。
下载方式:
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase
其中:
Version info: reldate.txt
SwissProt Fasta file: uniprot_sprot.fasta.gz
SwissProt Dat file: uniprot_sprot.dat.gz
物种分类:以Mascot为例,物种分类会自动后台更新,并对应格式: "SwissProt FASTA"。
6. Trembl
UniProtKB/TrEMBL (unreviewed) 计算辅助预测注释信息和功能信息的蛋白序列,而都还没经过人工注释。
下载方式,物种分类格式等信息均和Swissprot一致,相关文件为:
TrEMBL Fasta file: uniprot_trembl.fasta.gz
TrEMBL Dat file: uniprot_trembl.dat.gz
7. UniRef
UniRef (UniProt Reference Clusters) 从UniProtKB(含isoform序列信息)提供的序列进行聚类。所用的种子序列是各簇中最长的序列。UniRef包含三个子库,按照序列相似度分别为UniRef100, UniRef90和UniRef50。UniRef100无相同序列,而UniRef90和UniRef50则是非冗余的,聚类相似度90%和50%。基于质谱的序列搜索都要求序列的绝对匹配,因此UniRef100适用于蛋白质组学质谱搜库。
下载方式:
PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/
EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/
Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/
包含文件:
Version info: uniref100.release_note
Fasta file: uniref100.fasta.gz
物种分类:UniRef采用以下索引库: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
8. Uniprot Proteomes
UniProt全蛋白质组数据库包含多个模式生物的全基因组蛋白表达信息。其中收集的Reference Proteome包含多个研究比较透彻或者生物研究中比较受关注的物种的最全面的蛋白质组序列信息。
下载方式:相关物种的序列数据库可以访问http://www.uniprot.org 搜索Taxonomy,并点击有关键词"Complete proteome"的物种分类,或者直接使用关键词如: (e.g. http://www.uniprot.org/uniprot/?query=taxonomy%3A4530+AND+keyword%3A%22Complete+proteome%22&sort=score )可以搜索到人类基因组的Ref Proteome。
搜索结果中点击Download,并选择格式 FASTA(Canonical)。
9. 私有数据库
蛋白质序列数据库FASTA是一个非常流行的标准格式,而且要求非常简单。因此实验室自己收集整理的序列都可以格式化成FASTA并用于搜库。
Title text
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE
SEQUENCESEQUENCESEQUENCE
Next title
NEXTSEQUENCE …
以上是一个标准的例子,> 之后是序列ID号和描述信息,然后紧跟整个序列信息,第二个蛋白重新以>开头即可。下面是一些ID和描述信息的例子。
gi|6|bgi|Contig1.seq_7|2412 3299 [+3 L= 888] [Delayed
20021010.2.1 1112073F09.y1 1112091F10.y1 1112073F0
IPI:IPI00140097.1|REFSEQ_XP:XP_168061 Tax_Id=9606
CCRB cytochrome c [validated] – rabbit
gi|129249|sp|P02820|OSTC_BOVIN Osteocalcin precursor
"ORF5 | start 2178-1309 | frame -1 | length=870 |
常用的搜库软件通常需要用户提供一个名称比较统一、符合一定规范的信息,才能将名称中ID和描述信息进行较好地分离。具体的操作需要参考不同软件的操作手册说明。