为了使NCBI的资料库发挥更大的进阶应用价值,NCBI研究团队发展许多可以做生物医学资料採矿与资料分析的检索与分析工具。在此依工具的使用目的将其分为六大类,每大类下分别包含工具的名称与简介,作为研究人员在选择工具时的参考。
1.资料检索--文章词语搜寻
‧ Entrez一提供核酸、蛋白质、蛋白质3D结构Entrez:提供核酸、蛋白质、蛋白质3D结构、基因体图谱资讯、PubMed MEDLINE文献等整合式查询。序列资料的来源包括GenBank、EMBL、DDBJ、RefSeq、PIR-International、PRF、Swiss-Prot与PDB(网址:http://www.ncbi.nlm.nih.gov/Entrez/)。
特性:
(1)对每一个资料库纪录做预先的相似性搜寻计算,以鉴别该资料的相关纪录。
(2)提供整合性跨资料库服务,可从一个资料库的纪录连结至其他资料库的相关纪录。
‧ Batch Entrez一使使用者可在背景执行,从Entrez取得大量核酸与蛋白质序列资讯,而使用者只需输入含GI或Accession Number的名单即可。查询结果可直接储存在使用者的电脑中(网址:http://www.ncbi.nlm.nih.gov/entrez/batchentrez.cgi?db=Nucleotide)。
‧ LinkOut一在Entrez的文章、期刊或生物资料建立连结到外部网页连结之注册服务。欲建立连结者可提供网址、资源名称、简短的网页描述与想建立的NCBI资料规格书即可(网址:http://www.ncbi.nlm.nih.gov/entrez/linkout/doc/linkoutoverview.html)。
‧ Cubby一使Entrez使用者储存与更新搜寻,并且订做他们的LinkOut设定。需填写注册申请书申请使用权限(网址http://www.ncbi.nlm.nih.gov/entrez/login.fcgi?call=so.SignOn..Login)。
‧ Citation Matcher一可查询PubMed 资料库的PubMed ID或MEDLINE UID,提供文献的目录资讯(网址:http://www.ncbi.nlm.nih.gov/entrez/query/static/overview.html#Citation%20Matcher)。
‧ Taxonomy Browser一用来查询生物分类资料库的查询工具,可由生物学名、俗名或较高层级分类查询生物与分类血缘,同时可获得核酸、蛋白质、结构与基因体资讯,并且可向上或向下查询分类树(Taxonomic tree)(网址:http://www.ncbi.nlm.nih.gov/Taxonomy/)。
2.序列相似度搜寻
‧ BLAST一Basic Local Alignment Search Tool一核酸与蛋白质序列比对工具。BLAST网页提供提供BLAST(Basic Local Alignment Search Tool)程式、概述、使用说明与常见问题解答(网址:http://www.ncbi.nlm.nih.gov/BLAST/)。BLAST程式包括:
(1) 核酸BLAST:
‧ blastn程式一核酸序列比对。
‧ MegaBLAST一可搜寻一批EST序列、长序列cDNA或基因体序列。
(2) 蛋白质BLAST:
‧ blastp程式一蛋白质序列比对。
‧ PHI-BLAST程式一Pattern Hit Initiated BLAST(Zhang, et al., 1998)
一输入蛋白质序列查询蛋白质资料库,搜寻是否存在某种特定序列形式的BLAST程式。
‧ PSI-BLAST程式一Position-Specific Iterated BLAST(Altschul, et al., 1997)
一输入蛋白质序列查询蛋白质资料库,搜寻是否属于某个蛋白质家族的BLAST程式。
(3)转译BLAST搜寻:
‧ blastx程式一核酸序列与蛋白质资料库比对。
‧ tblastn程式一蛋白质序列与转译核酸资料库比对。
‧ tblastx程式一核酸序列与转译核酸资料库比对。
(4)保留区搜寻:
‧ RPS-BLAST程式一Reverse Position-Specific BLAST一输入蛋白质序列查询Conserved Domain Database(蛋白质保留区资料库),搜寻是否存在保留区的BLAST程式。
‧ CDART工具一利用RPS-BLAST比对蛋白质输入序列与CDD资料库。
(5)两条序列比对:
‧ BLAST 2 Sequences程式一2条核酸或蛋白质序列比对。
(6)基因体BLAST一使用BLAST程式比对输入序列与生物染色体资料库。目前提供的生物染色体有人类、小鼠、大鼠、Fugu rubripes、斑马鱼、果蝇、Anopheles gambiae、Saccharomyces cerevisiae、Malaria、微生物、阿拉伯芥与水稻等基因体。
(7) Taxonomy BLAST一使用BLAST程式将Taxonomy资料库的生物做分类。生物种类依输入序列比对的相似性由高至低列出。
(8)特殊BLAST:
‧用BLAST比对dbSNP资料库。
‧ IgBLAST一分析GenBank的免疫球蛋白序列,使用blastp或blastn程式搜寻人类与老鼠基因的nr或特定资料库。IgBLAST的3个主要功能:(a)报告输入序列之变异区、D或J区域;(b)根据Kabat等人的论文注解免疫球蛋白区(FWR1~FWR3);(c)简化搜寻核酸或蛋白质nr资料库的过程。
‧ VecScreen一侦测载体是否受污染的BLAST程式。
(9)从存在的Request ID(RID)检索结果:因为有QBLAST程式的辅助,因此使用者在执行所有的BLAST程式查询时,执行结果都会被给予一个RID(Request ID),BLAST伺服器可储存24小时之内的RID。如果使用者需要取得24小时内执行过的BLAST程式结果,只需输入RID即可取得资料,不需从新执行程式。使用者可以自行设定结果呈现的方式,比较相同结果不同呈现格式上的差异。
3.核酸序列分析
‧ BLAST网页一提供BLAST(Basic Local Alignment Search Tool)
程式、概述、使用说明、常见问题解答与各种BLAST程式(请参考2.序列相似度搜寻)(网址:http://www.ncbi.nlm.nih.gov/BLAST/)。
‧ e-PCR-Electronic PCR一比对输入序列与Sequence-tagged sites(STSs)的工具,以预测输入序列在PCR反应时在染色体图谱中的可能位置。e-PCR搜寻UniSTS资料库(网址:http://www.ncbi.nlm.nih.gov/genome/sts/epcr.cgi)。
‧ HomoloGene一基因相似度比对工具,可比较一对生物的核酸序列,用以认定是否为同源,并经由LocusLink合併各种资源管理同源资料(网址:http://www.ncbi.nlm.nih.gov/HomoloGene/)。
‧ ORF Finder一为分析原核生物序列而设计分析工具,藉由找出序列的起始与终止位置,搜寻输入序列所有Open reading frames的图形化工具。此工具被包装在Sequin程式中(网址:http://www.ncbi.nlm.nih.gov/gorf/gorf.html)。
‧ CloneFinder一将BAC end sequences(BES)与基因体序列比对,用来鉴定Clone中是否含特定基因区域。目前只能用来检索小鼠序列(网址:http://www.ncbi.nlm.nih.gov/genome/clone/clonefinder/CloneFinder.html)。
‧ SAGEmap一Serial Analysis of Gene Expression-SAGE是一种分析基因表现的定量实验技术。SAGEmap是比较Cancer Genome Anatomy Project(CGAP)所产生的基因表现资料与Gene Expression Omnibus(GEO)所产生的基因表现资料的线上分析工具(网址:http://www.ncbi.nlm.nih.gov/SAGE/)。
‧ Sequin一NCBI发展的软体工具,为独立(stand-alone)使用的或TCP/IP-based “network aware”模式,用来提交一笔或几笔纪录、长序列、完整基因体、比对资料、族群/演化/突变的资料,作为提交与更新GenBank、EMBL或DDBJ序列资料库之的一个上传工具,此工具包含ORF Finder、比对Viewer/Editor与Entrez连结(上传资料前,请先用VecScreen工具侦测核酸序列侦测核酸序列是否为载体、连接体(Linker)或转接器(adapter),以避免序列感染)(网址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
‧ BankIt一在WWW使用的提交工具,用来提交一笔或几笔纪录,可使提交资料的过程更快且更容易(上传资料前,请先用VecScreen工具侦测核酸序列是否为载体、连接体或转接器,以避免序列感染)(网址:http://www.ncbi.nlm.nih.gov/BankIt/)。
‧ Spidey一mRNA序列比对至基因体序列的比对程式,模拟可能的基因体Exon/Intron结构。因为Spidey可忽略intron大小,因此可以避免假基因与相异血缘关係序列比对时的错误。Spidey的模型结合比对演算法与归纳法,可执行物种外与物种间的比对(网址:http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/)。
‧ UniGene DDD-Digital Differential Display一比较cDNA库间基因表现的线上分析工具,可显示不同组织的不同基因表现程度(网址:http://www.ncbi.nlm.nih.gov/UniGene/ddd.cgi?ORG=Hs)。
‧ VecScreen一在序列分析或提交前,鉴定核酸序列是否为载体、连接体或转接器,以避免序列感染。VecScreen工具使用UniVec资料库比对输入序列(网址:http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)。
4.蛋白质序列分析
‧ BLAST网页一提供BLAST(Basic Local Alignment Search Tool)程式、概述、使用说明、常见问题解答与各种BLAST程式(请参考2.序列相似度搜寻)(网址:http://www.ncbi.nlm.nih.gov/BLAST/)。
‧ CD-Search-The Conserved Domain Search Service(CD-Search)一用来找出蛋白质的保留区。CD-Search使用RPS-BLAST比对输入序列与Conserved Domain Database(CDD)的蛋白质序列资料,亦同时比对蛋白质的3D结构(用Cn3D展示),不同序列的保留程度用不同的顏色表示(网址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
‧ COGnitor一比较输入序列与COGs资料库,以找出与此序列同源的群集(网址:http://www.ncbi.nlm.nih.gov/COG/cognitor.html)。
‧ Conserved Domain Architecture Retrieval Tool(CDART)一由相似的蛋白质结构分析蛋白质输入序列的功能区,并列出具有相似区域结构的蛋白质。CDART是利用RPS-BLAST比对蛋白质输入序列与CDD资料库(网址:http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps)。
‧ TaxPlot一使用3种生物的基因体的蛋白质序列互相比对,用以比较基因体的差异性。使用时,选择一个参考的基因体,做为另外两个基因体的参考标準,然后预先使用BLAST计算的参考基因体蛋白质预测结果即可与另外两个基因体的蛋白质预测结果做比对,画出生物分类图形(网址:http://www.ncbi.nlm.nih.gov/sutils/taxik2.cgi?)。
5. 3-D结构展示与相似度搜寻
‧ Cn3D一“See in 3-D”一结构与序列比对的图形化工具,可看3D结构图形与序列-结构或结构-结构比对。Cn3D可读取MMDB的资料(网址:http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml)。
‧ VAST search一结构一结构比对的工具。比较新蛋白质与MMDB/PDB资料库的3D座标。VAST Search可找出相似的结构,用分子图形使使用者看到重叠区与比对区(网址:http://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html)。
‧ CD-Search一The Conserved Domain Search Service(CD-Search)一用来找出蛋白质保留区的分析工具。CD-Search使用RPS-BLAST比对输入序列与Conserved Domain Database(CDD)的蛋白质序列资料,亦同时比对蛋白质的3D结构(用Cn3D展示),不同序列的保留程度用不同的顏色表示(网址:http://www.ncbi.nlm.nih.gov/Sequin/index.html)。
‧ Threading一利用已知结构与计算能量预测蛋白质序列的3-D结构(网址:http://www.ncbi.nlm.nih.gov/Structure/RESEARCH/threading.shtml)。
6.基因体与图谱工具
‧ Map Viewer一Entrez Genomes软体元件之一,提供瀏览与搜寻17种生物完整基因体的功能,呈现染色体图谱,并且可进一步查询特定染色体区域的序列资料。Map Viewer可鉴定与定位基因,因此对疾病基因的发现具有贡献。检视所有或单一染色体图谱的工具,可用来查询基因的位置、序列资料与基因间的距离,并可整合每一条染色体的图谱或染色体特定区域的序列资料。整合染色体图谱的方式是比对共同的标记或基因名;而序列图谱的整合是利用共通的序列座标系统。目前提供的生物图谱包括阿拉伯芥(Arabidopsis thaliana)、果蝇、人类、小鼠与玉米等(网址:http://www.ncbi.nlm.nih.gov/mapview/)。
小结
生物信息学的应用领域包含了:(一)资料库的建立与整合、(二)序列分析、(三)结构/功能分析、(四)实验资料分析与(五)知识管理,而NCBI将这些领域的应用发展推向极至。随著新型态的生物资料陆续产生,生物资讯的应用将还有无限大的空间等待我们挖掘;而生物资料库与生物资讯分析工具亦将随著新资料与新问题的产生永无止境的发展下去。
(注:本文资料来源为NCBI(National Center for Biotechnology)网站(网址http://www.ncbi.nlm.nih.gov/)所提供之网站资料所整理而成)。