UniProt数据库——蛋白质数据库
UniProt(Universal Protein)数据库是信息最丰富、资源最广的蛋白质数据库。常用的是UniProtKB,它是收集蛋白质功能信息的中心枢纽,拥有准确、一致和丰富的注释。除了为每个UniProt条目捕获必须的核心数据(主要是氨基酸序列、蛋白质名称或描述、分类数据和引文信息),还添加了尽可能多的主食信息。
UniProtKB/Swiss-Prot:高质量的、注释的、非冗余的数据集,这些数据都是有质量保证的。
UniProtKB/TrEMBL:该数据集高质量的计算分析结果,需要我们手工注释。
Entry:是Uniprot给每个蛋白质赋予的独一无二的ID
Entry name:是蛋白ID的简要名字
Protein names:蛋白质的名字
Gene names:编码这个蛋白的Gene名字
Organism:蛋白质的种属来源
Length:氨基酸长度
详细信息界面,首先介绍的是「Function」,该板块会罗列出蛋白的基本功能及参与的生物学过程,这应该也是科研人员最关心的问题,具体的序列和结构只是为了方便研究或者更加深入理解蛋白的功能。每句介绍后的链接即是相应的参考文献( Publications),可以根据需要点击查阅。“By similarity”链接到最相似的蛋白,往往是不同种属中的相同蛋白,也就是同源蛋白(直系同源基因是同源基因,进化后分化形成不同的物种,这种现象被称为物种形成。这些基因通常与它们进化而来的祖先基因保持着相似的功能)。很多蛋白在进化过程中是高度保守的,也就是说他们的蛋白序列非常相似或者相同,这一类蛋白往往有非常强大的功能,参与多种生命活动或生物学功能。
命名和来源种属信息:(Name&Taxonomy)板块展示的是该蛋白的名称(基因名称、同义词)和来源种属信息以及NCBI和Enzembl的基因数据库链接。
亚定位(Subcellular location)包含蛋白的细胞亚定位信息。
翻译后修饰:在(PTM/Processing)部分,UniProt数据库会列举蛋白合成过程中的分子加工、氨基酸修饰及翻译后修饰,比如剪切、糖基化等。修饰过后的蛋白质分子质量就会增加。这也是为什么有些抗体的实际检测分子量和预测分子量有差别的原因之一。
GeneCards基因名片数据库(https://www.genecards.org/)GeneCards由非盈利组织构建的一个整合型的生物信息数据库,该数据库提供了人力目前已注释的、可预测的所有基因的详细信息,并自动集成了来自约150个数据源的以基因为中心的数据,包括基因组、转录组、蛋白质组、遗传学、临床和功能信息。
OMIM(Online Mendelian Inheritance in Man)数据库,中文称在线人类孟德尔遗传数据库。OMIM侧重于疾病表型与其致病基因之间的关联。
需要注意的是:这个网站是于研究和教育的,注册需要正式邮箱(我用学校邮箱注册的)。如果Gmail,Yahoo,http://126.com,http://163.com或http://qq.com的电子邮件地址将被网站自动拒绝。
OMIM数据库包括1.gene entry基因条目;2.allelic variations 等位基因变异;3.gene map 基因图谱;4.phenotypic series 表型系列;5.phenotype entry 表型条目;6.clinical synopsis 临床提要;7.external links 外部链接
首先在搜索条中搜索某个疾病或者基因,双击高亮链接(也就是包含关键词的目的链接),会出现一个界面。
location代表相关基因在染色体中的位置;phenotype代表基因相关的表型;phenotype MIM number代表表型的MIM编号;inheritance代表遗传,是指该基因的遗传类型,如AD是指常染色体显性遗传,SMu是指体细胞突变,鼠标点击缩写符号就会出现不同缩写代表的具体含义;phenotype mapping key代表表型映射关键,3代表该疾病的分子基础是已知的;Gene/Locus代表对应的基因或位点;Gene/Locus MIM number代表对应的基因或基因座MIM编号。点location还能显示该位置在同一个染色体相邻的基因列表以及引发的各种疾病.
OMIM与其说它是个数据库,不如说它是个工具书,它能够让你从基因到DNA到染色体到蛋白质到表型全方位的去认识一个疾病。
DisGeNET数据库(http://www.disgenet.org/home/)
人类疾病遗传的基础是精准医学和药物发现的核心。数据的可用性、碎片化、异构性和概念描述的不一致是疾病机制研究必须克服的问题。DisGeNET收集了大量与人类疾病相关的变异和基因。DisGeNET整合了公共数据库、GWAS目录、动物模型和科学文献的数据。该数据库的数据采用了统一的标准进行注释。此外,还提供了一些原始指标,以帮助确定基因型与表型关系的优先级。可以通过web接口,Cytoscape应用程序(插件)、R访问这些信息。DisGeNET是一个多功能平台,可用于不同的研究目的包括特定的人类疾病的分子基础及其并发症的研究,致病基因特性分析,辅助构建药物治疗作用及药物不良反应假说,疾病候选基因的验证及文本挖掘方法的评价性能。
R Package :
在R上安装disgenet2r包后后既可以进行DisGeNET数据库搜索,也可以进行可视化。但值得注意的是该R包目前的基于 DisGeNET v5.0 (May, 2017)。安装和使用示例如下:
安装:
##The package,disgenet2rcan be installed usingdevtoolsfrom this repository:
library(devtools)
install_bitbucket("ibi_group/disgenet2r")
数据库检索示例:
##以基因为检索词进行检索
library(disgenet2r)
gq<-disgenetGene(gene=3953,
database="ALL",
score=c(">",0.1))
##以疾病为检索词进行检索
library(disgenet2r)
dq<-disgenetDisease(disease="umls:C0028754",
database="ALL",
score=c('>',0.3))
安装:
需要预装Cytoscape,然后直接在Cytoscape安装DisGeNET插件。
Cytoscape App主要功能就是将DisGeNET的数据用networks的形式进行展示,主要包括以下几个方面:
a) Generate gene-disease networks:即基因和疾病间networks,例如HPO数据库中Asthma基因和疾病间networks示例如下:
b) Generate variant-disease networks:即变异和疾病间networks,示例如下
c) Generate gene or disease projection networks:即基因-基因间或者疾病-疾病间的networks,示例如下
d) Create networks by DisGeNET association type:即检索某一关联关系,并将其可视化,如下面的The CURATED GDA network for CausalMutations
e) Create networks by disease class:对某一类疾病建立network,如下是营养代谢病network
f) Create networks by gene, disease, or variant:可以不限制具体哪两个(基因、变异、疾病)间的关系,而是通过过滤条件得到network,例如可以从以下几方面进行过滤:Source, Association Type,Disease Class, Score。下面是以MECP为检索词,过滤条件为Mental Disorders时构建的网络
g) Multiple entity search in the DisGeNET App:包括匹配某一关键字的疾病或者基因的元素间构建网络、基于基因/变异列表构建网络。如下图是CTD数据库中Alzheimer相关的基因,包含了Alzheimer的所有亚型。
DisGeNET部分作者:bioyangyang
链接:https://www.jianshu.com/p/21244a67e3d1
其余内容来自网络,侵删。