从数据库获取目标序列常用数据库:
1.NCBI
2.UCSC
3.ENSEMBL
4.Uniprot
蛋白质常用数据库
5.PDB
蛋白质常用数据库
序列比对的种类:
1.序列与已知数据库比对
BLAST、BLAT、...
2.多条序列之间比对
ClustalO、Muscle、...
多条序列之间比对,以ACE2为例。
ACE2是冠状病毒识别的重要受体。
如果我们想判断DNA/RNA/蛋白质的保守性在不同物种中的差别,我们可以用在线比对工具ClustalO做多序列比对。
ClustalO网站地址:https://www.ebi.ac.uk/Tools/msa/clustalo/
选择Protein来搜索ACE2的蛋白质序列。
然后点击Orthologs,可以对多条序列下载。
这里选择了三条序列。
然后进入ClustalO网站:
提交fasta文件后,点击最后面的submit。
用符号*表示完全匹配,用符号.表示不完全匹配但是属于同一类,用符号:表示不完全匹配,空格表示完全不匹配。
对于那些保守的序列则是我们重点关注的序列,证明它发挥了重要的功能调节作用,这可能是研究者们在之后的科学研究中比较关注的一些序列。
蛋白质功能注释
1.GO数据库
不同数据库使用不同的术语,信息查找麻烦,机器查找无章可循。
GO:Gene Ontology基因本体论。为了能够对各物种基因和蛋白质的功能进行规范性描述,并能随着研究深入而持续更新的数据库。
GO:用term(条目)来定义蛋白质功能
每种蛋白质用三种term来分类注释:
MF(Molecular function,分子功能)
BP(Biological process,生物学过程)
CC(Cellular component,细胞组分)
每种term用唯一的数字标记,比如GO:0005634 --nucleus(表明这个蛋白质位于细胞核内)
2.KEGG数据库
KEGG:京都基因和基因组百科全书
网站地址:https://www.genome.jp/kegg/
KEGG是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。
KEGG PATHWAY数据库:
Pathway注释数据库:涵盖代谢通路、调控通路、信号转导通路。
涵盖有七个一级分类:
Metabolism
Genetic Information Processing
Environmental Information Processing
Cellular Processing
Organismal Systems
Human Diseases
Drug Development
在一级分类下还含有二级分类和三级分类。
以EGFR为例。
利用KEGG数据库查询单个基因的KO number和参与的通路。
以map加后面的数字来表明这种信号通路。
长方形的黑色框表明
基因或者蛋白质
小圆圈代表
化学分子
弧形的框表明
其他的信号通路
黑色箭头表示
激活
垂直线表示
抑制
虚线箭头表示两者之间
发生间接作用
加p和减p表示
磷酸化和去磷酸化
加g和减g表示
糖基化和去糖基化
利用KOBAS进行KO/KEGG注释
KOBAS是一个用于蛋白功能注释和富集的在线网站。
官网地址:http://bioinfo.org/kobas/
将基因或基因的列表来查询,点击run。
包括pathway还有GO。点击detail会出现注释的列表,蓝色的数字点击后就会链接到官网查看很详细的注释。