蛋白质和DNA序列的获取及比对

从数据库获取目标序列常用数据库:
1.NCBI
2.UCSC
3.ENSEMBL
4.Uniprot 蛋白质常用数据库
5.PDB 蛋白质常用数据库

序列比对的种类:
1.序列与已知数据库比对
BLAST、BLAT、...
2.多条序列之间比对
ClustalO、Muscle、...

多条序列之间比对,以ACE2为例。
ACE2是冠状病毒识别的重要受体。
如果我们想判断DNA/RNA/蛋白质的保守性在不同物种中的差别,我们可以用在线比对工具ClustalO做多序列比对。
ClustalO网站地址:https://www.ebi.ac.uk/Tools/msa/clustalo/


选择Protein来搜索ACE2的蛋白质序列。
然后点击Orthologs,可以对多条序列下载。

这里选择了三条序列。
然后进入ClustalO网站:

提交fasta文件后,点击最后面的submit。


用符号*表示完全匹配,用符号.表示不完全匹配但是属于同一类,用符号:表示不完全匹配,空格表示完全不匹配。

对于那些保守的序列则是我们重点关注的序列,证明它发挥了重要的功能调节作用,这可能是研究者们在之后的科学研究中比较关注的一些序列。

蛋白质功能注释

1.GO数据库
不同数据库使用不同的术语,信息查找麻烦,机器查找无章可循。
GO:Gene Ontology基因本体论。为了能够对各物种基因和蛋白质的功能进行规范性描述,并能随着研究深入而持续更新的数据库。
GO:用term(条目)来定义蛋白质功能
每种蛋白质用三种term来分类注释:
MF(Molecular function,分子功能)
BP(Biological process,生物学过程)
CC(Cellular component,细胞组分)
每种term用唯一的数字标记,比如GO:0005634 --nucleus(表明这个蛋白质位于细胞核内)
2.KEGG数据库
KEGG:京都基因和基因组百科全书
网站地址:https://www.genome.jp/kegg/
KEGG是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。
KEGG PATHWAY数据库:
Pathway注释数据库:涵盖代谢通路、调控通路、信号转导通路。
涵盖有七个一级分类:
Metabolism
Genetic Information Processing
Environmental Information Processing
Cellular Processing
Organismal Systems
Human Diseases
Drug Development
在一级分类下还含有二级分类和三级分类。
以EGFR为例。
利用KEGG数据库查询单个基因的KO number和参与的通路。




以map加后面的数字来表明这种信号通路。
长方形的黑色框表明基因或者蛋白质
小圆圈代表化学分子
弧形的框表明其他的信号通路
黑色箭头表示激活
垂直线表示抑制
虚线箭头表示两者之间发生间接作用
加p和减p表示磷酸化和去磷酸化
加g和减g表示糖基化和去糖基化

利用KOBAS进行KO/KEGG注释
KOBAS是一个用于蛋白功能注释和富集的在线网站。
官网地址:http://bioinfo.org/kobas/


将基因或基因的列表来查询,点击run。
包括pathway还有GO。点击detail会出现注释的列表,蓝色的数字点击后就会链接到官网查看很详细的注释。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容