COG
全称:Clusters of Orthologous Groups from 66 complete genomes
官方网站:
构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。
通过观看其主页和说明文档,可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。
NCBI
RefSeq Gene注释,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;
Swiss-Prot数据库
来源于UniProt
UniProt 主要包括两个数据库Swiss-Prot和TrEMBL,其中关于Swiss-prot的说明:人工注释和检查过的,更可信,而TrEMBL是自动注释且未经检查的
使用的是Swiss-Prot数据库,示例:
注释结果如sp|Q27081|CFB_TACTR:
- sp表示该数据来源于Swiss Prot数据库
- Q27081表示UniprotKB 编号
- CFB为protein的缩写(Clotting factor B)
- TACTR为物种缩写(Tachypleus tridentatus)
示例网站截图:
String蛋白互作网络(protein protein interaction, PPI)分析
肿瘤研究相关数据库:
最经典的Cosmic数据库[COSMIC(https://cancer.sanger.ac.uk/cosmic/)]
全称:Catalogue of somatic mutation in cancer
- 解读用COSMIC
- drive gene:
-
sigatures
用于突变特征分析,针对点突变
考虑到突变位点上下游1 bp 位置的碱基种类,可将点突变分为96种类型。根据96种突变类型的频率,通过非负矩阵分解的方法将点突变分解为多个不同的突变特征(A,B,C),将所得的signature ABC与COSMIC种的signature做聚类分析。
CGATools
常用软件:
ABSOLUTE -- 用于CNV分析
MutSig -- 找出变异中的significant mutation gene
Oncomine
如果你获得了一个肿瘤差异表达基因,想研究其是否可作为某种肿瘤的潜在标志物和靶点,又怕做实验会得到阴性结果,浪费时间和金钱,这时候你就应该想到Oncomine数据库了。
参考网站: