今天突然发现enseml数据库感觉比NCBI数据库好用。尤其对于我这种小白来说。
我的任务就是找到果蝇中编码漆酶的基因序列,该序列转录之后形成的转录本,以及这些转录本翻译成的蛋白质是什么。
这样就到达了果蝇漆酶2的基因组的界面,从这里我们可以看到果蝇漆酶2的ensembl的ID号是:FBgn0259247.这个ID的命名是由规律的,FB代表的是果蝇这一个物种,gn代表的是这是一个基因。如果我们再看下面,就会看到有一个Transcript ID,我们可以看到,它也是FB开头,但是后面跟着的是tr,这可能代表的就是转录本的意思。
除此之外我们还可以看到laccase2位于果蝇染色体2R的第5413744个碱基到5456095个碱基上,也就是这个基因内含子加外显子总共长42352bp。
在最下面我们还可以看到这个基因由于可变剪接形成了5个转录本,可以看到他们的名字,ID,序列长度,以及编码的蛋白质的氨基酸的个数,接下来是Uniprot,它显示的是该转录本在Uniprot数据库中的版本号( accession number),这个版本号的命名规则可以看http://www.biotrainee.com/thread-411-1-3.html
真心觉得总结的很好,自己学到了很多。
并且可以链接到该数据库中去。最后一列是5种转录本在NCBI的Refseq数据库中中的ID号。Refseq是一个去掉冗余的数据库,它为基因组注释提供了参考。对于它的ID号来说,基因组DNA以NC_####这种格式。转录组中如果是mRNA,则是NM_####这种格式,如果是非编码RNA,则是NR_####这种格式。如果是蛋白的话,是以NP_####为模板的这种形式。所以在最后一列,可以看到有5个NM_开头的,这是他的5个转录本,最后一个是NP_开头的,这对应于每一个转录本翻译出来的蛋白质。