序列信息——核酸信息为例
一般需要知道的核酸信息有
1\. 功能简要
2\. 基因组背景
3\. 基因信息,包括基因序列,转录本和编码产物
有很多核酸数据库,一级核酸数据库有三个:
Genebank,EMBL,DDBJ,三个组织数据互换
我们常用的一般是美国的Genebank,就是NCBI中的Nucleotide
,也可以通过Gene
检索。
在NCBI的Gene
数据库中检索一个基因,结果如下:
点击我们需要种属的基因,进入详细页面,一般人类基因是最上面一个。
功能简要
在summary这一栏可以查看该基因的概要,也可以对其功能有一个简单的认识
右方有个框Table of contents
是对整个页面的索引,可以快捷链接到指定区域
基因组背景:
可以大致查看其基因组位置和外显子数目,下面有个简单示意图表示了SUPT4H1在染色体的位置;如果想查看详细内容,可以点击右上角的Genome Date Viewer
基因信息
我们常见需要了解的就是它在人类基因组图谱的位置,他的功能(或者富集功能),序列查找等。
基因序列——Genebank
基因,我们常需要它的核酸序列文件。对于基因序列,还需要对其内外显子做一个简单的注释,以及查找到上游2000bp左右的序列,以便后续分析。
1.如果只需要基因序列,直接点FASTA即可下载FASTA格式的序列文件,如果想详细了解该基因序列,点Genebank进入详细页,见下图方框1
2.在基因组图谱的tools里面也可以查看序列,或者比对引物
3.方框3就是SUPT4H1对应的核酸序列、外显子等在基因组图谱的位置
通过Genomic regions,transcripts,and products
栏的Genebank链接到核酸数据库。
在该详细页可以查看查询基因的详细信息,包括来源位置,版本,功能区域等,在最下面是基因的的序列。
右上角的change region shown
还可以自定义更改基因组位置,查看该基因的上游或者下游序列
转录本(mRNA)——NCBI Reference Sequences(RefSeq)
要想获得目的基因转录本(可变剪切)的信息,可以在NCBI的RefSeq中查看(可以下拉页面找到,或者通过右边的索引栏目,点击 Refseq
直接链接到。),如下图所示。
1. NCBI:
这里SUPT4H1只有两个可变剪切,只有一个转录本NM_003168具有蛋白编码功能。
注:NCBI转录本信息更新较慢,可以在Ensembl里面查一下,这里Ensembl显示转录本是不止2个的,当然有些可能还没验证清楚,只是说可以纳入综合考虑。
2. Ensemble:
点NM_003168
进去后的详情页和Genebank类似;更加方便的是,点击CDS后,最下面的序列会把CDS的序列标记成棕色,方便引物设计或者载体构建的时候复制序列。