单基因搜索2——序列信息

序列信息——核酸信息为例

一般需要知道的核酸信息有

 1\. 功能简要
 2\. 基因组背景
 3\. 基因信息,包括基因序列,转录本和编码产物

有很多核酸数据库,一级核酸数据库有三个:

Genebank,EMBL,DDBJ,三个组织数据互换

我们常用的一般是美国的Genebank,就是NCBI中的Nucleotide,也可以通过Gene检索。

在NCBI的Gene数据库中检索一个基因,结果如下:

image-20201223144903777

点击我们需要种属的基因,进入详细页面,一般人类基因是最上面一个。

功能简要

在summary这一栏可以查看该基因的概要,也可以对其功能有一个简单的认识

image-20201223142120607

右方有个框Table of contents是对整个页面的索引,可以快捷链接到指定区域

image-20201223180117728
基因组背景:

可以大致查看其基因组位置和外显子数目,下面有个简单示意图表示了SUPT4H1在染色体的位置;如果想查看详细内容,可以点击右上角的Genome Date Viewer

  1. image-20201223145021849

基因信息

我们常见需要了解的就是它在人类基因组图谱的位置,他的功能(或者富集功能),序列查找等。

基因序列——Genebank

基因,我们常需要它的核酸序列文件。对于基因序列,还需要对其内外显子做一个简单的注释,以及查找到上游2000bp左右的序列,以便后续分析。

 1.如果只需要基因序列,直接点FASTA即可下载FASTA格式的序列文件,如果想详细了解该基因序列,点Genebank进入详细页,见下图方框1  
 2.在基因组图谱的tools里面也可以查看序列,或者比对引物
 3.方框3就是SUPT4H1对应的核酸序列、外显子等在基因组图谱的位置
image-20201223150720323

通过Genomic regions,transcripts,and products栏的Genebank链接到核酸数据库。

image-20201223175439621

在该详细页可以查看查询基因的详细信息,包括来源位置,版本,功能区域等,在最下面是基因的的序列。

右上角的change region shown还可以自定义更改基因组位置,查看该基因的上游或者下游序列

转录本(mRNA)——NCBI Reference Sequences(RefSeq)

要想获得目的基因转录本(可变剪切)的信息,可以在NCBI的RefSeq中查看(可以下拉页面找到,或者通过右边的索引栏目,点击 Refseq直接链接到。),如下图所示。

1. NCBI:

image-20201223180544117

这里SUPT4H1只有两个可变剪切,只有一个转录本NM_003168具有蛋白编码功能。

注:NCBI转录本信息更新较慢,可以在Ensembl里面查一下,这里Ensembl显示转录本是不止2个的,当然有些可能还没验证清楚,只是说可以纳入综合考虑。

2. Ensemble:

image-20201223182535775

NM_003168进去后的详情页和Genebank类似;更加方便的是,点击CDS后,最下面的序列会把CDS的序列标记成棕色,方便引物设计或者载体构建的时候复制序列。

image-20201223181730451
image-20201223181706647
序列下载及整合处理
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容