UTR是否属于外显子?怎样直接从refGene中提取位置?

图片来自 花粉 山高水长369

写在前面

前一段时间帮助同事提取一些基因的UTR(Untranslated Region)在染色体上的位置。在我的印象中,UTR的概念很明确,但是定位很模糊。我知道它是位于mRNA链编码序列两端的非转录片段,但怎样从ensGene或refGene数据库中直接提取位置来,却没办法像外显子和内含子那样直截了当地给出答案。直觉让我认为UTR应该是独立于外显子和编码区以外的结构,但后来发现我似乎对它有什么误解。

UTR是外显子的一部分

为了搞清楚怎样从ensGene或refSeq数据库中直接提取5’UTR和3’UTR的位置,我先从Ensembl上搜索一个常见基因BRAC2,并选择了编码蛋白的最长转录本(ENST00000380152.7),点击红框里的内容查看每个外显子的位置。

下图展示了该转录本每个外显子和内含子的位置和序列,其中UTR的序列被标成了红色。可以看出该转录本的第一个外显子和第二个外显子的首端都是UTR区域:

最后一个外显子的末端也是UTR区域:

所以,我之前对UTR的印象是错误的,它其实是外显子的一部分。鉴于外显子是编码区(Coding Region)的一部分,故UTR也属于编码区。我从网上盗了一张我认为比较准确的基因结构关系图,放在下面:

从数据库提取UTR位置

refGene各列的意义如下: bin, name, chrom, strand, transcription start, transcription end, coding start, coding end, num exons, exon starts, exon ends, id, alt.name, coding start status (complete/incomplete), coding end status(complete,incomplete)和 exon frames。例如:

76 NM_001011874 1 - 3204562 3661579 3206102 3661429 3 3204562,3411782,3660632, 3207049,3411982,3661579, 0 Xkr4 cmpl cmpl 1,2,0,

ensGene和refGene数据库的格式基本一致,不多赘述。

其中 transcription start 和 transcription end 是编码区的转录起始和终止位置, coding start 和 coding end是CDS的起始位置和终止位置,也是起始密码子和终止密码子的位置。

因此,transcription start 和 coding start 之间的区域就是5'UTR,coding end 和 transcription end 之前的区域就是3’UTR。

参考

https://software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_utils_codecs_refseq_RefSeqCodec.php

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容