基因结构

一、基因结构包括编码区(CDS)和非编码区

1. 编码区

编码区:不连续的基因结构,包含外显子和内含子,它们交替出现。CDS序列以ATG开始,起始密码子只有这一个,并且在外显子中。

(1)外显子:编码区中不连续的具有蛋白编码功能的DNA序列。第一个外显子的头部是蛋白翻译的起始密码子;最后一个外显子的尾部是终止密码子。

(2)内含子:编码区中外显子之间间隔的非编码序列。

外显子与内含子的邻接部位是一段高度保守的序列:外显子尾巴与下一个内含子的头部多数是GT,内含子的尾巴与下一个外显子的头部多数是AG,可以简单记做GT-AG法则,作为RNA剪切的识别信号。

DNA→ pre-mRNA(mRNA前体)→ mRNA,其中pre-mRNA中包括了外显子和内含子,成熟的mRNA只剩外显子。

(3)开放阅读框(ORF):从DNA的起始密码子(ATG)到终止密码子(TAA、TGA、TAG)的碱基序列,且不包含终止密码子。

2. 非编码区

非编码区:又叫侧翼序列(flank),是编码区第一个外显子和最后一个外显子之间以外的区域,这个区域中包含了启动子、终止子、增强子等调控元件。一个基因中有外显子和内含子,但是基因和基因也不是连续的,它们之间的区域就不是内含子了,而是叫做基因区间,同样属于非编码序列。

(1)上游侧翼:第一个外显子以外的序列,包含启动子区域。

启动子(promoter):与RNA聚合酶特异性结合。启动子虽然感觉和起始相关,但是它既不属于外显子也不属于内含子,它是非编码区序列

TATA 框:第一个外显子的5'转录起始位点(TSS)上游大约20-30个碱基的位置,是TATA box,包含的碱基位置是TATAATAAT,保证RNA聚合酶可以准确识别转录起始位点并开始转录过程。总而言之,它影响转录起始。

CAAT 框:第一个外显子的5'转录起始位点上游大约70-80个碱基的位置,是CAAT box,包含的碱基位置是GGCTCAATCT,它是另一个RNA聚合酶的结合位点,它不影响转录起始,但可以控制转录起始频率。另外CAAT box两侧是GC box,包含的碱基是GGCGGG,起到转录调节、激活转录的功能。

增强子:一般位于TSS上游大约100个碱基以外,具有增强转录的作用,但是不用于启动基因转录。

沉默子:抑制DNA的转录过程,从而抑制翻译,最常见是位于启动子上游。有时也会出现在启动子下游、基因本身内含子或外显子上;另外在下游侧翼的3'非翻译区也发现了沉默子。

(2)下游侧翼:最后一个外显子以外的序列,包含终止子序列。

首先在最后一个外显子的终止密码子下游有一个AATAAA序列,这个序列主要参与mRNA 的多聚腺苷酸化过程。多聚腺苷酸化就是得到polyA尾巴之前,mRNA的3'端会水解掉10-15个碱基。这个序列的作用就是作为RNA裂解的信号,指导核酸内切酶在此信号下游10~15碱基处裂解 mRNA。之后就是聚合酶作用使得3'端加上polyA变成成熟mRNA。

AATAAA序列再往下到转录终止位点(TTS)之前,是一个反向重复序列(7-20个碱基对),转录后形成一个发卡结构,可以阻碍RNA聚合酶移动,终止转录。

注意:起始密码子和终止密码子都在外显子上,位于编码区;但是,转录起始位点TSS和转录终止位点TTS都在非编码区,TSS在启动子区下游&起始密码子上游,TTS在终止子区下游&终止密码子下游。

二、RNA进化过程中的结构变化

(1) pre-mRNA → mature mRNA:pre-mRNA(前体mRNA)就是从转录起始位点TSS到终止位点TTS,还需要进行内含子剪切,5'加帽子结构,3'加PolyA修饰,才可以形成成熟mRNA。

(2)mature mRNA:包括编码区、5'UTR、3'UTR、5'帽子结构、3'polyA尾。

UTR:mRNA两端的非编码序列。UTR在DNA序列中算是外显子exon的部分。

5'UTR:上游非编码区,位于5'帽子与起始密码子(AUG)之间

3'UTR:下游非编码区,位于编码区末端的终止密码子到3’尾巴之间

5'帽子:作用就是帮助mRNA跨过核膜,进入胞质,并且此过程中保护5‘不被降解;翻译时保证IFiii和核糖体识别。

3’poly-A尾巴:作用也是帮助mRNA跨过核膜,进入胞质,并且增加了mRNA在胞质中存在的稳定性。因为mRNA的降解过程是随着时间延长,A尾逐渐变短。

单顺反子mRNA:只编码一个蛋白的mRNA。

多顺反子mRNA:编码多个蛋白。

转载:https://www.jianshu.com/p/705a93f9db36

三、CDS、cDNA、ORF等等傻傻分不清

真核生物:

下面先从真核生物开始,小编在网上找了个图片,希望原作者不要见怪。

图片

大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。基因中的编码序列称为外显子(exon),而基因中的非编码序列称为内含子(intron)。在一个结构基因中,编码某一蛋白质不同区域的各个外显子并不是连续地排列在一起的,而是常常被长度不同的内含子所隔离,形成镶嵌排列的断裂方式。

我们常说的“基因”严格来讲是指:负载特定生物遗传信息,能够产生一条多肽链或功能RNA所必需的DNA分子片段,不但包括编码区,还包括5'-端和3'-端两侧特异性序列,虽然这些序列不编码氨基酸,但在基因表达的过程中起着重要的作用。

1. mRNA:

大家平时接触较多的转录组测得是mRNA,并不是严格意义上的基因,而是基因信息的载体,称作Messenger RNA (mRNA)--信使核糖核酸,如下如所示:

图片

真核生物mRNA一般由5′端帽子结构、5′端UTR区、编码区、3′端UTR区和3′端聚腺苷酸尾巴构成,真核生物mRNA通常都有相应的前体。从DNA转录产生的原始转录产物可称作 原始前体(或mRNA前体)。一般认为原始前体要经过hnRNA核不均-RNA的阶段,最终才被加工为成熟的mRNA。所以,生物汪嘴里经常说的什么启动子、增强子、沉默子、顺式作用元件等都是DNA序列上的结构概念,mRNA里面是不包含的!

2. cDNA:

cDNA是以mRNA为模板,在适当引物的存在下,由mRNA经过反转录而得到的DNA,是mRNA链互补的DNA链,其内部已无内含子等结构,值得说明的是,目前火热的二代测序均是先将RNA反转录组成cDNA再进行测序的。

3. CDS与ORF:

这是一个经常被人混淆的两个概念;

  • CDS是Coding sequence的缩写,是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列,注意其与mRNA序列的差异;
  • ORF是open reading frame的缩写,翻译成开放阅读框,是指从一个起始密码子开始到一个终止密码子结束的一段序列,但并不是所有读码框都能表达出蛋白产物;CDS必定是一个ORF,但也可能包括多个ORF,相反,每个ORF不一定都是CDS。

4. 单拷贝基因与基因家族

单拷贝基因指在基因组中只出现一次,多是编码蛋白质的基因,真核生物中有25%~50%的基因是以单个基因存在的,而其余编码蛋白质的基因以基因家族形式存在;基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

5. 假基因

假基因也叫伪基因,他是基因家族在进化过程中形成的无功能的残留物。它与正常基因相似,但丧失正常功能的DNA序列,往往存在于真核生物的多基因家族中,一般情况都不被转录,且没有明确生理意义。

原核生物:

原核基因组结构较真核生物要简单很多,一般只有一个环状的DNA分子,基因组中无内含子,少有的重复序列,多为单拷贝基因。

原核生物( 包括病毒) 的mRNA 多是多顺反子,即可以有几个基因同时被转录成一个mRNA,共同使用一个启动调控区,而真核生物多是单顺反子,即一次只转录出一个基因;原核生物mRNA与真核不同,无5′端帽子结构和3′端聚腺苷酸尾巴。

参考:
https://www.jianshu.com/p/cc5cd7053d6e
https://blog.csdn.net/qq_36608036/article/details/100690940
http://www.360doc.com/content/19/0415/11/52645714_828900304.shtml

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 226,979评论 6 528
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,750评论 3 412
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 174,647评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,299评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,104评论 6 405
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,623评论 1 320
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,716评论 3 434
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,873评论 0 285
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,380评论 1 330
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,344评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,496评论 1 365
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,055评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,756评论 3 343
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,146评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,410评论 1 281
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,072评论 3 386
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,485评论 2 370

推荐阅读更多精彩内容

  • 基因(遗传因子) 是产生一条多肽链或功能RNA所需的全部核苷酸序列。带有遗传信息的DNA片段称为基因。(百度百科)...
    生信小工厂阅读 28,015评论 0 27
  • 基因结构包括编码区(CDS)和非编码区 编码区:不连续的基因结构,包含外显子和内含子,它们交替出现。CDS序列以A...
    Sepine阅读 8,475评论 2 84
  • 自从孟德尔用不同表型的豌豆品种进行杂交试验以探讨生物的遗传规律以来,一部遗传学的发展史反映了人类对基因不断...
    HHBA阅读 5,712评论 0 16
  • 基因在结构上,分为编码区和非编码区两部分。 调控序列(Regulatory sequence): 是DNA中一段包...
    Wei_Sun阅读 2,585评论 0 9
  • 顺式元件(cis element) Promoter(启动子):与RNA聚合酶结合并能起始mRNA合成的序列。一般...
    江湾青年阅读 6,168评论 0 12