DNA甲基化是一种被广泛研究的表观遗传修饰方式,与组蛋白修饰等方式一起,在调控基因表达和染色质构象等方面发挥了重要作用。通常地,甲基化DNA指5-甲基胞嘧啶(5mC),它是在DNA甲基转移酶(DNMT)的作用下将甲基基团添加到胞嘧啶的5’C位置上形成的(Vertino PM, 1996)。哺乳动物细胞中甲基化主要发生在CG双核苷酸的胞嘧啶上(Goldberg AD, 2007),植物细胞中则存在很大比例的non-CG(CHH、CHG,H代表A、C、T)甲基化(Jackson JP, 2002)。
1. 定义
在DNA甲基转移酶(DNA methyltransferase, 缩写DNMT)的作用下,基因组DNA序列上CpG岛的二核苷酸5′端胞嘧啶转变为5′甲基胞嘧啶(5′ methylcytosine, 缩写5mC)。
DNA甲基化(DNA methylation)是研究得最清楚,也是最重要的表观遗传修饰形式; 主要是基因组 DNA上的胞嘧啶第5位碳原子和甲基间的共价结合,胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine,5mC)。
DNA甲基化在维持正常细胞的功能、雌性个体X染色体失活、寄生DNA序列的抑制、基因组结构稳定、遗传印记、胚胎发育、及肿瘤和疾病的发生、发展紧密相关,具有至关重要的作用。
2. 甲基化类型
在哺乳动物中, DNA甲基化类型可分为: 维持甲基化(maintenance DNA methylation) 和 重新甲基化(de novo methylation)。
维持甲基化是指在甲基转移酶的作用下,DNA的半保留复制过程中,会在子链的相应的位置进行甲基化修饰的过程。
重新甲基化是指在甲基转移酶的作用下,原来没有甲基化的DNA双链上,进行甲基化的过程,之后由维持甲基化酶来维持稳定的DNA甲基化状态。
对于这两种甲基化机制来说,有两种对应类型的甲基化酶:维持甲基转移酶和重新甲基转移酶。有文章详细的研究了甲基化相关酶的作用机制:
<Reversing DNA Methylation: Mechanisms, Genomics, and Biological Functions>
维持甲基化是指在甲基转移酶的作用下,DNA的半保留复制过程中,会在子链的相应的位置进行甲基化修饰的过程。(DNA复制后,新合成链在DNMT1的作用下,以旧链为模板进行甲基化。(缺乏严格的精确性,95%))
重新甲基化是指在甲基转移酶的作用下,原来没有甲基化的DNA双链上,进行甲基化的过程,之后由维持甲基化酶来维持稳定的DNA甲基化状态(甲基化并非基因沉默的原因而是基因沉默的结果,其以某种机制识别沉默基因,后进行甲基化)。
重新甲基化引发因素可能包括:
1). DNA本身的序列、成分和次级结构。
2). RNA根据序列同源性可能靶定的区域。
3).特定染色质蛋白、组蛋白修饰或相当有序的染色质结构。
3. 甲基化&癌症
已有的研究表明胚胎的正常发育非常依赖于基因组DNA的适当甲基化,任何一种甲基转移酶的缺失,都可导致小鼠胚胎发育的中止而死亡。
此外,各种肿瘤中都普遍存在DNA甲基化状态的异常改变,且异常的DNA甲基化状态是肿瘤的重要特征之一。
小鼠的体外实验和体内实验都已表明,全基因组水平的去甲基化可能导致整个基因组的不稳定,从而增加肿瘤的发生几率。
抑癌基因启动子区域CpG岛的高甲基化,是诸多癌症发生早期的重要事件之一。
4. 甲基化发生区域: CpG岛(CpG islands)
哺乳动物基因组中5mC占胞嘧啶总量的2%-7%,约70%的5mC存在于CpG二连核苷。
在结构基因的5’端调控区域, CpG二连核苷常常以成簇串联形式排列,这种富含CpG二连核苷的区域称为CpG岛(CpG islands),其大小为500-1000bp,约56%的编码基因含该结构。
基因调控元件(如启动子)所含CpG岛中的5mC会阻碍转录因子复合体与DNA的结合。
目前认为基因调控元件(如启动子)的CpG岛中发生5mC修饰会在空间上阻碍转录因子复合物与DNA的结合。因而DNA甲基化一般与基因沉默相关联(DNA甲基化一般与基因沉默相关联;非甲基化一般与基因的活化相关联;而去甲基化往往与一个沉默基因的重新激活相关联)。
5. 甲基化检测技术
1). 基于限制性酶切预处理的甲基化检测技术:
利用甲基化敏感性限制性内切酶对甲基化区域不切割的特性,将DNA消化为不同大小的片段后再进行分析。随后进行Southern或PCR扩增分离产物,以明确目标片段的甲基化状态。
2). 基于亚硫酸盐修饰预处理的甲基化检测技术:
DNA经亚硫酸盐处理后,未甲基化的胞嘧啶(C)被转化成尿嘧啶(U),甲基化的胞嘧啶保持不变。
3). 基于亲和富集预处理的甲基化检测技术:
MeDIP 方法在将基因组 DNA 超声波打断并变性后,使用 5- 甲基胞嘧啶特异性抗体富集甲基化片段,再分离纯化得到甲基化 DNA 片段,然后再用测序等方法分析;
MBDCap 技术与 MeDIP 方法类似,利用甲基化DNA结合蛋白来对甲基化的DNA进行免疫沉淀,因为采用的富集蛋白不同, MeDIP 普遍富集 CpG 低密度的甲基化区域,而 MBDCap 则普遍富集 CpG 高密度的甲基化区域 。
目前, WGBS(全基因组甲基化测序)主要使用: 亚硫酸盐修饰预处理后进行DNA甲基化检测;
6. 全基因组甲基化(WGBS)基本分析内容
目前, 各大测序公司都能够完成WGBS的分析以及检测, 他们的分析内容主要包括以下几部分(与所有调控类型一样, 甲基化分析内容也主要包含: 建库, 质控, 鉴定, 分类, 差异, 靶向, 功能等几大部分):
1). 质控: 衡量文库覆盖度, 显示数据量的同时也基本预测了鉴定结果;
2). 甲基化位点motif识别以及属性分类(建库过程中,未甲基化的C已经被转化成U了, so, 直接检测的C即为被甲基化修饰的胞嘧啶):
Motif 表示包含mC位点在内的上下游9bp 的碱基分布特征,可以表征序列保守性。
序列环境分类(CG,CHG,CHH; H 代表A, C, T);
3). 单样本甲基化分析: 在单个样本层面进行整体水平甲基化水平密度、染色体水平甲基化水平密度、基因功能区域甲基化水平分布和基因上下游2K甲基化水平分布,这个几个方面来展现物种甲基化模式,构建物种甲基化谱。
4). 比较组合甲基化水平分析: 从样本group中可视化组内和组间的甲基化水平;
5). 差异甲基化分析: 根据各样本以及各个比较组合的甲基化检测结果, 进行差异分析;
6). 差异甲基化功能分析: 即根据差异甲基化位点, 找到该位点潜在调控的gene; 并进行gene的功能富集分析;
7. 甲基化数据库
1). DNAmod: the DNA modification database
官网链接: https://dnamod.hoffmanlab.org/
数据库功能包括: Searching for DNA modifications; Covalently modified DNA nucleobases;
DNAmod包括可用测序方法的手动注释、它们在自然界中出现的描述,并提供现有和建议的命名法。DNAmod使研究人员能够快速回顾以前的工作,选择绘图技术,并跟踪有关修改的兴趣基础的最新发展。
2). SEanalysis: a web tool for super-enhancer associated regulatory analysis
官网链接: http://licpathway.net/SEanalysis/
SEanalysis描述了SE相关基因、与目标SE结合的TFs及其上游途径。当前版本的SEanalysis包含来自540多种细胞/组织的330000多个SEs、来自这些细胞/组织的5042个TF芯片seq数据、来自10个数据库的700个人类TFs和2880条通路的DNA结合序列模体。SEanalysis支持通过SEs、样本、TFs、途径或基因进行搜索。这些因素形成的复杂调控网络可以交互可视化。此外,我们开发了一个可定制的基因组浏览器,其中包含超过6000个可定制的可视化轨迹。
哈哈, 数据库我还没有测试哦 ~ 用过的大神可以动动您的小手, 将使用链接留在评论区;
8. 小小的总结
1). DNA甲基化位点分析大同小异, 但各个公司的图片精美程度, 将会为老师提供不同程度的美感体验, 当然也能从宏观方面说明问题 (甲基化图谱, 真可以画的很漂亮);
2). DNA甲基化位点主要从基因调控表达层面发挥作用, 联合普通转录组测序(polyA富集protein_coding gene并进行建库分析)结果可以发现: 甲基化调控区域, 力证甲基化调控结果(这也是目前很多公司的关联分析切入口);
3). 但是, 细胞中的转录调控影响因子太多, DNA甲基化仅仅是基因沉默与否的切入口, 关于lncRNA对protein_coding gene的转录翻译调控, promoter 对 protein_coding gene的转录调控; miRNA的降解, siRNA的干扰作用仍不能探索的面面俱到;
4). 目前可用的数据库越来越多(关于功能工具的, 关于数据存储的数据库), 老师们不可错过哦;
关于gene从农场(DNA)到餐桌(产物蛋白)过程中的干扰因素以及变化规律仍迷雾重重; 即使不能面面俱到, 但感谢还在真心努力着的攀登者们;
鸣谢: 来自学者们的努力, 以及网络图片;