基础知识
甲基化
- DNA链上的CG位点能够被甲基化酶的修饰下,在胞嘧啶上添加甲基从而发生甲基化,如果一段DNA片段富含CG序列的密度比平均密度高1020倍,GC含量大于50%,长度大于200bp的区域,称为CpG岛(CpG island)。如果某一区域高度甲基化,一般认为在顺式调控元件部位(包括启动子、增强子等部位)甲基化,将影响DNA的结构,从而阻遏该部位基因的转录。
转录因子
- 转录因子(TF,transcription factor)是与基因5'端上游序列结合从而影响基因转录的蛋白。
- DNA双链上与转录因子结合的位点称之为转录因子结合位点(TFBS, transcription factor binding site),这个位点一般是实验分析出来的,但是有时候TFBS的碱基序列并不会一直不变,因此引入了转录因子几何基序的概念(TFBM,transcription factor binding motif),以此来代表一个TF的结合特异性,通常通过汇总一系列结合位点的保守和可变位点而来。
450K甲基化芯片
- 目前进行甲基化分析常规使用的是450K芯片(Illumina HumanMethylation450 BeadChip)
- 送检的每个样本在单独的阵列(红色通道和绿色通道)上进行测量,阵列上有45万个CpG位点,每一个位点具有两种不同的测量值:甲基化以及非甲基化的测量值。
- 这两种值是通过“Type I”或“Type II”中的一种方式进行测量。
- “Type I”用来只测量一种的颜色,而在这一个颜色通道中包括两种不同的探针来分别测量甲基化以及未甲基化值
- “Type II”只有一个探针,但有双色通道来测量甲基化与未甲基化的值
-
注意:芯片中,探针和CpG位点并非一一对应,450K芯片一共有48万多个探针,但所包含的CpG位点差不多在45万个左右。
- 一个芯片包括12个阵列,每一个阵列可以分析一个样本,一次可以同时分析8张芯片,即一次最多分析96个样本
指标:M值和β值
- 450K甲基化芯片能够对应一个CpG位点测出甲基化测量信号强度(M,methylated value)
- 非甲基化信号强度(U,unmethylated value)
- β值=M/(M+U+offset),offset是偏移量,防止分母出现0的情况
- M值=log2(M/U),也就是根据荧光信号进行log化
- β值更加适合进行甲基化水平的定量,能够阐明生物学意义,任何等于或大于0.6的β值都被认为是完全甲基化的
- 任何等于或小于0.2的β值被认为是完全未甲基化的,β值在0.2和0.6之间被认为是部分甲基化的
- M值更适合用于进行下游统计分析
R包的使用教程
Minfi包
#BiocManager::install("minfi")
library("minfi")
library(minfiData)