DNA甲基化测序数据处理(一):数据比对

前言

因为组里面出了一批甲基化测序数据,使用的技术为BS-seq,处理的时候顺带记录了学习过程,演示使用数据为官方提供的example.fastq。

DNA甲基化及CpG岛定义了解

DNA甲基化(英语:DNA methylation)为DNA化学修饰的一种形式,能在不改变DNA序列的前提下,改变遗传表现。为外遗传编码(epigenetic code)的一部分,是一种外遗传机制。DNA甲基化过程会使甲基添加到DNA分子上,例如在胞嘧啶环的5'碳上:这种5'方向的DNA甲基化方式可见于所有脊椎动物。
人类细胞内,大约有1%的DNA碱基受到了甲基化。在成熟体细胞组织中,DNA甲基化一般发生于CpG双核苷酸(CpG dinucleotide)部位;而非CpG甲基化则于胚胎干细胞中较为常见[1] [2]。植物体内胞嘧啶的甲基化则可分为对称的CpG(或CpNpG),或是不对称的CpNpNp形式(C与G是碱基;p是磷酸根;N指的是任意的核苷酸)。
特定胞嘧碇受甲基化的情形,可利用亚硫酸盐定序(bisulfite sequencing)方式测定。DNA甲基化可能使基因沉默化,进而使其失去功能。此外,也有一些生物体内不存在DNA甲基化作用。
——维基百科

DNA甲基化作为基因组上的表观修饰(区别于组蛋白修饰),存在于各种生物中。

简单来说,可以认为甲基化代表着基因的失活,去甲基化则标志基因的激活与表达

虽然CpG序列出现的频率并不高,但是在某些基因区域内,CpG的密度很高,俗称CpG岛。这些CpG岛大多出现在基因的启动子区域(人类占到70%),长度达300-3000bp。目前的研究表明,大多数的管家基因都含有CpG岛,位于基因的5'端(其中的大多数CpG岛都是未甲基化的)。

另外需要注意的是,目前的研究表明,肿瘤样本与正常样本的CpG岛甲基化差异大多不是发生CpG岛的内部而是位于CpG岛岸(CpG island shore)

由于CpG位点的易甲基化导致胞嘧啶脱氨变成胸腺嘧啶,所以在漫长的进化过程中,CpG位点逐渐消失,但是又存在着对于基因表达的调控要求,所以CpG岛的出现也被理解为抵抗甲基化经常很,维持调控功能。

DNA甲基化测序原理与方法

此处略过,请自行了解(示例文件为WGBS单端测序文件)。

其实是因为理解起来比较累,知道大致原理就可以了,以后再来填坑

数据处理(使用Bismark软件处理)

Bismark下载

Bismark官网

The less the people know about how sausages and our code are made, the better they sleep at night (untracable author)
bismark_v0.19.0.tar.gz
解压即用tar xzf bismark_v0.X.Y.tar.gz,常用的话将路径写入PATH:PATH=/PATH/TO/Bismark/:$PATH
manual页面需要搭梯子才能看到,简书不支持附件,所以有需要的可以留言,我email pdf文件

Dependencies

需要用户已经装好bowtie1/bowtie2

测试数据获取

此处使用测试数据test.fastq
(from SRR020138, Lister et al., 2009; trimmed to 50 bp; base call qualities are Sanger encoded Phred values (Phred33)).

$ls -l
total 2.1M
-rw-r--r-- 1 sxj users 2.1M Apr 17  2018 test_data.fastq

INDEX文件构建

# under install folder
./bismark_genome_preparation --path_to_bowtie /PATH/to/bowtie2/ --verbose ~/PATH/to/GRCh38/

比对

# paired-end data
./bismark --genome ~/PATH/to/GRCh38/ -1 read1.fastq.gz -2 read2.fastq.gz -p 4 -o ./ 2>test.log

# single-end data
./bismark --genome ~/PATH/to/GRCh38/ test_data.fastq -p 4 -o ./ 2>test.log

甲基化位点提取

./bismark_methylation_extractor -s --gzip --bedGraph --buffer_size 10G --cytosine_report --comprehensive --genome_folder ~/PATH/to/GRCh38/ test_data_bismark_bt2.bam 2>extracor.log

生成处理报告

./bismark2report

所有结果文件

ls -l
-rw-r--r-- 1 sxj users  82K Apr 18 16:11 CHG_context_test_data_bismark_bt2.deduplicated.txt.gz
-rw-r--r-- 1 sxj users 154K Apr 18 16:11 CHH_context_test_data_bismark_bt2.deduplicated.txt.gz
-rw-r--r-- 1 sxj users 138K Apr 18 16:11 CpG_context_test_data_bismark_bt2.deduplicated.txt.gz
-rw-r--r-- 1 sxj users 105K Apr 18 17:30 extracor.log
-rw------- 1 sxj users  20K Apr 17 15:56 nohup.out
-rw-r--r-- 1 sxj users 450K Apr 17 15:56 test_data_bismark_bt2.bam
-rw-r--r-- 1 sxj users 449K Apr 18 10:34 test_data_bismark_bt2.deduplicated.bam
-rw-r--r-- 1 sxj users  48K Apr 18 16:11 test_data_bismark_bt2.deduplicated.bedGraph
-rw-r--r-- 1 sxj users  55K Apr 18 16:11 test_data_bismark_bt2.deduplicated.bismark.cov
-rw-r--r-- 1 sxj users 217M Apr 18 17:30 test_data_bismark_bt2.deduplicated.CpG_report.txt.CpG_report.txt.gz
-rw-r--r-- 1 sxj users 2.9K Apr 18 16:11 test_data_bismark_bt2.deduplicated.M-bias.txt
-rw-r--r-- 1 sxj users  766 Apr 18 16:11 test_data_bismark_bt2.deduplicated_splitting_report.txt
-rw-r--r-- 1 sxj users  260 Apr 18 10:34 test_data_bismark_bt2.deduplication_report.txt
-rw-r--r-- 1 sxj users 347K Apr 19 23:18 test_data_bismark_bt2_SE_report.html
-rw-r--r-- 1 sxj users 1.8K Apr 17 15:56 test_data_bismark_bt2_SE_report.txt
-rw-r--r-- 1 sxj users 2.1M Apr 17 15:14 test_data.fastq
-rw-r--r-- 1 sxj users 6.2K Apr 17 15:56 text.log

结果解读

--cytosine_report参数会根据当前目录下的信息文件生成一个HTML格式的报告文件,即test_data_bismark_bt2_SE_report.html文件,它包括了比对信息,甲基化信息,M-bias等,可以对数据有一个大概的认知(下图只展示了一部分):

比对信息

M-bias

同时因为使用了--comprehensive,所以结果合并正反链的数据后会输出CpG/CHG/CHH三种类型的甲基化文件,包含了胞嘧啶所有的组合形式,但实际上我们自然最关注的是CpG位点的甲基化。其中

CpG_context_test_data_bismark_bt2.deduplicated.txt即CpG甲基化位点的文件。

head CpG_context_test_data_bismark_bt2.deduplicated.txt

Bismark methylation extractor version v0.19.0
SRR020138.15024317_SALK_2029:7:100:1672:902_length=86   -   1   57333019    z
SRR020138.15024319_SALK_2029:7:100:1672:31_length=86    +   2   10026473    Z
SRR020138.15024331_SALK_2029:7:100:1673:1282_length=86  +   11  78025243    Z
SRR020138.15024343_SALK_2029:7:100:1673:202_length=86   +   10  121617231   Z
SRR020138.15024357_SALK_2029:7:100:1673:879_length=86   -   4   75173715    z
SRR020138.15024361_SALK_2029:7:100:1673:235_length=86   -   2   130768889   z
SRR020138.15024368_SALK_2029:7:100:1673:123_length=86   +   10  106402850   Z
SRR020138.15024376_SALK_2029:7:100:1673:1908_length=86  -   12  124097382   z
SRR020138.15024380_SALK_2029:7:100:1673:397_length=86   +   8   95038627    Z
# 第一列为测序信息
# 第二列为甲基化状态 + 代表甲基化 -代表未甲基化
# 第三列代表chromosome
# 第四列代表location
# 第五列代表methylation call,简单来说大写的就是甲基化的(因为还有CHG,CHH的数据,分别对应x, X , h, H)

test_data_bismark_bt2.deduplicated.bismark.cov文件则给了每个位点的甲基化比例,为下一步确定CpG岛提供了基础,其数据形式如下:

$head test_data_bismark_bt2.deduplicated.bismark.cov
1   975476  975476  100 1   0
1   975488  975488  100 1   0
1   975490  975490  100 1   0
1   2224487 2224487 100 1   0
1   2224489 2224489 100 1   0
1   2224514 2224514 100 1   0
1   2224520 2224520 100 1   0
1   2313220 2313220 0   0   1
1   9313902 9313902 100 1   0
1   9313914 9313914 100 1   0

# 第一列代表chromosome
# 第二,三列代表location
# 第四列代表甲基化百分比
# 第五列代表甲基化数目
# 第六列代表未甲基化数目

test_data_bismark_bt2.deduplicated.CpG_report.txt.CpG_report.txt文件则是背景信息:

$head test_data_bismark_bt2.deduplicated.CpG_report.txt.CpG_report.txt
1   10469   +   0   0   CG  CGC
1   10470   -   0   0   CG  CGA
1   10471   +   0   0   CG  CGG
1   10472   -   0   0   CG  CGC
1   10484   +   0   0   CG  CGG
1   10485   -   0   0   CG  CGG
1   10489   +   0   0   CG  CGC
1   10490   -   0   0   CG  CGG
1   10493   +   0   0   CG  CGC
1   10494   -   0   0   CG  CGG

# 第一列为chromosome
# 第二列为location
# 第三列为strand
# 第四,五列为甲基化和非甲基化的碱基数目
# 第六列为CG
# 第七列为背景(第一个C延伸两个碱基)

其它参数

bam2nuc
bismark2summary
coverage2cytosine
NOMe_filtering
filter_non_conversion
# 有需要的可以自信探索 --help or manual

结语

此处根据测序数据得到了甲基化位点的信息,但是后续DML以及DMR的确定还需要R包的使用,以及后续的可视化还以探索以下包:


挖坑待填

Methy-Pipe: An Integrated Bioinformatics Pipeline for Whole Genome Bisulfite Sequencing Data Analysis
2014年出的一个pipeline,分析作图一条龙,有兴趣的同学安排一下。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容