什么时候使用Bismark的non_directional参数

Bismark是做甲基化数据分析常用软件,其中有一个--non_directional的参数,默认是不启用,如果需要时未启用该参数,会导致mapping rate下降近一半。

何时启用non_directional参数,得先明白这里的directional是什么意思。首先,这里的directional是指Illumina平台在测序时是directional的,和通常RNA-seq中directional建库是不同的两个概念。

一般建库流程,都是通过各种方法,在DNA/RNA两端加上测序用的adaptor,PCR扩增后,就可以在测序仪上开始测序。这里以Illumina经典的“Y”字形adaptor为例,黑色部分序列是反向互补的,绿色和黄色部分是不同的序列,不能互补配对,连上“Y”字形adaptor后经过PCR扩增,每个DNA分子两端就连上了不同的序列,如图中A和B两个DNA分子,一端是黄色序列,另外一端是绿色序列,这种结构是Illumina平台测序必需的结构。

在测序时,双链DNA会先分开形成两条单链,最后只有其中一条单链可以连接到测序芯片上,具体过程比较复杂,这里简化下,如图所示,只有5’端连了黄色序列的OT和OB两条单链DNA,在测序芯片上形成cluster,最后被测出其具体序列;而5’端连绿色序列的CTOT和CTOB,也就是PCR复制出来的两条链,是不能长到芯片上,所以CTOT和CTOB两条链的序列,最终是没有被测出来。Bismark称这种测序方式是directional的。

对于普通DNA测序来说,起始DNA分子的两条链OT和OB序列是反向互补的,PCR扩增后形成两个DNA分子,其中A分子中CTOT和OT是反向互补,B分子中CTOB和OB也是反向互补,所以其实CTOT=OB,CTOB=OT,测了OT和OB,也就是测了CTOB和CTOT,CTOT和CTOB未连上测序芯片也无所谓。但对于甲基化文库来说,DNA序列经过Bisulfite转化,CTOT和CTOB测不测就有关系了,因为这时不仅OT和OB的序列发生了变化,CTOT也不等于OB,CTOB也不等于OT,他们是四条和原始DNA完全不同的序列,且彼此之间也不一样。

甲基化DNA建库和普通DNA建库流程多了一步碱基转化步骤,未甲基化的C会被Bisulfite转化成U,而甲基化的C,也就是图中的mC,不会被转化,仍然是C,借此来鉴定原始DNA分子上哪些区域是甲基化修饰的。从图中可以看出,Bisulfite转化的DNA经过PCR扩增后,文库中四条序列跟原始的OT和OB都不一样。原始DNA分子中,OT的序列是“CGGC”,OB是反向互补的“GCCG”,转化后,OT变成“CGGT”,OB变成“GTCG”,新复制出来的CTOT是“ACCG”,CTOB是“CGAC”。最终测出来的只有转化后OT和OB,而CTOT和CTOB的序列虽然和其它的都不一样,但不能被测出来,丢失了其序列信息。

Bismark将测出来的reads map回基因组时,会将基因组序列根据Bisulfite转化OT和OB序列的规律,生成新的OT/OB基因组reference序列,这样序列转化后的OT和OB才能map回基因组。如果是上述的常规情况,因为测序过程是directional的,CTOT和CTOB都不会被测出来,所以就不用多此一举,尝试将测出来的reads往CTOT/CTOB reference上mapping,这个时候就是Bismark默认参数,不启用non_directional参数。多数甲基化数据是这一类型。

但是如果建库方式发生了改变,如下图,adaptor连接发生在Bisulfite转化之后,情况就发生了改变。

最后CTOT和CTOB的5’端都连上了黄色adaptor,也就是说他们都可以成功的在测序芯片上生成cluster,序列都会被测出来,这个时候测序数据里不仅仅是OT的“CGGT”和OB的“GTCG”,还有CTOT的“ACCG”和CTOB的“CGAC”,因此Bismark需要将测出来的序列尝试往四套reference上map,看到底是OT/OB/CTOT/CTOB中那一条,从而准确的将测出来的序列map回基因组。这个时候已经将四条链的序列都测出来了,相比于之前的只测出OB和OT两条链,就没有方向性,Bismark mapping时就需要启用non_directional参数。如果还是使用默认参数,不启用non_directional,测出来CTOT/CTOB序列很难mapping上基因组,导致最终mapping rate下降,没map上的这部分数据也没办法进入下游分析,造成数据浪费,有时甚至会导致最终结果产生偏差。

总之,什么时候启用non_directional参数,是和建库流程息息相关。就像上述例子中,如果是Bisulfite转化前就连了“Y”字形adaptor,那测出来的数据就是directional的,使用Bismark默认参数即可;如果是Bisulfite转化后再连“Y”字形adaptor,数据就变成non_directional了,用Bismark做mapping时需要启用该参数。分析前需要仔细了解建库流程,根据最终测序文库中CTOT和CTOB两条链的5’端,是否连上可以测序的adaptor序列,来判断数据是否是directional的,从而准确的设置Bismark mapping参数。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343