Bismark是做甲基化数据分析常用软件,其中有一个--non_directional的参数,默认是不启用,如果需要时未启用该参数,会导致mapping rate下降近一半。
何时启用non_directional参数,得先明白这里的directional是什么意思。首先,这里的directional是指Illumina平台在测序时是directional的,和通常RNA-seq中directional建库是不同的两个概念。
一般建库流程,都是通过各种方法,在DNA/RNA两端加上测序用的adaptor,PCR扩增后,就可以在测序仪上开始测序。这里以Illumina经典的“Y”字形adaptor为例,黑色部分序列是反向互补的,绿色和黄色部分是不同的序列,不能互补配对,连上“Y”字形adaptor后经过PCR扩增,每个DNA分子两端就连上了不同的序列,如图中A和B两个DNA分子,一端是黄色序列,另外一端是绿色序列,这种结构是Illumina平台测序必需的结构。
在测序时,双链DNA会先分开形成两条单链,最后只有其中一条单链可以连接到测序芯片上,具体过程比较复杂,这里简化下,如图所示,只有5’端连了黄色序列的OT和OB两条单链DNA,在测序芯片上形成cluster,最后被测出其具体序列;而5’端连绿色序列的CTOT和CTOB,也就是PCR复制出来的两条链,是不能长到芯片上,所以CTOT和CTOB两条链的序列,最终是没有被测出来。Bismark称这种测序方式是directional的。
对于普通DNA测序来说,起始DNA分子的两条链OT和OB序列是反向互补的,PCR扩增后形成两个DNA分子,其中A分子中CTOT和OT是反向互补,B分子中CTOB和OB也是反向互补,所以其实CTOT=OB,CTOB=OT,测了OT和OB,也就是测了CTOB和CTOT,CTOT和CTOB未连上测序芯片也无所谓。但对于甲基化文库来说,DNA序列经过Bisulfite转化,CTOT和CTOB测不测就有关系了,因为这时不仅OT和OB的序列发生了变化,CTOT也不等于OB,CTOB也不等于OT,他们是四条和原始DNA完全不同的序列,且彼此之间也不一样。
甲基化DNA建库和普通DNA建库流程多了一步碱基转化步骤,未甲基化的C会被Bisulfite转化成U,而甲基化的C,也就是图中的mC,不会被转化,仍然是C,借此来鉴定原始DNA分子上哪些区域是甲基化修饰的。从图中可以看出,Bisulfite转化的DNA经过PCR扩增后,文库中四条序列跟原始的OT和OB都不一样。原始DNA分子中,OT的序列是“CGGC”,OB是反向互补的“GCCG”,转化后,OT变成“CGGT”,OB变成“GTCG”,新复制出来的CTOT是“ACCG”,CTOB是“CGAC”。最终测出来的只有转化后OT和OB,而CTOT和CTOB的序列虽然和其它的都不一样,但不能被测出来,丢失了其序列信息。
Bismark将测出来的reads map回基因组时,会将基因组序列根据Bisulfite转化OT和OB序列的规律,生成新的OT/OB基因组reference序列,这样序列转化后的OT和OB才能map回基因组。如果是上述的常规情况,因为测序过程是directional的,CTOT和CTOB都不会被测出来,所以就不用多此一举,尝试将测出来的reads往CTOT/CTOB reference上mapping,这个时候就是Bismark默认参数,不启用non_directional参数。多数甲基化数据是这一类型。
但是如果建库方式发生了改变,如下图,adaptor连接发生在Bisulfite转化之后,情况就发生了改变。
最后CTOT和CTOB的5’端都连上了黄色adaptor,也就是说他们都可以成功的在测序芯片上生成cluster,序列都会被测出来,这个时候测序数据里不仅仅是OT的“CGGT”和OB的“GTCG”,还有CTOT的“ACCG”和CTOB的“CGAC”,因此Bismark需要将测出来的序列尝试往四套reference上map,看到底是OT/OB/CTOT/CTOB中那一条,从而准确的将测出来的序列map回基因组。这个时候已经将四条链的序列都测出来了,相比于之前的只测出OB和OT两条链,就没有方向性,Bismark mapping时就需要启用non_directional参数。如果还是使用默认参数,不启用non_directional,测出来CTOT/CTOB序列很难mapping上基因组,导致最终mapping rate下降,没map上的这部分数据也没办法进入下游分析,造成数据浪费,有时甚至会导致最终结果产生偏差。
总之,什么时候启用non_directional参数,是和建库流程息息相关。就像上述例子中,如果是Bisulfite转化前就连了“Y”字形adaptor,那测出来的数据就是directional的,使用Bismark默认参数即可;如果是Bisulfite转化后再连“Y”字形adaptor,数据就变成non_directional了,用Bismark做mapping时需要启用该参数。分析前需要仔细了解建库流程,根据最终测序文库中CTOT和CTOB两条链的5’端,是否连上可以测序的adaptor序列,来判断数据是否是directional的,从而准确的设置Bismark mapping参数。