问题1.因为WGBS测序的原理是亚硫酸盐处理会使未甲基化的胞嘧啶(C)被转化为脱氨基胞嘧啶(T),而甲基化的胞嘧啶(5-methylcytosine,5mC)不受影响。然后通过分析测序reads覆盖的某个位点C/(C+T)百分比,完成该位点甲基化定量。但是如果某个位点本身是杂合状态,该位点存在CT变异,会对定量结果产生影响。所以严格来说应该过滤这些位点。
问题2.鉴于测序深度有限,并不能保证每个样本所有甲基化位点应测尽测,但是保留所有样本共有甲基化位点分析,会忽略掉一些处理过程中新出现的位点;所以可以根据每个处理的三个生物学重复,甲基化位点检出情况进行保留,一个甲基化位点在三个生物学重复中,在两个以上生物学重复中有出现,则保留该位点,用于后续差异甲基化分析。
针对问题可以采取两个策略结合尽可能过滤假阳性位点:
1.在进行甲基化定量之前,只取最优比对,且Q20过滤比对结果;定量时再次兼顾Q20和去除PCR重复影响。
samtools view -h -q 10 -F 4 -F 256 PEG_3d-3_pe.sorted.bam|grep -v XA:Z|grep -v SA:Z|samtools view -b - > PEG_3d-3.sort.Q10.unique.bam
BatMeth2 calmeth -Q 20 --remove_dup --coverage 4 -nC 1 --Regions 600 --step 50000 --genome /public/home/agis_kongweilong/Project/053dGenomes/MetDataAnalysis/01build_indexforBatMeth2/TGY/TGY.fa --binput PEG_3d_1.sort.Q10.unique.bam --methratio PEG_3d_1
2.通过空白样本的深度重测序,提取全基因组甲基化位点,用于过滤具有C/T转化的甲基化位点,避免基因组杂合位点对甲基化定量的影响。