关键词:DNA methyaltion, data normalization, dasen, funnorm, InterpolatedXY
1. 前言
数据标准化的目的是在保留有意义的差异时,尽可能地去除无意义的技术误差,使有意义的信号更加凸显出来。
2. 标准化方法的分类与选择
当你拿到一批甲基化芯片数据,如450k或者EPIC,你会选择哪种数据标准化方法呢?目前已发表的适用于甲基化芯片数据标准化的方法大致可以分为两类:一类是within-array,代表性的方法包括peak-based correction (PBC), Beta MIxture Quantile normalization (BMIQ)和‘noob’ background correction (Normal-exponential convolution using out-of-band probes)。这类方法的特点是标准化时只基于当前样本的信息,因此只有一个样本时也可以进行标准化处理。另一类是between-array,代表性的方法包括 dasen, SWAN (Subset-quantile Within Array Normalization)和funnorm (functional normalization),这类方法在处理时都需要借用所属批次的整体信息。这三种方法基本都不同程度地用到了quantile normalisation的思路。对于这类方法我的建议是,如果样本都来自同一组织,并且样本间没有明显的分组,或者已知组间没有系统性的整体甲基化水平差异时,可以采用dasen方法,理由是又快又稳;如果分组间有明显的甲基化整体差异,则建议选择funnorm。
3.怎样标准化处理性染色体数据
男性和女性有不同性染色体组合(男性:XY,女性:XX),并且女性的其中一条染色体一般处于失活状态,并且呈高度甲基化。这就导致了男女性性染色体相关的甲基化水平差异很大。我们最新(2022)发表在Bioinformatics上的文章表明,如果忽视男女性性染色的差异,简单地使用基于quantile的标准化方法,不仅可能使标准化后的常染色体甲基化数据增加系统性的误差,对性染色数据校正效果也不好。为此,我们提出了一个两步法的策略:第一步,即将常染色体和性染色体的数据分开,常染色体的数据按传统的方法处理,如dasen或funnorm。第二步,性染色体数据基于信号排序时与它们邻近的常染色体位点的加权平均值估算而来,这一步我们采用了linear interpolation算法高效实现,因此我们把整个策略命名为InterpolatedXY。这一两步法策略不仅可应用与甲基化芯片数据,它同样可应用在RNA-seq数据的标准化上。
如果将InterpolatedXY与dasen结合,整个方法就称之为InterpolatedXY adjusted dasen;而把InterpolatedXY与funnorm结合,整个方法就称之为InterpolatedXY adjusted funnorm。这两个方法都可以调用最新版本wateRmelon包里面的‘adjustedDasen’和‘adjustedFunnorm’来实现。
这个两步法策略尤其适合那些关注性染色上位点甲基化水平变化的研究。因为在处理时,不需要将男性样本和女性样本分开处理,使得处理后的数据非常适用于比较男女性在性染色体的甲基化水平差异。
library(wateRmelon)
data(melon)
###########adjustedDasen####################
## 如果输入是一个 methylumiset 或 methylset对象,可以一步到位
normalised_betas <- adjustedDasen(melon)
## 或者自己手动输入相关参数
normalised_betas <- adjustedDasen(mns = methylated(melon), uns = unmethylated(melon), onetwo = fData(melon)[,fot(melon)], chr = fData(melon)$CHR, cores=1)
###########adjustedFunnorm####################
#RGSet是一个RGChannelSet对象,一般是从minfi包处理得来的
GRset <- adjustedFunnorm(RGSet)
4.是否应该采用between-array的标准化方法
我们在进行数据标准化时,始终要权衡在保留那些有生物学意义的差异的同时尽可能多地去除无意义的技术误差。为此,有些人担心是否有必要采用between-array的标准化方法,他们担心between-array的标准化可能会减少那些有意义的生物学差异。在最新的这篇Bioinformatics文章里,我们不仅提出了上述的两步法新策略,还提出了一个新的指标用来衡量不同样本间有意义的生物学差异,这个指标可以用来评价比较不同数据标准化方法的优劣。这个指标是the fraction of sex explained variance,公式如下:
我们的结果表明,‘adjustedDasen’和‘adjustedFunnorm’这两种between-array的数据标准化方法都可以在降低技术误差的同时保留有意义的生物学差异,并且有意义的生物学差异的比例在处理后的数据中明显提高。
最后,欢迎大家采用我们的新方法进行甲基化数据标准化,有相关问题可以随时交流(wangyucheng511艾特gmail.com),记得引用我们的文章哦。
参考资料
Yucheng Wang, Tyler J Gorrie-Stone, Olivia A Grant, Alexandria D Andrayas, Xiaojun Zhai, Klaus D McDonald-Maier, Leonard C Schalkwyk, InterpolatedXY: a two-step strategy to normalize DNA methylation microarray data avoiding sex bias, Bioinformatics, Volume 38, Issue 16, 15 August 2022, Pages 3950–3957, https://doi.org/10.1093/bioinformatics/btac436