背景
上次选择了一个新开发的跨平台归一化工具 MatchMixeR,(失败了),但是在文章里发现作者把自己的工具与已有的工具进行比较,顺藤摸瓜发现已经有了很多类似的工具。
“批次”指相同材料不同的技术重复,来自不同时间、平台、方法、技术和实验室等条件下测量下的“批次”结果往往含有“批次效应”。在合并不同来源的样本集的时候需要去除批次效应。[1]
去除基因表达量批次效应的主要方法有平均中心方法、Z-score方法、基于比值的方法、距离加权判别法(DWD)、ComBat方法(经验贝叶斯方法)、基于奇异值分解方法、替代变量分析法(SVA)、两步法(RUV-2)。[1]
评估批次效应去除效果的方法包括:箱线图(表示出样本表达量的分布情况);分布密度图(即概率密度函数图);树状图(分层聚类);偏差值图(对基因表达矩阵进行对数转化,计算每个基因的对数表达值及其中值,计算每个样品中每个基因的对 数表达值与中值的偏差,根据偏差值绘制相对对数表达图)等。
实践 Combat 方法
文章里看到比较多的使用Combat,让我也来4一4,let’s go!
我的数据:用MAS5.0处理好了(是研究者处理的,偷个懒🤦♀️)√
关键词:R包sva里的ComBat函数
写代码时参考了[2-4]。
# devtools::install_github("zhangyuqing/sva-devel")
library(sva)
batch = /
modcombat = model.matrix(~1, data=/)
combat_edata = ComBat(dat=/, batch=batch, mod=modcombat,
par.prior=TRUE, prior.plot=FALSE)
评估结果
总结和思考
在上面的代码中,我使用了GSE文件作为batch变量,这样做是否低估了batch effect?毕竟一个GSE文件中也可存在batch effect。
参考来源:
[1] 李飒. 基因表达数据批次效应去除方法的研究进展.南京农业大学学报.2019,42(3):389-397*
[2] https://www.jianshu.com/p/99b3411ad6ad 作者@bio_meow
[3] https://www.bioinfo-scrounger.com/archives/sva-batch-effect/ 作者@Kai
[4] https://www.jianshu.com/p/d47a0b79b48d 作者@找兔子的小萝卜