导读
前面已经介绍了获取菌属相对丰度表的方法,以及多样性分析中的基本概念和计算方法。接下来将开始介绍一种寻找组间差异细菌的常用方法LEfSe。LEfSe(Linear discriminant analysis Effect Size)是哈佛大学的Curtis Huttenhower教授在2011年以第一通讯发表在Genome Biology中的统计方法。现在这篇文章的引用已经达到1100余次。LEfSe能用于从高维数据中寻找组间差异的biomarker。输入数据不仅可以是物种分类数据集,还可以是基因数据集,也可以是代谢通路数据集。
LEfSe在线工具地址:https://huttenhower.sph.harvard.edu/galaxy/
一、统计方法
- KW秩和检验
针对每个属性进行检验,比较不同类之间的差异性,过滤掉p-value大于0.05的属性,留下p-value小于0.05的属性进一步分析。
- Wilcoxon秩和检验
针对第一步检验后留下来的属性,根据样本的class类别,基于Wilcoxon秩和检验,检测每个属性在class之间的差异性。
- LDA分析
LDA是linear discriminant analysis的简写,类别是因变量,筛选过后的属性、小类和样品是自变量,如此建立线性判别模型,然后利用模型前后的differences between class means去计算一个值,经过对数转化得到LDA score。
二、工作流程
0. 数据上传
输入数据格式如下:
上传数据到LEfSe:
1. 数据标准化
2. 统计分析
3. 绘制LEfSe柱形图
4. 绘制LEfSe树状图
5. 单菌丰度可视化
挑选感兴趣的细菌,观察它在两组的丰度差异。
相关阅读:
16S测序分析(一)菌属丰度表获取
16S测序分析(二)菌群多样性分析
16S测序分析(三)用LEfSe寻找组间差异细菌
16S测序分析(四)用MaAsLin寻找组间差异细菌
16S测序分析(五)用RandomForest寻找关键细菌
16S测序分析(六)用PICRUSt预测菌群KEGG代谢通路