常规分析
来源:http://www.tinygene.com/statistic-analysis/conventional-spin
1 (un)Weighted UniFrac 分析
UniFrac分析利用各样品序列间的进化信息来比较环境样品在特定的进化谱系中是否有显著的微生物群落差异。
UniFrac 可用于beta 多样性的评估分析,即对样品两两之间进行比较分析,得到样品间的unifrac距离矩阵。其计算方法为:首先利用来自不同环境样品的OTU 代表序列构建一个进化树,Unifrac 度量标准根据构建的进化树枝的长度计量两个不同环境样品之间的差异,差异通过0-1 距离值表示,进化树上最早分化的树枝之间的距离为1,即差异最大,来自相同环境的样品在进化树中会较大几率集中在相同的节点下,即它们之间的树枝长度较短,相似性高。若两个群落完全相同,那么它们没有各自独立的进化过程,UniFrac值为0;若两个群落在进化树中完全分开,即它们是完全独立的两个进化过程,那么UniFrac值为1。
从UniFrac的定义中,可以看出它只考虑序列是否在群落中出现,而不考虑序列的丰度。若两个群落包含的物种完全相同,那么不管每个物种的丰度是否有差别或者差别的大小,UniFrac值为0。unweighted unifrac方法,就是在UniFrac的基础上,将序列的丰度纳入考虑,它能够区分物种丰度的差别。在计算中, unweighted unifrac按照每条枝指向的叶节点中来自两个群落的比例,给每条枝加权重。因此unweighted unifrac 可以检测样品间变化的存在,而weighted unifrac 可以更进一步定量的检测样品间不同谱系上发生的变异。
软件及算法:使用FastTree(version 2.1.3 http://www.microbesonline.org/fasttree/)根据最大似然法( approximately-maximum-likelihood phylogenetic trees ) 构建进化树,然后利用Fastunifrac[2] (http://unifrac.colorado.edu/)分析得到样品间距离矩阵。
基于UniFrac 的PCoA 分析: Unifrac 分析得到的距离矩阵可用于多种分析方法,可通过多变量统计学方法PCoA 分析,直观显示不同环境样品中微生物进化上的相似性及差异性。
PCoA(principal co-ordinates analysis)是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。通过PCoA 可以观察个体或群体间的差异。
分析软件:R 语言PCoA 分析和作PCoA 图
基于UniFrac 的多样品相似度树分析:Unifrac 分析得到的距离矩阵可用于多种分析方法,通过层次聚类(Hierarchical cluatering)[1]中的非加权组平均法UPGMA 构建进化树等图形可视化处理,可以直观显示不同环境样品中微生物进化上的相似性及差异性。
UPGMA(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,即存在着一个分子钟。通过树枝的距离和聚类的远近可以观察样品间的进化距离。
分析软件: R 语言vegan 包UPGMA 分析和作进化树。
2 PCA主成分分析
PCA 分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。其优点是简单且无参数限制。通过分析不同样品OTU(97%相似性)组成可以反映样品间的差异和距离,PCA 运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样品组成越相似,反映在PCA 图中的距离越近。不同环境间的样品可能表现出分散和聚集的分布情况,PCA 结果中对样品差异性解释度最高的两个或三个成分可以用于对假设因素进行验证。
软件:使用97%相似度的OTU,PC-ORD或是CANOCO作图。
3 LDA EffectSize 组间群落差异分析
LEfSe是一种用于发现高维生物标识和揭示基因组特征的软件。包括基因,代谢和分类,用于区别两个或两个以上生物条件(或者是类群)。该算法强调的是统计意义和生物相关性。让研究人员能够识别不同丰度的特征以及相关联的类别。
LEfSe 通过生物学统计差异使其具有强大的识别功能。然后,它执行额外的测试,以评估这些差异是否符合预期的生物学行为。具体来说,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征,并找到与丰度有显著性差异的类群。最后,LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。
LDA:使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离,即模式在该空间中有最佳的可分离性。
分析软件:LEfSE[2](http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=lefse_upload)根据分类学组成对样品按照不同的分组条件进行线型判别分析(LDA),找出对样品划分产生显著性差异影响的群落或物种。