核心思想-降维
首先我们要明白一个概念:降维。
无论是主成分分析(PCA)、主坐标分析(PCoA)、非度量多维尺度分析(NMDS),还是冗余分析(RDA)、典范对应分析(CCA)都属于降维排序分析方法。
之所以需要降维,是因为我们检测的样本中往往包含着上百种微生物,为了分析样本与样本间的相似性,我们需要将所有物种进行逐一对比,即以一个物种为一个维度进行比较,那么假设样本有100种微生物,我们就需要100维坐标才能够比较获得两个样本间微生物数据整体的相似性。
遗憾的是,我们无法理解100维的数据,因此我们需要借助降维的手段在低维平面上对目标数据进行排序,最大程度上使得相似的目标距离近,相异的目标距离远,方便后续的统计分析。(不禁想起《三体》中,银河系遭受二向箔武器打击,从3维跌落至2维,最终被拍扁成为一幅画的场景)。
该如何实现数据降维?降维过程可以理解为一个投影的过程,举例说明:如图1,共检测6个样本(S1-S6)的微生物数据,每个样本包含3种微生物(Sp.A、B、C),通过将三个物种转换为坐标维度,我们发现,在A轴这个投影维度上,6个样本数据区分效果最强,B轴上稍弱,而在C轴上所有点都在一个位置,区分不开,那么采用A轴和B轴为横纵坐标即可将原先三维的数据降维到二维平面上。
原文及参考链接:
https://zhuanlan.zhihu.com/p/180284720?utm_source=wechat_session
http://www.360doc.com/content/18/0113/21/33459258_721682039.shtml
https://www.yunbios.net/h-nd-539.html
主成分分析_ade4_ggbiplot实操和解读:
http://blog.sina.com.cn/s/blog_6a5455bb0102wzjr.html
http://blog.sciencenet.cn/blog-3334560-1238984.html?source=1
我们仅用中值绝对偏差(mad)大于0.5的6个OTUs进行主成分分析,即可将三组样品明显分开。图中向量长短代表差异贡献,方向为与主成分的相关性。可以看到最长的向量ASV_2与X轴近平行,表示PC1的差异主要由此菌贡献。其它菌与其方向相反代表OTUs间可能负相关;夹角小于90%的代表两个OTUs有正相关。
总结:
PCA主成分图中坐标轴PC1/2的数值为总体差异的解释率;图中点代表样品,颜色代表分组;箭头代表原始变量,其中方向代表原始变量与主成分的相关性,长度代表原始数据对主成分的贡献度。
做PCA,首先要构建特征/变量的协方差矩阵,然后对其特征值和特征向量进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维,从而达到简化模型或对数据进行压缩的效果,同时最大程度的保持了原有数据的信息。
但是PCA原理主要是为了消除变量之间的相关性,并且假设这种相关性是线性的,对于非线性的依赖关系则不能得到很好的结果。同时PCA假设变量服从高斯分布,当变量不服从高斯分布(如均匀分布)时,会发生尺度缩放与旋转。