1、主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA分析的主要作用是降维/聚类 将高维数据投影到较低维空间,提取多元事物的主要因素,揭示其本质特征。
2.一维数据:指的是只有一个特征的数据,所有数据都能在X轴上表示出来的数据。如:5个学生的总分(100,90,70,50,30),总分是一个特征,这5个分数都能显示在一个X轴上。
cutoff:
设定cutoff为60,60以上为好学生,60一下为差学生,就能将数据区分开来。数据形成了2个聚类。
3.二维数据:指的是只有2个特征的数据,所有数据都能在X轴、Y轴上表示出来的数据。如:5个学生的语文、数学成绩,语文、数学成绩是2个特征,这10个分数都能显示在X轴、Y轴上。
3.
举个栗子:将二维图降成一维,
上图可以看出5个点在某一方向上方差最大(即点距离都处于最分散状态),这跟线最能反应数据的离散程度最大情况,这个线即PCA1,对这跟线做一个垂直于PCA1的线即PCA2,只要时垂直于PCA1的都是一个主成分,如PCA3、4……
将5个点投影到PCA1上,即进行了降维,将二维数据变成了一维。(此时PCA1即X轴,数据只有1个特征),此时又可以进行 cutoff 去筛选想要的数据
如图将cutoff设为橙色线,这跟线同时也是PCA2
拓展:相关性线标准曲线中的R2是什么意思_百度知道 (baidu.com)
PCA的每一个主成分(PC)代表了原始数据中的一种基因表达模式。因此,分析每个主成分与基因表达模式之间的关系可以帮助我们理解每个主成分所表示的基因表达模式是什么。