两种降维方法的比较:PCA(主成分分析法)与LDA(线性鉴别分析法)
姓名:何源 学号:21011210073 学院:通信工程学院
转载:降维方法之PCA,LDA
【嵌牛导读】PCA算法与LDA算法降维方式
【嵌牛鼻子】PCA、LDA
【嵌牛提问】两种算法的相同点和共同点有哪些
【嵌牛正文】
PCA算法
主成分分析法(Principal Component Analysis,PCA),是最常用的线性降维方法,无监督的,它通过某种线性映射,将高维的向量转化为低维空间表示,并且希望在所投影的低维空间上数据方差尽可能的大。即所有数据点映射后,方差尽可能的大,那么数据点则会分散开来,以此来保留更多的信息。所以,PCA是丢失原始数据信息最少的一种线性降维方式。
PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致使用PCA在很多情况下的分类效果并不好。具体如下图所示,若使用PCA将数据点投影至一维空间上时,PCA会选择2轴,这使得原本很容易区分的两簇点被揉杂在一起变得无法区分;而这时若选择1轴将会得 到很好的区分结果。
LDA算法
线性鉴别分析法(Linear Discriminant Analysis,LDA),是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”,使降维后的数据点尽可能地容易被分开。如图1所示,为了使数据尽可能的区分开来,LDA算法会映射到1轴。
PCA and LDA 比较
相同点:
(1)两者均可以对数据进行降维;
(2)两者在降维时均使用了矩阵特征分解的思想;
(3)两者都假设数据符合高斯分布。
不同点:
(1)LDA是有监督的降维方法,而PCA是无监督的降维方法;
(2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制;
(3)LDA除了可以用于降维,还可以用于分类;
(4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。