PCA是无监督的降维,降维后方差尽可能的大;
LDA是有监督的降维,希望分类后组内方差小,组间方差大;
聚类,降维;
1 PCA
原有的d维数据转化为k维数据(d>k),新生成的k维数据尽可能多的包含原来d为数据的信息。
1.1 去中心化
让样本的均值为0;
方便后去求取协方差矩阵;
这并不属于数据预处理,因为数据预处理是对每一个特征维度进行处理的,而去中心化是针对每一个样本,这是PCA所必须的过程。
为什么要去中心化
1.2 求协方差矩阵
方差:单个随机变量的离散程度;
协方差:两个随机变量的相似程度。
方差和协方差的一些区别
偏差是估计值与真实值之间的差距。
方差是描述预测值的变化范围,离散程度。
计算协方差矩阵
1.3 求协方差矩阵的特征值
寻找一个线性变换u,使uX,即降维后的新数据方差最大。
这里可以令u的模长为1.
根绝拉格朗日优化后可知,S=λ;
那么最大化投影方差就是最大化原数据的协方差矩阵的特征值。
最佳的投影方向就是最大特征值对应的特征向量。
1.4 选取前K大个特征值
选取特征值的特征向量组成投影矩阵U=[u1,u2,...,uk]。
UX即为投影后新样本。
1.5 总结
由于PCA是基于欧氏距离,因此对于线性不可分数据无能为力。
所以提出kernel PCA 。
2 LDA
分类,降维。
希望降维后类间距离最大,类内距离最小。
引入两个定义,类间散度Sb和类内散度Sw。
2.1 计算每个类别的中心
2.2 计算类间散度和类内散度
2.3 求矩阵前K大特征值
2.4 根据特征向量得到投影矩阵
在计算类间散度和类内散度的时候用到了类别信息,所以LDA是有监督的降维。