主成分分析(Principle Components Analysis, PCA)
主成分分析是一个简单的机器学习算法,是一种通过降维技术把具有相关性的多个变量化为少数几个主成分的统计方法。用于解决做数据分析处理时,数据往往包含多个变量,而较多的变量会带来分析问题的复杂性问题。
算法流程:
输入:n 维样本集
输出:降维后的维度 n',样本集
(1) 对所有样本中心化:
(2) 计算样本的协方差矩阵
(3) 对矩阵进行特征值分解
(4) 取出最大的n'个特征值对应的特征向量, 将所有的特征向量标准化后,组成特征向量矩阵W。
(5) 对样本集中的每一个样本,转化为新的样本
(6) 得到输出样本集