非监督学习算法
最优化函数是最大化投影方差
数据要先进性归一化处理,让数据中心在0的位置
对每一维通过最大化投影方差,就是计算特征性以及特征向量
对原始是n维的数据,假设降到k维,通过计算归一化之后数据的协方差矩阵的特征值,特征向量,选取较大的k个特征值对应的特征向量,对数据降维。
k值的选取:
一般是保留90%的特征信息,选取较大的特征向量和在整体特征值中的比例大于90%的几个特征值。
由于pca算法对异常数据很敏感,实际中,根据自己的要求选取k,比如后续分类准确率,预测精度等。
降维算法:
PCA、SVD、VQ、NMF(非负矩阵分解)、E什么鬼的(流行学)
题目: