第二种方法:主成分分析法(二)
姓名:何源 学号:21011210073 学院:通信工程学院
【嵌牛导读】主成分分析法原理
【嵌牛鼻子】主成分分析法
【嵌牛提问】主成分分析法的数学原理是什么?
【嵌牛正文】
假设有m个数据,其中,并且假设这些数据已经中心归零化,即
数据的协方差矩阵为
因为C是半正定矩阵,可以进行对角化,其中,且
假设C的秩为P,即,则矩阵C有p个非零特征值,且
提取前k个特征值以及其对应的特征向量作为投影方向,对于任意样本x,可以计算得到,用表示样本x,将数据从m维降到了k维。
当时,即C为满秩矩阵时,提取m个基进行投影,则相当于进行正交变换
C的特征值有明确的物理意义,表示将数据在此特征值对应的特征向量上进行投影后,得到的投影系数的方差。
,其中表示在上的投影,表示样本在上投影的方差
将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。