数据降维方法介绍(五)

第二种方法:主成分分析法(二)

姓名:何源  学号:21011210073 学院:通信工程学院

【嵌牛导读】主成分分析法原理

【嵌牛鼻子】主成分分析法

【嵌牛提问】主成分分析法的数学原理是什么?

【嵌牛正文】

假设有m个数据x_1,x_2,...,x_m,其中x_i\in R^n,并且假设这些数据已经中心归零化,即\sum_{i=1}^{m}x_i=0

数据的协方差矩阵为C=\frac{1}{m}\sum_{i=1}^{m}x_ix_i^T

因为C是半正定矩阵,可以进行对角化C=V\Lambda V^T,其中,\Lambda =diag(\lambda _1,\lambda _2,...,\lambda _m)VV^T=1

假设C的秩为P,即rank(C)=p,则矩阵C有p个非零特征值,且\lambda _1>\lambda _2>...>\lambda _p>0

提取前k个特征值以及其对应的特征向量v_1,v_2,...v_k作为投影方向,对于任意样本x,可以计算得到y_i=x^Tv_i,i=1,2,...,k,用[y_1,y_2,...,y_k]^T表示样本x,将数据从m维降到了k维。

k=p=m时,即C为满秩矩阵时,提取m个基进行投影,则相当于进行正交变换

C的特征值有明确的物理意义,表示将数据在此特征值对应的特征向量上进行投影后,得到的投影系数的方差。

\lambda _i=v_i^T\lambda _iv_i=v_i^TCv_i=\frac{1}{m}\sum_{j=1}^{m}(v_i^Tx_j)(v_i^Tx_j)^T,其中v_i^Tx_j表示x_jv_i上的投影,\lambda _i表示样本在v_i上投影的方差

将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容