-
PCA
(Principal Component Analysis)是一套全面用于各类数据分析的分析方法,包括特征集压缩。每当需要将数据直观化的时候,都可以采用。-
PAC
特别适用于坐标系的位移和旋转问题 - 通过一系列小测试,理解数据维度的转变
-
-
对于任何形式和形状(分布)的数据,
PCA
从旧坐标系统仅通过转换translation
和旋转rotation
,移动原坐标原点,将X轴移动到新的坐标系统的主轴,该主轴使所有数据有最大方差;进一步将另一坐标轴移至正交处(第二主成分),使其处于重要性较低的方向。PCA
找到这些轴,并证明其重要性。
-
一些手动
PCA
的练习,练习中的△X
和△Y
可视为新坐标轴在原坐标系中的分量。 -
保留信息,同时压缩特征数量的操作
- 在许多特征中,假设只有少量特征驱动数据模式
- 寻找一个特征组合(即主要成分
principal component
),以便弄清楚深层次的现象
-
如何决定主要成分:
- 主成分是数据分布具有最大方差,也就是说在该方向上,数据更加分散。
- 这样做的原因是,在主成分的方向上进行投射(数据压缩)时,可以尽可能多地保留原始数据所含的信息。
最大方差和信息损失
用于特征转换的PCA:非监督学习的强大之处
-
PCA
的回顾和释义-
PCA
是将特征转为主成分的系统化方式 - 主成分可被用作新的特征
- 主成分是数据中使方差最大化的分布方向,它可以使压缩特征时信息损失降到最低
- 可以对主要的成分划分等级,数据因特定主成分产生的方差越大,该成分的等级越高
- 主成分之间彼此正交
- 主成分的数量有限,最大值为输入的特征数量
-
sklearn中的PCA
-
何时使用PCA
- 驱动数据模式的隐藏特征(如big shots in Enron)
- 降维,如以下情况时:可视化高维数据;降噪;使用另一算法之前对数据进行预处理
PCA
迷你项目
Udacity 数据分析进阶课程笔记L43:主成分分析PCA
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 前言 PCA是一种无参数的数据降维方法,在机器学习中很常用,这篇文章主要从三个角度来说明PCA是怎么降维的分别是方...
- 第8章 降维 来源:ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目 译者:...