PCA原理解析(及最小二乘法)

首先给结论:对于样本矩阵X,\color{red}{PCA变换是}XXT\color{red}{的特征向量矩阵取前k个特征的矩阵};还是X的右奇异矩阵VT的前k近似VkT

一、PCA的实现过程\color{blue}{PCA是通过矩阵变换,将旧的样本点变换到新的矩阵空间中;变换的要求或者目标函数是要使得新样本点的方差最大化!}

具体实施及推导过程

1. 中心化:就是找到所有样本的中心点,并将其作为原点,建立标准正交系(笛卡尔系)

2. 矩阵变换:将矩阵X的样本点变换到新的矩阵空间Wk中:W变换 = WkT*X

3.确立优化目标:变换后的单个样本为WkT* x[i],方差Var[i]=x[i]TWkWkTx[i],我们的目标是要使所有的样本的投影方差和最大,即
image.png

4. 求导:J(W)=tr(WTXXTW+λ(WTW−I))

进而推导出:XXTW = (-λ)W,因此W就是XXT的特征向量构成的矩阵;(-λ)就是XXT特征值构成的对角矩阵。而要得到降维后的矩阵,就\color{red}{取最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵}

image.png

5. 问题终于转换到了最后一步,寻找XXT的特征向量和特征值,即对XXT进行特征值分解!
image.png

6. 当X维度很大,对XXT进行特征值分解是一个计算很繁琐的过程。因此,我们想要跳过对XXT进行特征值分解的过程,直接求得变换矩阵,此时即用到SVD。下面我们同时进行SVD和PCA的对比:

    1. X为要降维的矩阵,且假设这个矩阵是中心化的.
    1. 对于PCA来说,要求一个协方差矩阵C,C = XXT/(n-1)。对C求特征值分解C = VLVT,V就是特征向量矩阵,L是特征值构成的对角矩阵,VT取前k个特征就是\color{red}{PCA变换矩阵}
    1. 直接针对X进行奇异值分解,Xm×n= Um×mSm×nVn×nT ≈ Um×kSk×kVk×nT
    1. 利用C = XXT/(n-1) 和 Xm×n= Um×mSm×nVn×nT
      image.png
    1. 由此我们可以得出特征值矩阵L = 奇异值矩阵S2/(n-1) ⇒ ,即特征值λi = s2i/(n-1);而\color{red}{奇异值分解中的右奇异矩阵}Vn×nT 就是上述VT,而取Vk×nT作为其近似,即为PCA变换矩阵
    1. SVD用于PCA的意义在于SVD可以避免对XXT求解特征值分解,而SVD除了上述奇异向量的分解法,还有更为高效的迭代求解法,求出右奇异向量后取近似,即可进行PCA变换
      image.png

二、补充基础知识点

2.1 矩阵变换的表示方法
image.png
2.2 为什么要使得“新样本点的方差最大化”?
image.png

如图,方差大的方向,更能够代表样本点的变化趋势,更能够保留原样本的特征。

2.3 PCA和最小二乘的联系?

首先要明确的是,PCA除了可以将优化目标定义为变换后样本的方差最大,还可以定义为原样本点距离变换矩阵所构成的超平面的距离最小,此二者定义是等价的。

2.3.1 最小二乘的目的是要建立样本特征矩阵X--目标Y的所在空间的映射,目标是最小化
image.png
,求导为零后得到W = (XTX)-1XTY,即为所求参数矩阵。
2.3.2 从线性代数的角度理解,无论参数如何,其最终的预测值Xβ都是原样本矩阵X内的一个线性组合;如果要使得Xβ和Y之间的距离最小化;那么Xβ应该等于Y在X平面的投影:Xβ = X(XTX)-1XTY ⇒ β = (XTX)-1XTY

投影公式P = X(XTX)-1XT

2.3.3 最小二乘是直接将Y投影到原样本平面中;而PCA按照SVD的视角,是将原样本矩阵中的点,转换到右奇异矩阵的近似矩阵Vk×nT中,起到对原样本降维的效果。
2.3.4 在利用最小二乘法时,要求 XTX 可逆;如果X的列之间存在多重共线,纵然 XTX 可逆,建立的数学模型,很可能不具有通用性。X的列之间存在多重共线时,利用PCA降维可消除这种共线性的不良影响。

参考目录

奇异值分解(SVD)原理与在降维中的应用
主成分分析(PCA)原理总结
SVD与PCA精简阐述
深入理解SVD与PCA
机器学习白板推导之最小二乘法
最小二乘法及其相关方法的数学原理与类比分析
PCA降维 python实现
协方差矩阵

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容