主成分分析(PCA)

1. PCA:principal Component Analysis

  • 用途:降维中最常用的一种手段
  • 目标:提取最有价值的信息(基于方差)
    • 方差最大化,使得所有的样本点尽可能的分开。
  • 问题:降维后的数据的意义?
    • 原来的数据都是有实际意义的,降维之后表达的什么意思就不知道了。但是我们最终是要拿一个结果,所以中间的过程也不是很重要。

  • 向量的表示及基的变换

    • 内积:用坐标表示向量
      内积公式
      • 解释:设B向量的模长为1,则A与B的内积值等于A像B所在直线投影的矢量长度。
        image.png
    • 向量可以表示为(3,2)实际上表示线性组合:x(1,0)'+y(0,1)'。(.)'表示转置。
    • 基:(1,0)和(0,1)叫做二维空间的一组基。
      • 基是正交的(内积为0,互相垂直),最好是单位向量
      • 要求:线性无关。
    • 基变换:
      • 数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个新坐标的分量。
        image.png
      • 两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。
        image.png
    • 如何找到最合适的基呢?
    • 协方差矩阵
      • 方向:如何选择这个方向(基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能分散
      • 方差:公式
        方差
      • 寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。
      • 协方差:表示两个向量之间的关系
        • 公式为:
          image.png
        • 数据已经做了均值为0的中心化,因此,协方差的公式可以写成:
          image.png
        • 如果单纯只选择方差最大的方向,后续的方向应该会和方差最大的方向接近重合(线性相关)。线性相关不利于我们的建模。
        • 解决方案:为了让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的。
        • 协方差:可以用两个字段的协方差表示其相关性
        • 当协方差为0时,表示两个字段完全独立。为了让协方差为0.选择第二个基时能与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。
    • 优化目标:
      • 将一组N维向量降为K维,(0<K<N),目标是选择K个单位正交基,使得原始数据变换到这组基上后,各字段两两间的协方差为0,字段的方差都尽可能大。
      • 协方差矩阵:矩阵对角线上的两个元素分别是两个字段的方差,而其他元素是a和b的协方差。
        image.png
      • 协方差矩阵对角化:除对角线外的其他元素化为0,并且在对角线上将元素按大小从上到下排列。
      • 实对称矩阵:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量。
        实对称矩阵一定可进行对角化
      • 根据特征值的从大到小,将特征向量从上到下排列,再用前K行组成的矩阵乘以原始数据矩阵X,就得到我们需要的降维后的数据矩阵Y。
  • PCA实例

    • 数据:
      数据
    • 协方差矩阵:
      协方差矩阵
    • 特征值:\lambda1=2,\lambda2=2/5
    • 特征向量:
      特征向量
      特征向量
    • 对角化:
      对角化
    • 降维:
      降维

2. 线性代数知识:

  • 特征值与特征向量:
    1. 定义
      设A为n阶矩阵,如果存在一个数 \lambda 及非零的n维列向量\alpha使得A\alpha=\lambda\alpha成立,则称\lambda是矩阵A的一个特征值,称非零向量\alpha是矩阵A属于\lambda的一个特征向量。
    2. 求特征值和特征向量


      IMG_20181201_200730.jpg
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 前言 PCA是一种无参数的数据降维方法,在机器学习中很常用,这篇文章主要从三个角度来说明PCA是怎么降维的分别是方...
    WZFish0408阅读 51,374评论 6 36
  • 主成分分析(PCA)是现代数据分析的主要方法之一,它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清...
    uglybachelor阅读 3,002评论 0 11
  • 一、前言 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。...
    owolf阅读 2,677评论 0 3
  • 一、理论篇: 为书写方便,加粗的字母表示向量。 如果想像力够好,完全可以想象出两个矩阵相乘的几何意义:将右边矩阵中...
    付剑飞阅读 1,518评论 0 2
  • 经过两天的挣扎,在浅薄的线性代数知识基础上,尝试着理解了一下主成分分析法。 一 算法流程 求样本x(i)的n'的主...
    A黄橙橙阅读 23,649评论 1 4