[非監督]PCA(降維)

Dimension Reduction(降維)

有些時候高維的空間的資料可以以低維空間來表示。

PCA主成分分析(Principal Component Analysis)

基本概念

3個向量正交

再做PCA時需要先做Standardization,因為特徵的單位差異太大會對運算造成影響。
假設我們有一組數據,有3個特徵x_1,x_2,x_3分別是生命、攻擊、防禦,共有N個樣本(x_1^1、x_1^2...x_1^Nx_2^1、x_2^2...x_2^Nx_3^1、x_3^2...x_3^N)。
我們先看攻擊x_2跟防禦x_3數據分佈如下:

我們知道x,w向量,xw上的投影為z_1,我們要找一個向量w^1能使z_1的變異數Var(z_1)最大,w^1的長度必須等於1。如此我們會得到一個z_1將3維特徵降為1維。
若要降為2維則再求w^2w^2的長度也必須等於1,且要使w^1 \cdot w^2=0,兩個向量互相正交,如此我們會再得到一個z_2


w^1 = \begin{pmatrix} w^1_1&w^1_2&w^1_3 \end{pmatrix},shape= 3
W = \begin{pmatrix} w^1 \\ w^2 \end{pmatrix},shape= 2 \times3
x = \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix},shape= 3 \times N
z=Wx = \begin{pmatrix} z_1 \\ z_2 \end{pmatrix},shape= 2 \times N


3個向量正交

協方差、共變異數(cov)

協方差
cov(x_1,x_2)=\frac{ Σ(x^i_1 - {x_1}_{avg})(x^i_2 - {x_2}_{avg}) }{N-1} ,(x=x^1,x^2,x^3....x^i;y=y^1,y^2,y^3,...y^i)
x的cov matrix(協方差矩陣):
cov(x)=S=\begin{pmatrix} cov(x_1,x_1)&cov(x_1,x_2)&cov(x_1,x_3) \\ cov(x_2,x_1)&cov(x_2,x_2)&cov(x_2,x_3) \\ cov(x_3,x_1)&cov(x_3,x_2)&cov(x_3,x_3) \end{pmatrix},shape= 3 \times 3

PCA運算

我們要求max Var(z_1),可以經過以下推導:

S是半正定的矩陣(他的eigenvalues都是非負的) ,solution w^1為對應max\ eigenvaluecov(x)eigenvectorw^2為對應Second\ largest\ eigenvaluecov(x)eigenvector
線性代數--解eigen
將式子轉成g(w^1)=Var(z_1) - \alpha(constraint1) - \beta(constraint2),然後對w各維度的向量做偏微分再整合成eigen形式即可求w^1

實作

數據降維

  • 資料處理
    資料處理相關預備知識
    這是去kaggle抓的pokemon數據集,網址
    我們為了簡化先把部分資料移除,剩下連續型數據資料。
  • 轉成numpy矩陣
  • PCA計算
    先做特徵縮放,然後求cov(x)跟eigenvalue跟eigenvextor,然後eigenvextor依對應的eigenvalue大小順序由大到小排序,最後取出前k個eigenvextor與x內積求得z。這裡是x^T \cdot W^T=z^T
  • 結果(6維轉4維)

影像降維

將每張image展開,一張 image為一個特徵,但平均值是每點pixel的平均。
gist程式連結

PCA的特性

PCA是非監督式的,不考慮到label,可能會造成不同label重疊再一起,而無法分辨,這時可以考慮用LDA,LDA是監督式的,但它們沒辦法做非線性的降維,這時可以用autoencoder,另外還有t-SNE。

由PCA觀點看NN(神經網絡)

參考李宏毅老師ML課程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容

  • 程序員創業白皮書 作者:Paul Graham Paul Graham是程序員,專欄作家。他在1995年創建了第一...
    刘立山John阅读 1,906评论 0 20
  • 從上篇GradientDescent延伸,這次要處理的是分類問題,從數據特徵中推斷是屬於哪一類別的標籤,例如:從身...
    RJ阿杰阅读 367评论 0 0
  • 从来没有想过,绍兴居然是一个那么适合怀古的地方。在这之前,我对绍兴的印象只停留在鲁迅,百草园和三味书屋,水乡乌篷船...
    繁花落尽深眸阅读 819评论 26 12
  • 最终还是确定要结束了,一起离开好过所谓第二季,感谢这七年的陪伴。知道总会有离开的一天,只是没想到以这种形式公布,最...
    元气丧少女阅读 440评论 0 1
  • 深圳市鑫瑞联电子科技有限公司公司开始为经营金融一体机的各大公司提供系统支持,随着金融一体机畅销全国各大城市,有些不...
    其你到永远阅读 125评论 0 0