[非監督]PCA(降維)

Dimension Reduction(降維)

有些時候高維的空間的資料可以以低維空間來表示。

PCA主成分分析(Principal Component Analysis)

基本概念

3個向量正交

再做PCA時需要先做Standardization,因為特徵的單位差異太大會對運算造成影響。
假設我們有一組數據,有3個特徵x_1,x_2,x_3分別是生命、攻擊、防禦,共有N個樣本(x_1^1、x_1^2...x_1^Nx_2^1、x_2^2...x_2^Nx_3^1、x_3^2...x_3^N)。
我們先看攻擊x_2跟防禦x_3數據分佈如下:

我們知道x,w向量,xw上的投影為z_1,我們要找一個向量w^1能使z_1的變異數Var(z_1)最大,w^1的長度必須等於1。如此我們會得到一個z_1將3維特徵降為1維。
若要降為2維則再求w^2w^2的長度也必須等於1,且要使w^1 \cdot w^2=0,兩個向量互相正交,如此我們會再得到一個z_2


w^1 = \begin{pmatrix} w^1_1&w^1_2&w^1_3 \end{pmatrix},shape= 3
W = \begin{pmatrix} w^1 \\ w^2 \end{pmatrix},shape= 2 \times3
x = \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix},shape= 3 \times N
z=Wx = \begin{pmatrix} z_1 \\ z_2 \end{pmatrix},shape= 2 \times N


3個向量正交

協方差、共變異數(cov)

協方差
cov(x_1,x_2)=\frac{ Σ(x^i_1 - {x_1}_{avg})(x^i_2 - {x_2}_{avg}) }{N-1} ,(x=x^1,x^2,x^3....x^i;y=y^1,y^2,y^3,...y^i)
x的cov matrix(協方差矩陣):
cov(x)=S=\begin{pmatrix} cov(x_1,x_1)&cov(x_1,x_2)&cov(x_1,x_3) \\ cov(x_2,x_1)&cov(x_2,x_2)&cov(x_2,x_3) \\ cov(x_3,x_1)&cov(x_3,x_2)&cov(x_3,x_3) \end{pmatrix},shape= 3 \times 3

PCA運算

我們要求max Var(z_1),可以經過以下推導:

S是半正定的矩陣(他的eigenvalues都是非負的) ,solution w^1為對應max\ eigenvaluecov(x)eigenvectorw^2為對應Second\ largest\ eigenvaluecov(x)eigenvector
線性代數--解eigen
將式子轉成g(w^1)=Var(z_1) - \alpha(constraint1) - \beta(constraint2),然後對w各維度的向量做偏微分再整合成eigen形式即可求w^1

實作

數據降維

  • 資料處理
    資料處理相關預備知識
    這是去kaggle抓的pokemon數據集,網址
    我們為了簡化先把部分資料移除,剩下連續型數據資料。
  • 轉成numpy矩陣
  • PCA計算
    先做特徵縮放,然後求cov(x)跟eigenvalue跟eigenvextor,然後eigenvextor依對應的eigenvalue大小順序由大到小排序,最後取出前k個eigenvextor與x內積求得z。這裡是x^T \cdot W^T=z^T
  • 結果(6維轉4維)

影像降維

將每張image展開,一張 image為一個特徵,但平均值是每點pixel的平均。
gist程式連結

PCA的特性

PCA是非監督式的,不考慮到label,可能會造成不同label重疊再一起,而無法分辨,這時可以考慮用LDA,LDA是監督式的,但它們沒辦法做非線性的降維,這時可以用autoencoder,另外還有t-SNE。

由PCA觀點看NN(神經網絡)

參考李宏毅老師ML課程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 程序員創業白皮書 作者:Paul Graham Paul Graham是程序員,專欄作家。他在1995年創建了第一...
    刘立山John阅读 6,102评论 0 20
  • 從上篇GradientDescent延伸,這次要處理的是分類問題,從數據特徵中推斷是屬於哪一類別的標籤,例如:從身...
    RJ阿杰阅读 3,021评论 0 0
  • 从来没有想过,绍兴居然是一个那么适合怀古的地方。在这之前,我对绍兴的印象只停留在鲁迅,百草园和三味书屋,水乡乌篷船...
    繁花落尽深眸阅读 4,342评论 26 12
  • 最终还是确定要结束了,一起离开好过所谓第二季,感谢这七年的陪伴。知道总会有离开的一天,只是没想到以这种形式公布,最...
    元气丧少女阅读 3,335评论 0 1
  • 深圳市鑫瑞联电子科技有限公司公司开始为经营金融一体机的各大公司提供系统支持,随着金融一体机畅销全国各大城市,有些不...
    其你到永远阅读 1,247评论 0 0

友情链接更多精彩内容