2024-03-22 主成分分析

简介

主成分分析（principal component analysis，PCA）可能是应用最广泛的无监督算法之一。PCA是一种非常基础的降维算法，尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。
举个例子，探索x、y变量之间的相关性：

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

rng = np.random.RandomState(1)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal');
plt.show()
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)

print(pca.components_)
print(pca.explained_variance_)

def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(arrowstyle='->',
                    linewidth=2,
                    shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

plt.cla()
# plot data
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal');

使用PCA降维，比较一下原始数据和数据降维后的逆变换。

pca = PCA(n_components=1)
pca.fit(X)
X_pca = pca.transform(X)
print("original shape: ", X.shape)
print("transformed shape:", X_pca.shape)

X_new = pca.inverse_transform(X_pca)
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
plt.scatter(X_new[:, 0], X_new[:, 1], alpha=0.8)
plt.axis('equal');

27bc1aab986745d69ef542fb482501eb.png

处理手写数字的例子

从64维降低到2维：

from sklearn.datasets import load_digits 
digits = load_digits() 
print(digits.data.shape)

pca = PCA(2)
projected = pca.fit_transform(digits.data)
print(digits.data.shape)
print(projected.shape)

plt.scatter(projected[:, 0], projected[:, 1], 
     c=digits.target, edgecolor='none', alpha=0.5, 
     cmap=plt.cm.get_cmap('Spectral', 10)) 
plt.xlabel('component 1') 
plt.ylabel('component 2') 
plt.colorbar();

pca = PCA().fit(digits.data)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components') 
plt.ylabel('cumulative explained variance');
#这个曲线量化了在前 N 个主成份中包含了多少总的 64 维的方差

画出了累计方差贡献率，查看多少成分可以包含足够（90%）的方差。

a0eb0f779c7f473c9a42e94f201b376c.png

可以做噪音过滤：

def plot_digits(data):
    fig, axes = plt.subplots(4, 10, figsize=(10, 4),
                             subplot_kw={'xticks':[], 'yticks':[]},
                             gridspec_kw=dict(hspace=0.1, wspace=0.1))
    for i, ax in enumerate(axes.flat):
        ax.imshow(data[i].reshape(8, 8),
                  cmap='binary', interpolation='nearest',
                  clim=(0, 16))
plot_digits(digits.data)
np.random.seed(42)
noisy = np.random.normal(digits.data, 4)
plot_digits(noisy)
pca = PCA(0.50).fit(noisy)
pca.n_components_

components = pca.transform(noisy)
filtered = pca.inverse_transform(components)
plot_digits(filtered)

409b1210a72c442480ac2750fae52d11.png

特征脸案例

使用Randomlized PCA随机方法来估计前150个主成分。

画出前几个主成分
累计方差图，查看多少个成分对方差的贡献
使用150个主成分重构图像

from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=60)
print(faces.target_names)
print(faces.images.shape)

from sklearn.decomposition import PCA
pca = PCA(150,svd_solver='randomized')
pca.fit(faces.data)

fig, axes = plt.subplots(3, 8, figsize=(9, 4),
                         subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))
for i, ax in enumerate(axes.flat):
    ax.imshow(pca.components_[i].reshape(62, 47), cmap='bone')
plt.show();plt.cla();

plt.plot(np.cumsum(pca.explained_variance_ratio_)) 
plt.xlabel('number of components') 
plt.ylabel('cumulative explained variance');
# plt.show();plt.cla();

pca = PCA(150,svd_solver='randomized').fit(faces.data)
components = pca.transform(faces.data)
projected = pca.inverse_transform(components)

# Plot the results
fig, ax = plt.subplots(2, 10, figsize=(10, 2.5),
                       subplot_kw={'xticks':[], 'yticks':[]},
                       gridspec_kw=dict(hspace=0.1, wspace=0.1))
for i in range(10):
    ax[0, i].imshow(faces.data[i].reshape(62, 47), cmap='binary_r')
    ax[1, i].imshow(projected[i].reshape(62, 47), cmap='binary_r')
    
ax[0, 0].set_ylabel('full-dim\ninput')
ax[1, 0].set_ylabel('150-dim\nreconstruction');

4890f5479fdf4dfa93881110faecebaa.png

总结

高维数据处理的一条直接和有效的路径。
PCA变体方法例如RandomlizedPCA、SparsePCA等。

参考：
[1]美万托布拉斯 (VanderPlas, Jake).Python数据科学手册[M].人民邮电出版社,2018.
在线版：PythonDataScienceHandbook

2024-03-22 主成分分析

简介

处理手写数字的例子

特征脸案例

总结

推荐阅读更多精彩内容