1.数据标准化
为了统一数据的量纲并对数据进行中心化,在主成分分析之前往往需要对原始数据进行标准化。下面以R语言自带的iris范例数据集为例,探索一下主成分分析的具体过程。
#将R自带的范例数据集iris储存为变量data;
data<-iris
head(data)
#对原数据进行z-score归一化;
dt<-as.matrix(scale(data[,1:4]))
head(dt)
2.计算相关系数(协方差)矩阵
既然主成分分析主要是选取解释变量方差最大的主成分,故先需要计算变量两两之间协方差,根据协方差与方差的关系,位于协方差矩阵对角线上的数值即为相应变量的方差。此外,由于对数据进行了Z-score归一化(变量的均值为0,标准差为1);因此,根据相关系数的计算公式可知,此时相关系数其实等于协方差。
#计算相关系数矩阵;
rm1<-cor(dt)
rm1
3.求解特征值和相应的特征向量
rs1<-eigen(rm1)
rs1
#提取结果中的特征值,即各主成分的方差;
val <- rs1$values
#换算成标准差(Standard deviation);
(Standard_deviation <- sqrt(val))
#计算方差贡献率和累积贡献率;
(Proportion_of_Variance <- val/sum(val))
(Cumulative_Proportion <- cumsum(Proportion_of_Variance))
#碎石图绘制;
par(mar=c(6,6,2,2))
plot(rs1$values,type="b",
cex=2,
cex.lab=2,
cex.axis=2,
lty=2,
lwd=2,
xlab = "PC",
ylab="Eigenvalue (Principal Component Variance)")
4.计算主成分得分
#提取结果中的特征向量(也称为Loadings,载荷矩阵);
(U<-as.matrix(rs1$vectors))
#进行矩阵乘法,获得PC score;
PC <-dt %*% U
colnames(PC) <- c("PC1","PC2","PC3","PC4")
head(PC)
5.绘制主成分散点图
#将iris数据集的第5列数据合并进来;
df<-data.frame(PC,iris$Species)
head(df)
#载入ggplot2包;
library(ggplot2)
#提取主成分的方差贡献率,生成坐标轴标题;
xlab<-paste0("PC1(",round(Proportion_of_Variance[1]*100,2),"%)")
ylab<-paste0("PC2(",round(Proportion_of_Variance[2]*100,2),"%)")
#绘制散点图并添加置信椭圆;
p1<-ggplot(data = df,aes(x=PC1,y=PC2,color=iris.Species))+
stat_ellipse(aes(fill=iris.Species),
type ="norm", geom ="polygon",alpha=0.2,color=NA)+
geom_point()+labs(x=xlab,y=ylab,color="")+
guides(fill=F)
p1
下面,尝试使用3个主成分绘制3D散点图。
#载入scatterplot3d包;
library(scatterplot3d)
color = c(rep('purple',50),rep('orange',50),rep('blue',50))
scatterplot3d(df[,1:3],color=color,
pch = 16,angle=30,
box=T,type="p",
lty.hide=2,lty.grid = 2)
legend("topleft",c('Setosa','Versicolor','Virginica'),
fill=c('purple','orange','blue'),box.col=NA)