基于Eigen的遥感多光谱影像主成分分析

主成分分析简介

在多元统计分析中，主成分分析（英语：Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

计算步骤

输入：n维样本集D=(x(1),x(2),...,x(m))，要降维到的维数n.

输出：降维后的样本集D′　　　　1) 对所有的样本进行中心化：　　　　　　　　2) 计算样本的协方差矩阵X*XT

3) 对矩阵X*XT进行特征值分解

4）取出最大的n个特征值（从大到小排序）对应的特征向量(w1,w2,...,wn), 将所有的特征向量标准化后，组成特征向量矩阵W。

5）对样本集中的每一个样本x(i),转化为新的样本z(i)=WT*x(i)　　　　6) 得到输出样本集D′=(z(1),z(2),...,z(m)) 即前m成分

博客园有一篇博客详细介绍了PCA 原理

代码实现

主要用到了gdal和Eigen库

gdal用于读写遥感多光谱影像

Eigen则便于各种矩阵运算

#include"gdal_priv.h"
#include"cpl_conv.h" // for CPLMalloc()
#include<iostream>
#include<fstream>
#include<string>
#include"Eigen/Dense"
using namespace std;
using namespace Eigen;

//eigen实现主成分分析
void featurenormalize(MatrixXd &X)
{
    //计算每一维度均值
    MatrixXd meanval = X.colwise().mean();
    RowVectorXd meanvecRow = meanval;
    //样本均值化为0
    X.rowwise() -= meanvecRow;
}
void computeCov(MatrixXd &X, MatrixXd &C)
{
    //计算协方差矩阵C = XTX / n-1;
    C = X.adjoint() * X;
    C = C.array() / (X.rows() - 1);
}
void computeEig(MatrixXd &C, MatrixXd &vec, MatrixXd &val)
{
    //计算特征值和特征向量，使用selfadjont按照对阵矩阵的算法去计算，可以让产生的vec和val按照有序排列（默认从大到小）
    SelfAdjointEigenSolver<MatrixXd> eig(C);

    vec = eig.eigenvectors();
    val = eig.eigenvalues();
}
int computeDim(MatrixXd &val)
{
    //输出信息量达到95%的前n主成分
    /*int dim;
    double sum = 0;
    for (int i = val.rows() - 1; i >= 0; --i)
    {
    sum += val(i, 0);
    dim = i;

    if (sum / val.sum() >= 0.95)
    break;
    }
    return val.rows() - dim;*/
    return 7;//这里设置输出7个主成分
}

void writePcaImg(const char* path, int width, int height, double *pBuff, double *adfGeo, const char *prj, int bandNum, int imageSize, int pcaInd)
{
    GDALDriver *pDriver = GetGDALDriverManager()->GetDriverByName("GTiff"); //图像驱动
    char** ppszOptions = NULL;
    int depth = 8;//图像位深
    int dim = 1;//每个图像波段数，这里将每个主成分存储到一个单波段图像
    GDALDataset* dst = pDriver->Create(path, width, height, dim, GDT_Float64, ppszOptions);//创建图像
    if (dst == nullptr)
        printf("Can't Write Image!");
    dst->SetGeoTransform(adfGeo);//设置坐标
    dst->SetProjection(prj);//设置投影
    dst->RasterIO(GF_Write, 0, 0, width, height, &pBuff[(bandNum - pcaInd)*imageSize], width, height,
        GDT_Float64, dim, nullptr, dim*depth, width*dim*depth, depth);//写入图像
    GDALClose(dst);
}
int main(int argc, char *argv[])
{   //读取影像
    char* pszFilename = "D:/gdalData/pca/before.img";
    char *outPath = "D:/pca_temp/pca";
    GDALDataset  *poDataset;
    GDALAllRegister();
    poDataset = (GDALDataset *)GDALOpen(pszFilename, GA_ReadOnly);
    if (poDataset == NULL)
    {
        printf_s("read failed!\n");
    }
    else
    {
        printf_s("read successful!\n");
    }
    double adfGeoTransform[6];
    if (poDataset->GetGeoTransform(adfGeoTransform) == CE_Failure)//读取坐标信息
    {
        printf("获取参数失败");
    }
    const char *prj = poDataset->GetProjectionRef();//读取投影信息


    int iWidth = poDataset->GetRasterXSize();//图像宽度
    int iHeight = poDataset->GetRasterYSize();//图像高度
    int iBandCount = poDataset->GetRasterCount();//波段数
    int iImageSize = iWidth * iHeight;//图像像元数
    
    double *pBuff1 = new double[iImageSize*iBandCount];//开辟空间存储原始图像
    
    poDataset->RasterIO(GF_Read, 0, 0, iWidth, iHeight, pBuff1,
        iWidth, iHeight, GDT_Float64, iBandCount, 0, 0, 0, 0);//读取原始图像
    
    MatrixXd staMat = Map<MatrixXd>(pBuff1, iImageSize, iBandCount);//将图像读入eigen矩阵


    MatrixXd X(iImageSize, iBandCount), C(iBandCount, iBandCount);//按波段存储至X矩阵，构建协方差矩阵C
    MatrixXd vec, val;//构建特征向量、特征值矩阵vec、val
    X = MatrixXd(staMat);
    
    //零均值化
    featurenormalize(X);
    
    //计算协方差
    computeCov(X, C);
    
    //计算特征值和特征向量
    computeEig(C, vec, val);
    
    //计算损失率，确定降低维数
    int dim = computeDim(val);
    //计算结果
    MatrixXd res = X * vec.rightCols(dim);

    //将主成分分量存储至pBuff2
    double *pBuff2 = new double[iImageSize*iBandCount];


    for (int i = 0; i < dim; ++i)
    {
        for (int j = 0; j < iImageSize; ++j)
        {
            pBuff2[i*iImageSize + j] = res(j, i);
    
        }
    }


    //各个主成分写入图像（包含坐标及投影信息）
    for (int i = 0; i < iBandCount; i++)
    {
        char x[]=" ";
        strcpy(x, outPath);
        char dstPath[10] = {};
        sprintf(dstPath, "%d.tif", i + 1);
        strcat(x, dstPath);
        writePcaImg(x, iWidth, iHeight, pBuff2, adfGeoTransform, prj, 7, iImageSize, i + 1);
        cout << "pca " << i + 1 << " complete" << endl;
            
    }

    cout << "pca complete!" << endl;
    cin.get();
    return 0;


}

基于Eigen的遥感多光谱影像主成分分析

主成分分析简介

计算步骤

代码实现

推荐阅读更多精彩内容