1、低维嵌入
事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。缓解维数灾难的一个重要途径是降维,即通过某种数学变换将原始高维属性空间转变为一个低维的“子空间”,在这个子空间中样本密度大幅度提高,计算距离也变得更加容易。
2、多维放缩(MDS-multiple dimensional scaling)
若要求原始空间样本之间的距离在低维空间中得以保持,就得到一种典型的降维方法MDS。
假定个样本在原始空间的距离矩阵为,其第行列的元素为样本到的距离。我们的目标是获得样本在低维维空间的表示,且任意两个样本在维空间的欧氏距离等于原始空间的欧式距离,即。其中
表明第i个样本在空间的坐标
令,其中为降维后样本的内积矩阵,,有
为了便于讨论,令降维后的样本被中心化,那么就可以得到的行于列之和均为零,即。易知道:
其中表示矩阵的迹,.则
因为所有的都是已知的,那么都可以算出来,那么就可以根据原空间的距离矩阵求取维空间的内积矩阵。
接下来对做特征分解就可以啦,,其中为特征值构成的对角矩阵,,为特征向量矩阵,假定其中有个非零特征值,它们构成对角矩阵,令表示相应的特征向量矩阵,则可表示为
在现实应用中为了有效的降维,往往不需要降维后的空间距离与原空间相同,大致相近即可,此时可取个最大特征值构成的对角矩阵,令表示相应的特征向量矩阵,则可以表示为