1、低维嵌入
事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。缓解维数灾难的一个重要途径是降维,即通过某种数学变换将原始高维属性空间转变为一个低维的“子空间”,在这个子空间中样本密度大幅度提高,计算距离也变得更加容易。
2、多维放缩(MDS-multiple dimensional scaling)
若要求原始空间样本之间的距离在低维空间中得以保持,就得到一种典型的降维方法MDS。
假定个样本在原始空间的距离矩阵为
,其第
行
列的元素
为样本
到
的距离。我们的目标是获得样本在低维
维空间的表示
,且任意两个样本在
维空间的欧氏距离等于原始空间的欧式距离,即
。其中
表明第i个样本在空间的坐标
令,其中
为降维后样本的内积矩阵,
,有
为了便于讨论,令降维后的样本被中心化,那么就可以得到
的行于列之和均为零,即
。易知道:
其中表示矩阵的迹,
.则
因为所有的都是已知的,那么
都可以算出来,那么就可以根据原空间的距离矩阵
求取
维空间的内积矩阵
。
接下来对做特征分解就可以啦,
,其中
为特征值构成的对角矩阵,
,
为特征向量矩阵,假定其中有
个非零特征值,它们构成对角矩阵
,令
表示相应的特征向量矩阵,则
可表示为
在现实应用中为了有效的降维,往往不需要降维后的空间距离与原空间相同,大致相近即可,此时可取个最大特征值构成的对角矩阵
,令
表示相应的特征向量矩阵,则
可以表示为