文章名:The Grassmannian Atlas: A General Framework for Exploring Linear Projections of High-Dimensional Data
期刊:《Computer Graphics Forum》
随着信息技术的发展,数据的维度越来越高,数据的量越来越大。如何帮助用户理解和感知高维数据成为了一个重要的挑战。将高维数据投影到二维平面上,是探索高维数据的最常用的方式之一。高维数据的二维投影不仅仅限于原始数据维度的两两组合,可以说高维数据的二维线性投影是无穷的。探索这么多投影是非常耗时的,于是给投影加个度量值 ,选择度量值高的投影来观察,成为一个有效的途径。但是存在的问题:度量值比较低的投影含有丰富的信息量也被忽略了,即关注全局最大值,而忽略了局部最大值。文章提出了基于Grassmannian流形的模型和框架,使用户能够观察所有线性投影在重要性度量下的全局结构,同时用户能够交互探索备选的二维投影。
文章为了实现上述想法,文章首先对原始数据采样,构建Knn Graph近似于Grassmannian流形;对采样生成的投影计算质量度量;构建Topological Spines对数据进行可视化。下图所示为文章提出的一个系统框架。
1.数据采样
投影在仿射变换下产生等效的散点图构成线性子空间,所以线性子空间构成的空间远小于投影的空间,不会受到冗余的影响。二维线性子空间构成的空间被称为Grassmannian流形,表示为Gr(2,n)。Gr(2,n)上的一个点代表一个线性子空间,通常用正交基来参数化表示。采样时文章采样线性子空间,而不是投影子空间。为了得到表示线性子空间的正交基,文章使用高斯随机矩阵经过QR分解得到旋转矩阵,从而得到正交基。
采样时的标准:均匀性,密集型。在高维数据中,某个样本点到其最近邻居点和最远邻居点之间的距离趋于相等,从而导致数据趋于的的均匀分布。采样不密集的话,采样距离过大会遗漏一些信息量大的投影,即局部最大值。对于一个高维数据,采样数量的选择对后续分析至关重要,于是文章对数据维度,采样大小,采样密度进行了分析。如下图所示,实验结果反映了高维数据空间的本真稀疏性,文章采样时满足均匀性和密集性的。
2.投影质量度量
文章采用了三个策略:Scagnostics、投影追踪指数、降维函数
Scagnostics通过对二维投影散点图的形状进行分析给出度量。主要基于三个图形,最小生成树,凸包,非凸包,如下图所示 。在三个图形的基础上定义了九个度量,文章实验用了六个,分别是Clumpy、Outlying、Monotic、Sparse、Skinny、Striated。
投影追踪指数:Central Mass和Hole,分别衡量投影中央密度和投影中间有“Hole”。
降维函数:LDA和MDS,其中线性判别分析函数,用来衡量聚类的分离程度;多维尺度分析函数用来衡量从高维空间到二维空间相似度保留程度。
上述几种二维投影散点图的质量度量的详细细节可以查看文章的引用论文,这里不详加累述。
3.构建Topological Spines
给定在平滑流形上定义的莫尔斯函数f:M->R。f的积分线是M中的路径,其切线向量与沿着路径的每个点处的梯度一致。积分线以f的局部最小值开始,以局部最大值结束。这样下降流形(周围有局部最大值)被构造为具有共同目的地的积分线群。下降流形形成一个分区M的单元格复合体,称为莫尔斯复合体。莫尔斯复合体与地形图的对应关系如下图所示。
尽管莫尔斯复合体能识别出f的局部最大值,它们对应于f地形中的结构不同的区域,但是不容易可视化。而Topological Spines有很好的地形隐喻,可以达到上述目的。地形图与对应的Topological Spine如下图所示。
文章给出的可视化效果如下图所示,由两部分组成。左侧是衡量持久性和稳定性的图。X轴代表稳定性阈值,在Knn Graph中离某点最近的邻居点的距离来定量衡量;Y轴代表局部最大值个数,即是图中折线段中阶梯的个数;长阶梯隐喻着存在稳定的局部最大值,也就是用户感兴趣的投影。右侧图是Topological Spine,颜色代表稳定小大小,间接隐喻着全局最大值和局部最大值;宽度代表包含采样点的个数。当稳定性阈值逐渐增大时,小于稳定性阈值的局部最大值不会可视化出来。
4.实验结果
4.1 E. coli dataset
E.coil数据集的实验结果如下图所示。黑色:细胞质和细胞器;紫色:没有信号序列的内膜;橙色:含有不修改信号序列的内膜;棕色:外膜脂蛋白(只有5个点);浅绿:对应于外膜;深绿:对应于周质,细胞内膜和细菌外膜之间的空间中的浓缩凝胶状基质。在全局最大值处的投影捕获黑色和(浅色和深色)绿色点之间的清晰分离,将这部分细胞物质分为靠近细胞内膜和靠近细胞外膜。.图中两个投影将紫色和橙色点组合成一个包含有关细胞内膜信息的聚类。
4.2 Housing dataset
Housing数据集的实验结果如下图所示,使用Outlying度量得到的投影,揭示社会经济不均衡与地理位置的关系。其中的异常值用黑色小圆圈框选出来了。在右边投影里,我们能够发现与犯罪率相对较高的城镇相对应的异常值。在左侧的投影,我们可以看到与平均房间数量相关的某些异常值。异常值里每个住宅有8-9个房间,而最小值却只有3.5个房间。
4.3 Word2Vec dataset
Word2Vec数据集的实验结果如下图所示。这种数据集的分析和可视化方法是非常有限的。通常使用t-SNE这种非线性的可视化方法,但Word2Vec中的大多数关系本质上是线性的。下图使用Clumpy度量得到的投影。右边的投影对应于将城市和国家与所有其他单词清晰分开的预测,并且分离各自的大陆(例如,北美的橙色,欧洲的深绿色,南美的蓝色)。左边的投影对城市和国家的影响不大,但很好地分开剩余的单词组。例如:形容词、副词、名词等。在以质量度量排名选择投影的方法中,左边的投影会被忽略,从而印证文章方法的有效性。
5.结论
优点:
1.文章提出的方法能够确定局部最优预测,并获得对质量度量本身的拓扑结构的直观理解。
2.文中的方法能够在多个质量措施之间进行比较,还有助于指导新质量措施的设计和提供基准。
不足:
1.随着维度越来越大,维数灾难也不可避免,导致采样消耗过大。目前Grassmannian的有效抽样仍然是一个开放的问题。
2.文章的可视化手段虽然能提供对线性投影一个全局的视角,但是在于用户的交互上还有待欠缺。
原作者:S. Liu等
笔记撰写人:高乐