读《The Grassmannian Atlas: A General Framework for Exploring Linear Projections of High-Dimensional Data》 by 高乐

文章名:The Grassmannian Atlas: A General Framework for Exploring Linear Projections of High-Dimensional Data

期刊:《Computer Graphics Forum》

随着信息技术的发展,数据的维度越来越高,数据的量越来越大。如何帮助用户理解和感知高维数据成为了一个重要的挑战。将高维数据投影到二维平面上,是探索高维数据的最常用的方式之一高维数据的二维投影不仅仅限于原始数据维度的两两组合,可以说高维数据的二维线性投影是无穷的。探索这么多投影是非常耗时的,于是给投影加个度量值 ,选择度量值高的投影来观察,成为一个有效的途径。但是存在的问题:度量值比较低的投影含有丰富的信息量也被忽略了,即关注全局最大值,而忽略了局部最大值。文章提出了基于Grassmannian流形的模型和框架,使用户能够观察所有线性投影在重要性度量下的全局结构,同时用户能够交互探索备选的二维投影。

文章为了实现上述想法,文章首先对原始数据采样,构建Knn Graph近似于Grassmannian流形;对采样生成的投影计算质量度量;构建Topological Spines对数据进行可视化。下图所示为文章提出的一个系统框架。

图1 文章提出的系统框架

1.数据采样

投影在仿射变换下产生等效的散点图构成线性子空间,所以线性子空间构成的空间远小于投影的空间,不会受到冗余的影响。二维线性子空间构成的空间被称为Grassmannian流形,表示为Gr(2,n)。Gr(2,n)上的一个点代表一个线性子空间,通常用正交基来参数化表示。采样时文章采样线性子空间,而不是投影子空间。为了得到表示线性子空间的正交基,文章使用高斯随机矩阵经过QR分解得到旋转矩阵,从而得到正交基。

采样时的标准:均匀性,密集型。在高维数据中,某个样本点到其最近邻居点和最远邻居点之间的距离趋于相等,从而导致数据趋于的的均匀分布。采样不密集的话,采样距离过大会遗漏一些信息量大的投影,即局部最大值。对于一个高维数据,采样数量的选择对后续分析至关重要,于是文章对数据维度,采样大小,采样密度进行了分析。如下图所示,实验结果反映了高维数据空间的本真稀疏性,文章采样时满足均匀性和密集性的。

图2 数据维度,采样大小,采样密度之间的实验结果

2.投影质量度量

文章采用了三个策略:Scagnostics、投影追踪指数、降维函数

Scagnostics通过对二维投影散点图的形状进行分析给出度量。主要基于三个图形,最小生成树,凸包,非凸包,如下图所示 。在三个图形的基础上定义了九个度量,文章实验用了六个,分别是Clumpy、Outlying、Monotic、Sparse、Skinny、Striated。

图3  二维投影的散点图的图形形状

投影追踪指数:Central Mass和Hole,分别衡量投影中央密度和投影中间有“Hole”。

降维函数:LDA和MDS,其中线性判别分析函数,用来衡量聚类的分离程度;多维尺度分析函数用来衡量从高维空间到二维空间相似度保留程度。

上述几种二维投影散点图的质量度量的详细细节可以查看文章的引用论文,这里不详加累述。

3.构建Topological Spines

给定在平滑流形上定义的莫尔斯函数f:M->R。f的积分线是M中的路径,其切线向量与沿着路径的每个点处的梯度一致。积分线以f的局部最小值开始,以局部最大值结束。这样下降流形(周围有局部最大值)被构造为具有共同目的地的积分线群。下降流形形成一个分区M的单元格复合体,称为莫尔斯复合体。莫尔斯复合体与地形图的对应关系如下图所示。

图4  莫尔斯复合体与地形图

尽管莫尔斯复合体能识别出f的局部最大值,它们对应于f地形中的结构不同的区域,但是不容易可视化。而Topological Spines有很好的地形隐喻,可以达到上述目的。地形图与对应的Topological Spine如下图所示。

图5 地形图与对应的Topological Spine

文章给出的可视化效果如下图所示,由两部分组成。左侧是衡量持久性和稳定性的图。X轴代表稳定性阈值,在Knn Graph中离某点最近的邻居点的距离来定量衡量;Y轴代表局部最大值个数,即是图中折线段中阶梯的个数;长阶梯隐喻着存在稳定的局部最大值,也就是用户感兴趣的投影。右侧图是Topological Spine,颜色代表稳定小大小,间接隐喻着全局最大值和局部最大值;宽度代表包含采样点的个数。当稳定性阈值逐渐增大时,小于稳定性阈值的局部最大值不会可视化出来。

图6 稳定性阈值图和Topological Spine图

4.实验结果

4.1 E. coli dataset

E.coil数据集的实验结果如下图所示。黑色:细胞质和细胞器;紫色:没有信号序列的内膜;橙色:含有不修改信号序列的内膜;棕色:外膜脂蛋白(只有5个点);浅绿:对应于外膜;深绿:对应于周质,细胞内膜和细菌外膜之间的空间中的浓缩凝胶状基质。在全局最大值处的投影捕获黑色和(浅色和深色)绿色点之间的清晰分离,将这部分细胞物质分为靠近细胞内膜和靠近细胞外膜。.图中两个投影将紫色和橙色点组合成一个包含有关细胞内膜信息的聚类。

图7 E.coil数据集的实验结果

4.2 Housing dataset

Housing数据集的实验结果如下图所示,使用Outlying度量得到的投影,揭示社会经济不均衡与地理位置的关系。其中的异常值用黑色小圆圈框选出来了。在右边投影里,我们能够发现与犯罪率相对较高的城镇相对应的异常值。在左侧的投影,我们可以看到与平均房间数量相关的某些异常值。异常值里每个住宅有8-9个房间,而最小值却只有3.5个房间。

图8 Housing数据集的实验结果

4.3 Word2Vec dataset

Word2Vec数据集的实验结果如下图所示。这种数据集的分析和可视化方法是非常有限的。通常使用t-SNE这种非线性的可视化方法,但Word2Vec中的大多数关系本质上是线性的。下图使用Clumpy度量得到的投影。右边的投影对应于将城市和国家与所有其他单词清晰分开的预测,并且分离各自的大陆(例如,北美的橙色,欧洲的深绿色,南美的蓝色)。左边的投影对城市和国家的影响不大,但很好地分开剩余的单词组。例如:形容词、副词、名词等。在以质量度量排名选择投影的方法中,左边的投影会被忽略,从而印证文章方法的有效性。

图9 Word2Vec数据集的实验结果

5.结论

优点:

1.文章提出的方法能够确定局部最优预测,并获得对质量度量本身的拓扑结构的直观理解。

2.文中的方法能够在多个质量措施之间进行比较,还有助于指导新质量措施的设计和提供基准。

不足:

1.随着维度越来越大,维数灾难也不可避免,导致采样消耗过大。目前Grassmannian的有效抽样仍然是一个开放的问题。

2.文章的可视化手段虽然能提供对线性投影一个全局的视角,但是在于用户的交互上还有待欠缺。

原作者:S. Liu等

笔记撰写人:高乐

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容