1.Introduction:
contributions:
(1) A method for reconstructing dimensions that preserves interesting cluster information in subspaces;(维度重建思想保存子空间中令人关注的信息簇)
(2) An analytical pipeline and a visualization tool to support the coordinated works of RDs and original dimensions in the interactive exploration of subspace clusters.(提供分析流水线和可视化工具支持维度重建和原始维度的协同工作)
3.Dimension Reconstruction
思想流程:
分为3部分:
a. 通过PCA或MDS等降维技术将n维的数据空间投影到2维的数据空间。
b. 交互子空间分析:将原始维度空间分成多个子空间,为了观察子空间簇将这些子空间投影为二维结果。
(i为子空间数量,ni表示第i个子空间的维数。)
高维数据集:有3类数据点,分别标示为红绿蓝。
<li> Subspace 1: 绿色样本是 separable.
<li> Subspace2:蓝色样本是 well clustered.
<li> Subspace3:绿色和蓝色是separable,红色是 boundaries.
下一个目标:构建新的子空间使三类样本 well clustered.
c. RD1保存了绿色样本点的cluster information.
RD2保存了蓝色样本点的cluster information.
RD1和RD2合并到第三个子空间中。则子空间3变为n3+2维。
(m:原始维度n的总和;mi: 在第i个子空间的个数; rj:在第j个子空间中构建的新维度;
If(子空间簇结构简单){ 可以直接用二维投影进行维度重建; } else if(子空间簇结构复杂){ 用一些算法自动构建新簇的candidates; };
如果用户对每一个子空间的二维投影进行标记,则我们可以认为这个高维数据已经被标记了,因此下面的问题就是如何找到最优投影使interesting information还原度最高。
LDA:低维空间分类方法,帮助用户找到子空间的最优二维的线性投影。图二:二分类问题。RD1:类间距离最大,类内距离最小。
Z-score标准:数据标准化方法。进行原始维度和RDs的值的归一化。
4.可视化和交互
a.交互式构建子空间。通过从整体到局部的维度信息的视觉再现帮助用户选择维度。整体由二维散点展示整体的维度关系,局部由维度直方图展示每一维的数据分布。
b.探索子空间的数据规律。提供多个数据视图,每一个数据视图是一个子空间的二维投影,用户可由此判断簇结构和维度权重。
c.维度重建。两种方法:手工和自动。
(a)维度投影散点图:用于子空间构建。点代表原始维度,星代表RDs。位置由MDS根据两两之间的关系得到。密切相关的维度相邻。
(b)直方图:提供原始数据在某一维度的分布信息帮助用户进行子空间的构建。
5.Case Study
数据:食品成分数据。This data set contains 722 samples and 18 dimensions.