子空间聚类(转)

原链接:漫谈高维数据聚类(2):子空间聚类

1.子空间聚类

给定一个n个样本构成的矩阵X=[x_1,x_2,…,x_n]∈R^{m∗n},x_i∈R^m,并且已知这n个样本是分别来自k个子空间S_i,i=1,…,k。令d_i<m,i=1,…,k表示k个子空间的维度(其中d_i是未知的)。子空间聚类的目的是将这个n个样本正确地划归到各自所属的子空间中去,即将n个样本聚成k类,每一个类就是一个子空间。

从上图可以看到,总共有三个子空间,每个子空间上都有一些样本,位于同一个子空间内的样本就可以说是同一类的。每一个子空间有其相应的维数d,和一组基[b_1,b_2,…,b_d],由这组基可以表示该子空间中任意一个向量。

2.稀疏表示模型和低秩表示模型

目前,有四大类主流的求解子空间聚类问题的算法,分别是:

(1)基于统计的方法:混合数据假设是从服从某一概率分布(如混合高斯分布)中抽取出的独立样本集,于是数据的分割问题就转化为一模型估计问题。代表性的工作有凝聚有损压缩[2]和随机抽样一致[1];

(2)基于矩阵分解的方法:将数据矩阵分解为一正交基矩阵和一低秩矩阵的乘积,从分解结果的结构来揭示聚类的特性。当子空间含有噪声和奇异值,或者独立子空间的假设不成立时,此类方法的效果不尽人意。代表性的工作有K子空间分割[4];

(3)基于代数的方法:可以处理子空间不是相互独立的情况,但计算量大,且对噪声和奇异值敏感。代表性的工作有Generalized PCA(GPCA)[3];

(4)基于谱聚类的方法:谱聚类算法是一种对高维数据进行聚类的技术。基于谱聚类的子空间分割算法先根据观测样本求得一个相似矩阵,然后对这个相似矩阵进行谱聚类获得最终的聚类结果。代表性的工作有稀疏子空间聚类[5]和低秩表示子空间聚类[6][7]。

这里我们展开解释稀疏表示低秩表示

稀疏表示(Sparse Representation)

稀疏表示这一概念的提出,说到底还是受到压缩感知理论[8][9]的启发。该理论认为很多高维数据是冗余的,如果其具有可压缩性,那么可以只需要通过少量的采样便可恢复原始高维数据。更简单地说就是,许多高维数据是存在其低维表示的。

学过线性代数的都应该知道线性相关这一概念,即向量组X=[x_1,x_2,…,x_n],其中x_iX的列向量,若存在不全为0 的系数a_1,a_2,…,a_n,使得a_1x_1+a_2 x_2+…+a_nx_n=0成立,则说x_1,x_2,…,x_n是线性相关的,如若a_i不等于零,那x_i就可以被其余向量线性表示,即x_i=-(a_1x_1+a_2x_2+…a_{i-1}x_{i-1}+a_{i+1}x_{i+1}+…+a_nx_n)/a_i

有了以上两个认知,就可以理解稀疏表示了。在前面提到过位于同一个子空间中的样本,如果样本数足够多,那么某一个样本x_i是可以被与它位于同一个子空间中的其他样本线性表示的,而我们希望用尽量少的样本来表示x_i,这就是稀疏表示的简单理解,用数学语言描述该模型如下:

给定一个n个样本构成的矩阵X=[x_1,x_2,…,x_n]\in R^{m\times n},x_i\in R^m,其中每一列是一个样本,由Xd个样本构成一个“字典”D=[x_{i1},x_{i2},…,x_{id}]\in R^{m \times d},D中每一列成为原子。那么,每一个样本都可以表示成“字典”中原子的线性组合:

X=DZ

其中,Z=[z_1,z_2,…,z_n]是系数矩阵,z_i是样本x_i的“表示”。而字典D通常是过完备的,因为经常是选取全部样本作为字典,即d=n。因此,上市会有多个解。但是如给系数矩阵加上约束,则会有唯一解。稀疏表示即是要求系数矩阵Z是最稀疏的,即

\min \Arrowvert Z \Arrowvert_1

s.t.\quad X=DZ

其中,\Arrowvert \cdot\Arrowvert_1是求矩阵所有元素的绝对值的和。进一步,这个模型还可以加上噪声,即

\min \Arrowvert Z \Arrowvert_1+\lambda\Arrowvert E\Arrowvert_F

s.t.\quad X=DZ+E

低秩表示模型(Low-rank Representation)

低秩表示模型和稀疏表示模型几乎一样,区别仅在于对系数矩阵的约束不同,在低秩表示中,它期望系数表示矩阵Z尽可能的低秩,用数学语言描述如下:

\min rank(Z)

s.t.\quad X=DZ

其中,rank(Z)表示矩阵Z的秩。与\ell _0范数一样,秩函数也具有离散组合性质,因此求解上式是一个NP难得。但是如果上式存在一个较低秩的解的话,秩优化问题可以被松弛为核范数最小化问题,即:

\min \Arrowvert Z \Arrowvert_*

s.t.\quad X=DZ

其中,\Arrowvert \cdot \Arrowvert_*是矩阵的核范数。松弛的原理可以这么理解,一个矩阵的秩等于其非零奇异值的个数。那么矩阵的秩最小化等价于矩阵的奇异值非零个数尽量少,进一步可以松弛为矩阵的所有奇异值的和尽量小。

低秩表示模型是在稀疏表示模型之后提出来的,当然它比稀疏表示模型的性能更好,这是因为低秩表示模型中的核函数自带聚集属性,具体的原因我推荐论文[10]中的讲解(在其第五章中)。

求解上述两个模型的方法有很多,有兴趣的朋友可以参阅论文[11]。

Reference

[1]Fischler M., Bolles R. RANSAC random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Journal of ACM, 1981, 24(6): 381–395.
[2]Ma Y., Derksen H., Hong W., Wright J. Segmentation of multivariate mixed data via lossy coding and compression. IEEE Trans. Pattern Analysis and Machine Intelligence, 2007, 29(9): 1546–1562.
[3]Vidal R., Ma Y., Sastry S. Generalized principal component analysis (GPCA). IEEE Trans. Pattern Analysis and Machine Intelligence, 2005, 27(12): 1–15.
[4]Lu L., Vidal R. Combined central and subspace clustering on computer vision applications. In: Proc. 23rd Int’l Conf. Machine Learning (ICML), 2006, pp.593–600.
[5] Elhamifar E, Vidal R. Sparse subspace clustering[J]. IEEE Conference on Computer Vision and Pattern Recognition, Cvpr, 2009:2790 - 2797.
[6]G L, Z L, S Y, et al. Robust Recovery of Subspace Structures by LowRank Representation[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2010, 35(1):171 - 184.
[7]X G, K Z, D T, et al. Image SuperResolution With Sparse Neighbor Embedding[J]. IEEE Transactions on Image Processing, 2012, 21(7):3194 - 3205.
[8]Donoho D L. Compressed sensing. IEEE Transactions on Information Theory,2006 52(4):1289-1306.
[9]Cand6s E.Compressive sampling.Proceedings of Proceedings of Inter-national Congress of Mathematicians,2006.1433-1452.
[10] 卢参义. 基于稀疏表示的人脸分类与聚类[D]. 中国科学技术大学, 2012. DOI:10.7666/d.y2126052.
[11]Lin Z, Chen M, Ma Y. The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices[J]. Eprint Arxiv, 2010.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 226,130评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,210评论 3 410
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 173,639评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,755评论 1 304
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,694评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,160评论 1 317
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,359评论 3 433
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,436评论 0 282
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,990评论 1 328
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,981评论 3 351
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,089评论 1 359
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,669评论 5 353
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,363评论 3 342
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,762评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,950评论 1 278
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,689评论 3 384
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,124评论 2 368

推荐阅读更多精彩内容