论文笔记_聚类:A New Simplex Sparse Learning Model to Measure Data Similarity for Clustering

这篇论文主要贡献点在于应用稀疏表示理论来构建图,并提供了一种比较常用的优化算法,相关论文和代码见http://www.escience.cn/people/fpnie/papers.html(尤其是优化算法的代码,很多地方都能用到)

Abstract

  • 基于图的拉普拉斯矩阵用途很广,但是拉普拉斯图的构造存在一些有待讨论的问题;
  • 问题包括:如何确定分析的规模,如何确定临近点的数目,如何处理多尺度的数据,如何解决噪声和极端值;
  • 本文提出:成对的数据点之间的相似度可以由确定约束的稀疏表示来进行计算;
  • 通过无参的方法自动生成拉普拉斯图,这样可以降低计算复杂度同时提高鲁棒性;
  • 本文同时提出了一种有效的算法来解决复杂的优化问题。

1

1.1 Background and Motivation

  • 图理论是数学的一个重要分支,基于图理论产生了很多算法及应用(聚类算法、半监督学习等),本文仅将讨论范围约束在可以转化成相似度矩阵的数据集;
  • 目前针对拉普拉斯图的构造存在的问题,有些方法解决了一部分的问题,如:Self-tuning spectral clustering 解决了如何确定分析的规模及如何处理多尺度的数据,但是尚无方法解决所有的问题;
  • 后文将先做铺垫,然后介绍 Simplex Sparse Representation (SSR)方法,并介绍一种新的加速算法。

Different Similarity Graphs

  • 这一部分主要介绍了几种目前计算相似度矩阵中各个点之间相似度的方法,包括连接所有相似度小于\epsilon的点;kNN;全连接图,如高斯相似函数;
  • 但是这三种方法都存在参数,需要一种无参且具有鲁棒性的方法,这就是本文的动机。

1.2 Introduction to Sparse Representation

  • 这一部分介绍稀疏表示的形式,假设数据点为d\times n的矩阵,d为特征,n为数据点个数。给出一个新的稀疏表示y和表示向量\beta,为了得到稀疏解,加上零范数的约束,得到目标函数:\min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _0\left \| \beta \right \|_0
  • L_0范数可以近似转化成L_1范数的形式,这样可以更容易进行优化求解(可以参考这篇博客https://blog.csdn.net/zouxy09/article/details/24971995):\min_{\beta} \left \|\beta\right \|_{1}, s.t. X\beta=y或者是:\min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _1\left \| \beta \right \|_1
  • 稀疏表示具有鲁棒性,且对数据的规模一致性没有限制,这样可以解决引言中提出的问题。

2 Similarity Matrix Construction with Simplex Representation

  • 普遍使用的高斯核函数在构建相似度矩阵时,对于参数十分敏感且难以调参。
  • 可以应用稀疏表示来计算相似度矩阵S,第i个特征和其他特征之间的相似度\alpha_i\in \mathbb{R}^{n-1}表示为:(此处论文是这么写的,但我感觉是笔误吧?应该是 第i个数据点和其他数据点之间的相似度吧)\min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1其中X_{-i}表示不含点x_i的数据矩阵。
  • 加入非负约束\alpha_i\geq 0,同时考虑到,数据点均等的发生变换的时候,相似度应该是不变的,因此应该再加上约束\alpha_i^T\mathbf {1}=1,这样就有:\min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1这其中的约束可以让第二项保持固定,因此变为:\min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1
  • 上述目标函数引入了稀疏解,可以用加速投影梯度法来进行优化求解,下一节将对这种方法进行介绍。

3 Optimization Details and Algorithm

  • 提出的加速投影梯度法通过逼近和迭代的方法来求解\alpha_i
  • 推导过程略,算法如下:


  • 其中的等式13为:


  • 算法中收敛的标准是\alpha_i的frobenius范数小于10^{-4}
  • 需要注意的是,这样得到的S是不对称的,因此相似度矩阵需要再进行一步对称化操作:W=\frac{S+S^T}{2}

3.1 Optimization Algorithm to Eq.(13)

  • 这一部分通过拉格朗日方法求解了等式13,过程略。

4 Experiments on Synthetic DataSets

  • 这一部分及下面几节都是实验相关,略。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353