基于深度神经网络的聚类综述

      发现看了挺久时间的聚类算法,没有总结,很容易忘,文章主要是基于【1】来讲解,因为主要就是看了这篇论文,其他资料以及论文都是延展出来看的。

      到目前为止基于深度学习的增量聚类还研究的不多,先讲一下现在基于深度神经网络的聚类(批量数据处理),传统神经网络大都是基于有监督的,并且通过BP算法来逼近全局最佳编码。06年之前,bp被认为在深度神经网络训练的时候会出现梯度消失的问题,即前面隐藏层训练的速度会慢于后面的隐藏层,这使得深度学习事实上并不能利用多个隐藏层,这一问题在06年被解决,加拿大多伦多大学教授Geoffrey Hinton提出来利用稀疏自编码机进行 “ 逐层无监督预训练 ” ,从而使得深度学习再一次变为焦点。

        实际上在无监督的深度学习上有两条主线:①自编码机(AE)-------->稀疏自编码机(SAE)

                                                                  ②限制性玻尔兹曼机(RBM)--------->深度信念网络(DBN)

        关于这两条主线,https://www.zhihu.com/question/41490383知乎上科言君的回答非常的好,我所写的这方面背景内容大部分来自于此,读者可以参考。(http://www.fx361.com/page/2017/0907/2227848.shtml 同样再给个链接,这里对于以上两条主线都有详细讲解)

        然后在基于深度学习的聚类算法里面,13年给出了一个专利【2】,专利实际上就是基于深度信念网络和稀疏自编码机的聚类。

        讲到这里实际上背景基本交代清楚了,下面探讨一下深度学习批量聚类算法的优缺点

    缺点:①以上交代的能实现的深度学习的聚类算法都是对数据批量处理的,即一次性给定所需训练的数据,模型训练好以后一旦有新的数据进来,这时候就需要将所有数据合并重新训练,这就导致了新模型对之前训练的老模型的信息丢失了,这便是著名的 “遗忘灾难”,所以对于深度学习的增量聚类的研究就显得很有必要,具体的方法将在后面做详细讲解。

                ②在深度训练大数据的时候会出现时间过长的问题,bp算法耗时而且很容易出现梯度消失。

    优点:①在专利【2】上指出,深度学习聚类算法提出的背景是因为现在流行的一些聚类算法如基于密度聚类,K-means,谱聚类等在大数据的情况下因为消耗内存较大使得在实际应用中特别的浪费资源。在大数据下,使用了深度学习聚类以后能够在占用较小的内存的情况下还能拥有更高的聚类精度。

      下面正式开始讲基于改进神经网络的增量聚类,此处主要是在以往经验的基础上作者提出的新的增量神经网络,相比于同样可以做聚类的传统增量神经网络ART而言,这个神经网络能够成功的避免遗忘灾难(意为ART并没有完全避免遗忘灾难),同样,此网络在统计学上有意义(现有的神经网络和ART的激活函数大都基于经验式,并没有统计学上的意义)。

我们知道传统神经元和神经系统模型如上所示:激活函数为sigmoid函数,只要是个类S型函数都可,神经元之间的突触连接权重Wi为数值。

        但是作者新给出的神经元激活函数和突触连接权重如上图所示f(x)是一个

      ①传统激活函数的意义是激活的神经元是释放出‘’1"这个信号,未激活的释放"0"这个信号,而这个激活函数的意义是当神经元激活时候释放"1"信号,当未激活时则不连接。 

      ②突触连接权重W的等式和上图图像类似,其中Si表示小突触数(可以理解为突触一大条w是由许许多多小的突触合成的)。实际上突触的概念在神经学上也指出神经元之间的突触并不是只有一条,传统神经元模型里把神经元之间的突触连接直接简化为一条,这隐含着一个信息,神经元之间的突触总强度是所有小突触的强度之和。显然这个是不对的,不符合神经学。实际上研究表明,神经元之间的突触连接的总强度是和当前连接强度成负相关的,即突触总强度W是非线性变化的。

      给定了激活函数和突触权重,实际上在寻找网络全局最佳编码的时候该怎么做,上述各种神经网络都是在基于BP反向传播的方法来进行调整的,我们说了这个方法比较耗时,所以作者在文中提到了一个直接通过计算得到网络的全局最优编码,这样就会使得网络的运行变得极快,因为它只需要进行一次训练。(私心想着作者可能就是这个想法才让文章发表出去了吧!!!)


在这三个等式里面,前两个等式已经交代过,第三个等式的意思是表示神经元之间的突触总数是恒定的(但是突触总强度W是不恒定的,ART里面规定了W是恒定的反而突触的数量不恒定,这反而导致了不完全避免"遗忘灾难",具体请看论文理解,笔者实力有限,描述不出来)。

    这样通过对这个资源优化方程组的解得到全局最优编码。

      下面讲一下神经网络的增量设定,该神经网络引入了"侧向竞争"和"胜者得全"机制,有看过SOM和ART的读者应该都清楚这个机制,这个机制是能够进行增量训练的基础,笔者抛砖引玉,大家应该知道怎么做了,这里不再赘述。


基于此神经网络的聚类模型已由上述给出,大家可以参考着去实现,笔者若实践了该网络会给出相关代码。


如果有质疑该网络的,以上是该聚类算法(文章称Incnet)在批量聚类时候和K-means以及EM的对比,相信它的效率已经足以证明这个网络的有效性。

                                                                                      总结

        作者也在文中表明,它给出了这个网络的理论基础,提出了这样一个方向,它可以研究的地方还有很多,因为它不仅有扩展到深度的潜力,还有不用BP的优点,我们知道传统神经网络在单层时候解决不了异或问题,而它可以(具体请看论文,看懂了的能否在评论下予以讲解谢谢!!)

                                                                                  reference

【1】增量式神经网络聚类算法

刘培磊,唐晋韬,谢松县,王挺

国 防 科 技 大 学 学 报

2016 年 10 月第 38 卷 第 5 期

( 1. 国防科技大学 计算机学院,湖南 长沙 410073;

2. 国防信息学院 信息化建设系 信息资源管理教研室,湖北 武汉 430010)

【2】一种基于深度学习的聚类算法  专利号:CN 103530689 A

申请号:201310530626.9  申请日:2013.10.31 公布日:2014.01.22

申请人:中国科学院自动化研究所

地址:100190 北京市海淀区中关村东路95号

发明人:谭铁牛 王亮 黄永帧 宋纯锋

专利代理机构: 中科专利商标代理有限责任公司 11021

代理人:宋焰琴

Int。CI。

G06N 3/08(2006.01)

G06K 9/62(2006.01)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,884评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,212评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,351评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,412评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,438评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,127评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,714评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,636评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,173评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,264评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,402评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,073评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,763评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,253评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,382评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,749评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,403评论 2 358

推荐阅读更多精彩内容