聚类算法归纳与整理

学号:20031211597  姓名:邹志强

转载自:https://blog.csdn.net/weixin_46992615/article/details/110798497

【嵌牛导读】

由于课题研究需要聚类算法,故将看过的论文整理后发布在博客中,方便后续查看。

聚类的目的:达到类内的相似性与类间的排他性,也就是说具有相似特性的对象放到一起。

一般而言,聚类指将没有分类标签的数据集,分为若干个簇的过程,是一种无监督的分类方法。实际上,很难对聚类下一个明确的定义,因为聚类分析本身是一种建立在主观判断基础上的相对行之有效的方法。

【嵌牛鼻子】机器学习;聚类算法

【嵌牛正文】

聚类算法整理

介绍

相似性度量

常见的相似性度量算法

聚类算法的分类

传统聚类

划分聚类

K-Means:

混合密度聚类:

图聚类:

模糊聚类:

基于密度的划分聚类:

层次聚类

智能聚类

人工神经网络聚类

核聚类

介绍

由于课题研究需要聚类算法,故将看过的论文整理后发布在博客中,方便后续查看。

聚类的目的:达到类内的相似性与类间的排他性,也就是说具有相似特性的对象放到一起。

一般而言,聚类指将没有分类标签的数据集,分为若干个簇的过程,是一种无监督的分类方法。实际上,很难对聚类下一个明确的定义,因为聚类分析本身是一种建立在主观判断基础上的相对行之有效的方法。

相似性度量

聚类分析是将数据集的相似性样本归为若干类的方法,因此,如何度量样本之间的相似性是聚类算法的关键问题

常见的相似性度量算法

(1)欧氏距离

(2)马氏距离

(3)相关系数

(4)余弦相似度

聚类算法的分类

划分聚类的里又包含传统的基于划分、基于密度、基于网络的聚类算法

大小数据划分是依据有效数据量1012字节为阈值划分体量

传统聚类

划分聚类

针对一个包含n 个样本的数据集,先创建一个初始划分; 然后采用一种迭代的重定位技术,通过样本在类别间移动来改进聚类簇。

其代表算法是K-Means、混合密度聚类、图聚类、模糊聚类等

K-Means:

对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

(由上图的算法流程,简单来说,这个算法就是随机聚类中心,然后计算各个样本与聚类中心的相似度进行分类,接着按照分类结果计算簇中心,再次计算所有样本与簇中心的相似度,按此方法不断迭代最后形成稳定的聚类结果)

聚类结果的好坏依赖于初始聚类中心的选择;

对异常样本点较为敏感

出现了很多改进,如:

用于处理异常数据的K-MEDOIDS

加速迭代过程的X-Means

克服只能处理数值型数据缺陷的K-MODES

混合密度聚类:

混合密度聚类算法从概率分布的角度,假设样本集有若干个内在的概率分布,然后利用不同的概率分布来划分聚类簇。这样,聚类过程变成了寻找几个概率分布参数的过程,这些概率分布一般为常用的分布,如高斯分布、t 分布等

图聚类:

图就是:顶点+边构成的图

顶点:样本点

边:样本点的相似度

聚类:顶点的划分

如下图所示:

其中最具有代表的图聚类算法是谱聚类

谱聚类:是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行分析来完成聚类。能够识别任意形状的聚类簇并可以收敛于全局最优解在图像分析领域有着广泛的应用。

具体详情可见刘老师的博客: 谱聚类.

模糊聚类:

大名鼎鼎的FCM,该算法使用隶属度来确定样本点的相似性,通过隶属度值大小来将样本归类,是一种基于目标函数的模糊聚类方法。目标函数如下:

FCM详解(python).

基于密度的划分聚类:

将数据集看作低密度区域隔开的若干个高密度簇的集合,该方法的主要特点是可以识别任何形状的簇。

如:DBSCAN

*除了传统的划分聚类算法之外,还出现了一些新的划分聚类算法,如同步聚类、近邻传播(AP)聚类、密度峰值快速聚类DPC与大规模数据集聚类等。

层次聚类

按照构建树形结构的方式不同,可以将聚类分为自顶向下和自底向上两种构建方式,分别称为聚合型层次聚类与分裂型层次聚类。下图为层次聚类构建示意图:

应用领域包括基因表达谱分析、文本聚类、并行工程组结构等

**聚合型层次聚类:**首先将每一个样本都称为一个聚类簇,然后计算簇间的相似度,分层合并,直到最后只有一个簇为止或满足一定的终止条件。

**分裂型层次聚类:**首先将所有的样本都看作是一个聚类簇,然后在每一步中,上层聚类簇被分裂为下层更小的聚类簇,直到每个簇只包含一个样本,或者满足终止条件为止。如:

使用具有代表性的一些点来代替聚类簇中的一个中心样本的CURE算法

对CURE算法的改进,使之具有识别类别属性功能的ROCK算法

将原始数据转化为二进制位数据,样本点之间的相似性度量只在正比特位上进行的正二进制算法

智能聚类

人工神经网络聚类

自组织映射(SOM)就是一种利用人工神经网络进行聚类的算法。该方法将所有的样本点逐一进行处理,并将聚类中心映射到二维空间,从而实现可视化。

与传统的模式聚类方法相比,它所形成的聚类中心能映射到一个曲面或平面上,而保持拓扑结构不变。对于未知聚类中心的判别问题可以用自组织映射来实现。

核聚类

核聚类方法是将样本点从输入空间通过核函数映射到高维空间。这种非线性映射,将不能线性可分的数据集在高维特征空间中变得线性可分,从而在高维空间中利用线性方法完成聚类,这样极大地提高了非线性聚类的性能和可伸缩性

**支持向量聚类算法:**首先将输入映射到高维空间,结合高维空间的点在输入空间的位置特性,进行聚类划分。下图为高维空间的映射示意图:

[说明]:由于大数据聚类算法目前暂时用不到,所以只归纳到这里。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容