Efficent density-based clustering algorightms
title: Design of computationally efficient density-based clustering algorithms ---- pdf download
code: None
abstract
本文针对基于密度的聚类方法,提出了优化策略,能够大幅度降低计算复杂度。针对DBSCAN聚类策略,首先通过快速融合策略来降低初始化阶段的计算复杂度,然后考虑到相似性度量时候的相关系数,通过相关性来判断两个点是否属于同一个类。
proposed algorithm
DBSCAN算法一共分为两步:初始化核心对象和合并小的类两个步骤,该方法和传统的DBSCAN的方法有所不同,传统的DBSCAN中提到的两阶段方法如下:
- 第一步,计算所有的核心对象,得到核心对象集合
- 第二步,随机从核心对象集合中间取一个样本,计算该核心对象所有密度直达的点,依次判断这些点是否是核心对象,如果是的话,就加入到该核心对象的cluster中,否则(边界点)跳过该点。其中每个点只能被访问一次,也就是说每个点一旦被某个cluster吸收进去了,就不会在被其他cluster进行吸收,因此DBSCAN的最终分类的结果和样本的访问顺序是有关的,即DBSCAN是一种不稳定的聚类方法。
针对DBSCAN的方法,本文在第二步的时候,没有依次判断核心对象的所有密度直达的点是否是核心对象,而是在第一步计算完所有的核心对象之后,得到每个核心对象的small cluster之后,对这些small cluster进行合并,并且采用了一种很巧妙的方法极大的降低了计算复杂度。
合并策略如下
(1)基于距离度量的快速合并算法
对于两个cluster A 和 B,两个cluster的距离计算如下:
其中y和z分别是 和 的边界点,因此(1)的计算复杂度应为
加速策略:
但是考虑到每个cluster在高维空间是一个球形,因此我们先计算cluster A 和 cluster B的点,分别为和,如果 和 之前的距离大于, 则A和B的最小点的距离必然大于,根据这个条件,我们可以判断两个类是否进行合并。
(2)基于相关系数的度量
对于两个cluster A 和 B,两个cluster的距离通过皮尔逊相关系数来确定,相关系数的值为-1到1之间,计算如下:
的值具有如下两个特性:
- 对称性:
- 位置和尺度不变性:
该种方法要求在DBSCAN的第一步的寻找核心对象的时候,采用相关系数来判断一个类是否为核心对象:
因此,两个cluster是否合并,取决于两个cluster的最大相关系数是否大于给定的阈值,公式如下:
加速策略:
采用相关系数来替代空间密度的方法,最后聚的类不能采用球形那种判断策略,因此采用两个cluster的均值来代替。