存在的问题:当各个聚类中心的密度的差异较大,或者同一个类中包含多个密度中心时,DPC计
算效果受到影响?
主流改进的点dpc:在聚类中心的判断,截断距离dc 的选择,密度计算方法的修改
基于二分法的改进:算法主要分为四个部分
算法1
1.利用KNN求dc(dc自己规定的公式。)
2.计算高低密度的分界值。
3.调用算法2,对高密度点进行密度中心计算
4.调用算法3,实现聚类中心合并
5.调用算法4,实现数据点的分配。
算法2
1.重新计算高密度点的ρi。
2计算δi
3.计算聚类中心点。
算法3
1.计算聚类中心点两两之间是否dc可达。
2.如果两个点之间dc可达,把两者中密度较小点从集合C中删除。
算法4
1. 对于高密度点使用与原密度峰值聚类方法算法同样的策略。
2. 对于低密度点做如下操作
2.1 首先通过以下公式定义点 i 和 j 之间的相似度wij 。
2.2 定义类归属的概率,点 i 到点 c 的概率 pc i 。
2.3 对 pc i 进行排序升序排序,点 i 归属到比它大一些的那个点j