结合K近邻的改进密度峰值聚类算法总结

结合K近邻的改进密度峰值聚类算法总结

解决的问题:

解决了处理维数较高,含噪声及结构复杂数据集时聚类性能不佳等问题。

DPC优点:

不仅能够检测出样本集中存在的聚类数目,而且能够有效地处理不规则形状的簇以及异常样本。

DPC缺点:

(1)对于大小不同的数据集,采用的局部密度计算方式不同,这无形中降低了算法的灵活性;

(2)对剩余点的分配策略易造成误差传播 

隐患:

对于分布稀疏的数据,ρ - δ 决策图难以确定聚类中心。可以用γ = ρ × δ 决策图来代替。

改进的点:

改进点1:密度计算方式的改进

由距离 δ 定义可知,δ 值的大小与密度 ρ 也密切相关,故 ρ 对于聚类中心的选取至关重要。由于 DPC 算法的密度计算方法不一致且深受截断距离 dc 影响,其不能够保证与当前点距离小于 dc 的点的数目,故有不少成果对该算法中的密度公式进行了改进 所以首先改进密度公式:


相当低于把dc换掉了,换成了K,尽管K相对有更容易确定些,但面对类 间 样 本 数 不 均 衡 以 及 疏 密 度 不 一 的 数 据 ,使 用γ = ρ × δ 方式选取聚类中心时,类中心点与其他点的区分度并不高 

为了解决这一问题,从数据整体分布出发,引入了相似性调节系数,给出了一种带有相似性系数的高斯核函数来计算局部密度。


其中,σ 取数据量的2%,r(人工给,仍然存在隐患) 为相似性系数,表示密度函数与数据点间相似度的关系程度,该值越大,距离点 xi越近的点对其密度 ρi 的贡献权重越大。



改进点2:分配方式的改进

引入核心点的概念:

由于聚类中心往往出现在高密度区域,故将各聚类中心某邻域内的点看作核心点,而将其他点看作非核心点。

核心点的获取方法:

1,先求出簇中心

2,将剩下的点分配到距离其最近的聚类中心所在的类中

3,计算类中所有点到簇中心的距离,求出平均距离。

4,若点在平均距离之内,叫做核心点。 

分配剩余点(非核心点):

两种方式:(全局搜索策略和统计学习分配策略)

全局搜索策略:

以核心点的中心,不断搜索未分配KNN点,并将其分配到核心点所在的簇中。

统计学习分配策略:

通过学习每个剩余点被分配的至各个簇的概率来将其归类。


注:每点的归属由其KNN分布信息决定,若 xi 的KNN(KNNi)中属于某个簇的点越多且与 xi 的距离越近,则两点之间相似度越大,此时xi 被分配到这个类的概率也越大。 




论文中算法步骤:

输入:数据集 X ,相似性系数 r ,最近邻个数 K 。

输出:类标签 labels 。

步骤1 计算每点的 δ 与 ρ (新的方式)值。

步骤2 通过决策图获取聚类中心。

步骤3 提取核心点,并采用全局搜索分配策略将待分类点归类:

(1)将核心点集合 Xcore 置入队列 Q 。

(2)取队列头 xa ,并将之从 Q 中删除,然后查找其K 个最近邻 KNNa 。

(3)若 x′ ∈ KNNa 未被分配,则将 x′ 分配到 xa 所在的类中,并将 x′ 添加至 Q 尾部;否则转(2)。

(4)若 Q = ∅ ,终止该策略。

步骤4 采用统计学习策略分配剩余 k 个点:

(1)依式(9)和(10)计算每点的 Pim(i = 1,2,…,k) ,并将该值存至矩阵 P k × M,同时将 max(Pim) 的值以及类别号 m 分别存至向量 MP 和 MI  

(2)若 MP 中有非零值,则将 Pom 值最大的点 xo 归入 MI(o) 所表示的类中,转(3);否则终止该策略。

(3)更新 P、MP、MI ,令 MP(o) = 0 。对于未分配点xp ∈ KNNo ,更新 P[p][m] 、MP(p) 及 MI(p) 。

(4)若 MP 中所有元素均为0,则终止;否则转(3)。

步骤5 仍未被处理的点可看作噪声点,并将之归入到其最近邻所在的类中 

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容