MR-IDBSCAN: Efficient Parallel Incremental DBSCAN Algorithm using MapReduce

MR-IDBSCAN

title: MR-IDBSCAN: Efficient Parallel Incremental DBSCAN Algorithm using MapReduce pdf download

code: None

abstract

本文基于DBSCAN的思想,提出了一种结合HadoopMapReduce计算框架的并行增量式DBSCAN聚类方法。在大数据量的情景下,该方法能够大幅度降低计算复杂度

introduction

聚类是一种无监督学习方式,根据类型不同,通常可以分为基于层次、基于划分、基于密度和基于网格的几种类型。DBSCAN是一种基于密度的聚类算法,通过将紧密相连的样本划分为各个不同的类别,就能得到最终的聚类结果。

DBSCAN基于一组领域来描述样本集的紧密程度,参数epsMinPts分别表示领域距离的阈值和领域样本的个数,当满足领域阈值的样本个数大于等于MinPts的时候, 得到核心类,逐次迭代,得到最终结果。

DBSCAN具体的密度描述定义如下:

1) ϵ-邻域:对于xj∈D,其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集,即Nϵ(x_j)={x_i∈D|distance(x_i,x_j)≤ϵ}, 这个子样本集的个数记为|Nϵ(x_j)|

  1. 核心对象:对于任一样本x_j∈D,如果其ϵ-邻域对应的Nϵ(x_j)至少包含MinPts个样本,即如果|Nϵ(xj)|≥MinPts,则x_j是核心对象。

3)密度直达:如果x_i位于x_j的ϵ-邻域中,且x_j是核心对象,则称x_ix_j密度直达。注意反之不一定成立,即此时不能说x_jx_i密度直达, 除非且x_i也是核心对象。

4)密度可达:对于x_ix_j,如果存在样本样本序列p_1,p_2,...,p_T,满足p1=xi,pT=xj, 且pt+1由pt密度直达,则称x_jx_i密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本p_1,p_2,...,p_{T-1},均为核心对象,因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性,这个可以由密度直达的不对称性得出。

5)密度相连:对于x_ix_j,如果存在核心对象样本x_k,使x_ix_j均由x_k密度可达,则称x_ix_j密度相连。注意密度相连关系是满足对称性的。

参考资料:

contribution

本文提出的一种增量式DBSCAN的方法,能够将新来的数据聚合和成的类,然后和之前的cluster进行合并操作。该算法中采用R-*树数据结构实现高维空间的索引。算法只考虑新数据和老数据的交集,对于每一个交集中的点,用增量式DBSCAN算法来确定新cluster的成员。

新类和老类的epsMinPts应该是一致的。

新类和老类合并过程中,old cluster中密度不可达的点(Noise point)可能变成密度可达的点(Border point),old cluster中的border point也有可能变成了核心对象(Core point),因此合并过程中,我们需要考虑的就是这些变化情况。

algorithm

IDBSCAN : Incremental DBSCAN algorithm

增量式DBSCAN算法描述:

  1. 初始数据集按照DBSCAN的方法聚类,得到C=\{C_1, C_2,..., C_k\}的类簇
  2. 新加入的数据集单独按照DBSCAN的方法聚类,得到C'=\{C_1, C_2,..., C_k\}的类簇
  3. 计算CC'有相交部分的cluster,得到这些 cluster 的点(affected point),记为APS
  4. 从C中的核心对象出发,依次判断 APS是否密度可达,是则合并该点所在的cluster和C中当前的可达的核心对象的cluster
  5. 从C中的(border point)出发,依次判断 APS是否密度相连(old cluster 中的border point 变成了 new cluster 的core point),是则合并该点所在的cluster和C中当前的可达的核心对象的cluster
  6. 不满足4和5的点,保持不变;APS之外的incremental cluster也保持不变,都合并到new cluster
  7. 对于 old 和 new cluster 的噪声点(Noise point),如果变成了某个cluster的border point,则将被吸收到该cluster中。

MR-IDBSCAN:

MR-IDBSCAN在IDBSCAN的基础上,使用Hadoop的Map Reduce框架实现了大规模数据下的增量式聚类。

MR-IDBSCAN

LC: Local Cluster, 在每个Map任务中,单独进行聚类之后的局部的cluster
GC:LC合并之后,得到的Global Cluster

summary

这篇文章利用Hadoop MapReduce计算框架,提出了增量式DBSCAN的聚类方法,能够在解决大规模数据下,单机无法处理的问题,并且增量式聚类能够显著降低计算量。

image.png

随着数据量的增大,MR-IDBSCAN的方法计算速度上的优势越来越明显

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容