基于Storm的海量数据实时聚类

title:基于Storm的海量数据实时聚类

contribution

本文提出的聚类方案是基于DBSCAN密度聚类的方法。首先对于输入的样本进行缓冲,当缓冲样本的数量达到条件之后,对这些批量的样本(mini-batch)进行密度聚类,得到相应的核心对象。

对于历史的已经聚好类的样本,需要维护核心对象列表,然后将新来的mini-batch得到的核心对象和该列表重新进行DBSCAN聚类,如果核心对象在一起,则合并两个类簇。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 其他 这篇文章的整体排版主要是根据个人的博客来哒,如果感兴趣的话可以去我的自己搭建的个人博客看这篇文章。 正文 聚...
    DeamoV阅读 6,036评论 0 1
  • 本篇结构 简介 聚类算法的分类 K-Means聚类算法 DBSCAN聚类算法 本篇介绍了聚类算法的种类,重点关注K...
    w1992wishes阅读 12,191评论 0 14
  • 一、算法描述 DBSCAN(Density-Based Spatial Clustering of Applic...
    owolf阅读 19,632评论 2 8
  • 本次目标 密度聚类 DBSCAN算法 噪声:特征还包括不能被其他样本密度可达 课堂问答 问: 每个p都必须是核心对...
    blade_he阅读 4,353评论 0 50
  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 41,608评论 3 51