Den-Stream

title: Density-Based Clustering over an Evolving Data Stream with Noise pdf

code: None

abstract

流式数据挖掘有两个重要的限制:有限内存空间一次性读取,并且有如下的需求:

  • 无法预知类别的数量
  • 能发现任意形状的类簇
  • 能处理outliers(噪声点)

本文提出的方法能够满足上述的需求,DenStream

introduction

  • core-micro-cluster: 总结数据流中的任意形状的类簇
  • novel pruning strategy: 一个新的剪枝策略
  • outlier-buffer: 用来分开core-micro-cluster 和 outlier-micro-clusters 两种处理过程,提高了算法效率
  • 高准确率

基本概念

时间窗口:界标窗口(landmark window),滑动窗口(slide window),衰减(阻尼)(damped window )窗口
本文采用衰减窗口来对不同时间的样本进行加权:

f(t) = 2^{- \lambda t}, \lambda > 0

\lambda越大,表示对历史的数据的权重越低

传统的密度聚类,例如DBSCAN算法,将所有的数据全部放入内存中,然后进行计算,将计算的结果返回出来,但是这种方法不切实际。

本文提出,对于历史久远的样本数据,在计算类中心的时候,采用衰减函数进行加权。\lambda 用于调节衰减速度

core-micro-cluster

密度聚类中的核心点组成的小类,例如DBSCAN的initial阶段生成的小类。

core-micro-cluster 定义为 c-micro-cluster, CMC(w,c,r) 定义为一个core-micro-cluster, 其中w为权重:
w = \sum_{j=1}^n f(t-T_{i_j}),w \ge \mu

其中点集p_{i_1}, p_{i_2}, ... ,p_{i_n} 对应的时间为: T_{i_1}, T_{i_2}, ..., T_{i_n}

c为该类的中心点:

c = \frac {\sum_{j=1}^n f(t-T_{i_j})p_{i_j}}{w}

r为平均半径:

r = \frac {\sum_{j=1}^n f(t-T_{i_j})dist(p_{i_j}, c)}{w}

在计算类簇的中心点的时候,使用到了衰减函数,因此这里的dist函数表示欧几里得距离

potential c-micro-cluster

这一部分借鉴了BIRCH的聚类思想,因为需要不断的update这一部分,因此采用了特征聚类树的概念。

这里需要计算特征树的几个参数:\overline {CF^1}\overline {CF^2}w

w为权重参数:

w = \sum_{j=1}^n f(t-T_{i_j}),w \ge \beta\mu

\overline {CF^1},加权样本线性和:

\overline {CF^1} = \sum_{j=1}^n f(t-T_{i_j})p_{i_j}

\overline {CF^2},加权样本平方和:

\overline {CF^2} = \sum_{j=1}^n f(t-T_{i_j})p_{i_j}^2

类簇中心c:

c = \frac {\overline {CF^1}} {w}

类簇平均半径r:

r = \sqrt { \frac {\overline {CF^2}} {w} - (\frac {\overline {CF^1}} {w})^2}, st. r \le \epsilon

outlier micro-cluster

该部分和上部分差不多,不过是密度不可达的点, 满足的条件如下:

w < \beta \mu

p-micro-cluster 和 o-micro-cluster 这两类的聚类方法采用的BIRCH的思想,因此是能够支持增量聚类。因为特征树的两个参数本身就支持线性变换。

clustering algorithm

online-stage

在线阶段,保持p-micro-clusters 和 o-micro-clusters在内存中,因为大部分新来的点都可以被吸收到这两种类别当中,online阶段就负责在内存中维护好这两个类别的点

当一个新的点来临时,通过计算点和最近的p-micro-cluster的距离,如果距离小于等于\epsilon, 则合并该点到这个p-micro-cluster中,否则尝试将该点合并到o-micro-cluster 中。详见paper 4.1 section

image.png

随着时间的推移,已经存在的p-micro-cluster 的权重不断的递减,如果权值低于\beta \mu,表明该micro-cluster要变成o-micro-cluster 了,因此需要一个周期性的检查,将这些“老化的” p-micro-cluster 逐渐变成 o-micro-cluster

最小时间(p-micro-cluster 老化成 o-micro-cluster):

image.png

上述等式成立基于这个等式: 2^{-\lambda T_p} \beta \mu + 1

这样一来, o-micro-cluster的数量就会不断的增加,但是实际上有的o-micro-cluster 是有可能变成p-micro-cluster的,理论上任何一个'o'点都有可能变成'p'点,但是内存有限,不可能无限期等待,因此我们在每个检查周期,判断每个o-micro-cluster的权值和\xi的大小,如果权值小于\xi,意味着该类在当前看来不会变成p类,可以从内存中删除该点。
\xi的定义如下:

image.png

周期性的检查的算法:

image.png

offline-stage

在线阶段负责维护micro-clusters,如果要计算最终的clusters,需要使用到p-micro-clusters计算过程中得到的c和w参数(虚拟中心点和权重)

定理:当两个p-micro-cluster的center点的距离小于r_q+r_p的时候,两个类就可以合并为一个新的类,迭代方法和传统的DBSCAN一样。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容