- WHY
传统时间序列聚类的缺点:
1)时间序列聚类的研究一般采用等长划分,会丢失重要特征点,对聚类结果有负面影响。
2)采用时间序列测量值不能准确度量相似度。
如下埃博拉出血热、卫生部在数值上很相似,但教育部和卫生部在形状更相似。若是以形状作为度量传统的欧氏距离可能就不太合适了。
不等长时间序列滑窗STS聚类算法:
1)通过标准分数z_score预处理,消除时间序列观测值数量级差异的影响。
2)更改了相似度计算的方式,采用基于滑窗的方法计算不等长序列的距离。
3)采用类k-means的聚类算法的中心曲线计算方法。
- WHAT
时间序列数据因其趋势信息的直观展现形式,广泛应用于社交网络、互联网搜索和新闻媒体数据分析中。例如:Google应用搜索流感的相关信息的时间序列预测流感爆发趋势。根据某话题热度时间序列数据趋势的规律性,通过聚类区分不同类型的时间序列数据。同一类簇的Twitter话题具有相同或相似的发展趋势,进而应用于话题的发展趋势的预测。
时间序列聚类算法可以分为两类。
1)基于原始数据的时间序列聚类算法。
2)基于特征的时间序列聚类算法。
基于特征的时间序列聚类算法指根据原始数据从时间序列中提取形态特征(极值点位置、分段斜率)、结构特征(平均值、方差等统计值特征)、模型特征(模型的预测值),从而根据这些特征值进行聚类。这类方法的优点解决了不等长时间序列聚类问题,缺点是减弱了原始数据值得影响,聚类的形状趋势信息往往比较粗糙。
3. HOW
一、距离度量公式
STS距离计算的是累加时间序列间每个时间间隔斜率差的平方,公式
如上图所示,g1、g2和g2、g3的欧式距离的数值更相近。g1、g2的STS距离大于g2、g3的数值。在形状距离上,STS距离计算方式表现更好,一定程度上可以解决欧式距离度量时间序列局部特征信息确实和受观测数值数量级差异影响大的问题,但是依旧无法度量不等长时间序列的距离。
基于滑窗的STS距离公式。
如上图所示,当计算不同长度的时间序列的s和r的距离时,先不断平移时间序列s,然后找到s和r距离最近的字段,就如同上图虚线之间的位置,此时s和r距离最近,这个最近距离作为s和r之间的距离。
二、预处理过程
z-score标准分数用数据观测值和观测值平均值的距离代替原观测值。z-score处理后的数据平均值为0,标准差为1。标准差的作用是统一量纲,去除数值的数量级差异影响。
总结
本论文提出了形状距离的不等长时间序列的聚类方法。我们可以学到的有
1)z-score统一量纲,消除数值数量级差异,聚类效果更好。
2)计算x和y时间序列的STS距离,可以平移其中一个时间序列,求最小值作为STS距离值,这就消除了同一时间序列不同起始点的影响。