教你用java实现时序数据异常检测(1)LOF-ICAD方法

数据的异常检测是一个难题, 面临许多挑战, 其中包括:

  • 定义一个正常表现的范围是比较困难的, 异常值和正常值有时候边界并不是特别明显
  • 某些恶意行为会伪装成正常值, 难以发现
  • 大多数领域的正常行为只能在一段时间内有效, 对于未来的普适性并不是很高
  • 对于异常的概念会由于应用的不同而不同
  • 缺少带有标记的数据
  • 数据的噪声可能有较大的影响

分析异常数据有多种方案, 包括:

  • 基于分类的手段
  • 基于最近邻算法
  • 基于聚类
  • 基于统计方法
  • 基于信息理论
  • 基于特征理论

我们这次着重介绍的是时序数据的异常检测, 我们来讨论讨论LOF方法, 并且给出相应的代码实现

1. LOF方法简介

该方法源自于论文Conformalized density- and distance-based anomaly detection in time-series data

LOF方法也就是Local Outlier Factor的缩写
首先我们需要引入一些符号:
k: 类似于KNN中的k, 代表第k个相邻的
dist(a,b): 表示a和b之间的距离, 可以是几何距离, 也可以是曼哈顿距离等

LOF方法使用对于第k个邻居的反向平均距离(Inverted average distance)来进行一个密度的测量, 我们记作loc_dens

密度的测量

同时我们给出其中的reach_dist


reach_dist

其中NN_k(x)是x的第k个近邻, 而reach_dist是为了当x和o彼此靠近的时候减少统计波动

我们计算出密度之后, 就要利用该密度和其他近邻的点进行比较, 进而我们就可以计算出异常程度的分数, 记为LOF, 按如下方法进行计算:


LOF

如果LOF越大则说明异常程度越高

2. LOF-ICAD方法

基于LOF方法, 论文给出了一种特征抽取的方法, 进一步提高了精度
这里直接给出算法的细节:

输入:

  • 窗口长度L
  • 合适的训练集合的大小T
  • 修正集合的大小C
  • 时间序列(x1, ... , x(T+C+L-1))
  • 测试的值x(T+C+L)
  • 密度测量NCM

输出(异常分数p, 从0到1):

步骤:

  1. 将时间序列(x1, ... , x(T+C+L-1))映射到矩阵X, 其中矩阵X是L x (T+C)的矩阵
    举个例子, 比如对于时间序列(1, 2, 3, 4, 5, 6), T=2, C=2, L=3
    则生成X矩阵为
    1, 2, 3, 4
    2, 3, 4, 5
    3, 4, 5, 6
  2. 将矩阵X划分成训练矩阵X(T)(L x T大小)以及修正矩阵X(C)(L x C大小)
    如上述例子, X(T)为:
    1, 2
    2, 3
    3, 4
  3. 计算NCM值(α1, ..., αC)对于修正矩阵X(C)的每一行(应该会有L行)


    NCM

    具体的NCM值的计算也就是LOF的计算方式得到

  4. 对序列最后的x(T+C+L-1)计算NCM值


    计算序列末尾的NCM
  5. 计算异常程度分数p


    p的计算

如果p的分数特别高, 则异常程度相应地越高

3. Java实现

首先给出LOF算法的实现

package LOF;

import java.util.ArrayList;

/**
 * Local Outlier Factor
 *
 * @author mezereon E-mail:mezereon@gmail.com
 * @since 18-4-12
 */
public class LOF {

  private int k;

  public LOF(int k) {
    this.k = k;
  }

  /**
   * 返回异常程度的分数, 越接近1则越异常
   *
   * @param knn 输入一个时序数据生成的旋转矩阵
   * @param x 输入测试的序列
   */
  public double getLOF(double[][] knn, double[] x) {
    double sum = 0;
    for (double[] o : knn) {
      sum += getLocDens(knn, o) / getLocDens(knn, x);
    }
    return sum / k;
  }

  /**
   * 获取local density
   *
   * @param knn 输入一个时序数据生成的旋转矩阵
   * @param x 输入测试的序列
   */
  public double getLocDens(double[][] knn, double[] x) {
    double[] nnk = findKthPoint(knn, x);

    double sum = 0;
    for (double[] o : knn) {
      sum += reachDist(o, x, nnk);
    }
    return sum / k;
  }

  /**
   * 找到第k个相似的序列
   *
   * @param knn 输入一个时序数据生成的旋转矩阵
   * @param x 输入测试的序列
   */
  public double[] findKthPoint(double[][] knn, double[] x) {

    ArrayList list = new ArrayList();
    for (int i = 0; i < knn.length; i++) {
      list.add(knn[i]);
    }
    int index = 0;
    double minDist = dist(knn[0], x);

    for (int i = 0; i < k; i++) {
      index = 0;
      minDist = dist((double[]) list.get(0), x);
      for (int j = 0; j < list.size(); j++) {
        if (minDist > dist((double[]) list.get(j), x)) {
          minDist = dist((double[]) list.get(j), x);
          index = j;
        }
      }
      if (i != k - 1) {
        list.remove(index);
      }
    }

    return (double[]) list.get(index);
  }

  /**
   * 返回与相似序列的距离比较之下的较大值
   *
   * @param o 输入序列
   * @param x 测试序列
   * @param nnk 第k相似的序列
   */
  public double reachDist(double[] o, double[] x, double[] nnk) {
    return Math.max(dist(o, x), dist(nnk, x));
  }

  /**
   * 返回序列之间的欧几里德距离
   *
   * @param nnk 第k相似的序列
   * @param x 测试序列
   */
  private double dist(double[] nnk, double[] x) {

    double sum = 0;
    for (int i = 0; i < nnk.length; i++) {
      sum += (nnk[i] - x[i]) * (nnk[i] - x[i]);
    }

    return Math.sqrt(sum);
  }

  public int getK() {
    return k;
  }

  public void setK(int k) {
    this.k = k;
  }
}

给出LOF-ICAD的实现

package LOF;

import Tool.DetectTool;
import Util.MatrixUtil;

/**
 * @author mezereon E-mail:mezereon@gmail.com
 * @since 18-4-26
 */
public class LOFDetectTool implements DetectTool {

  private int T;// 时间序列用来训练的长度
  private int L;// 时间序列的所利用的窗口长度
  private int K = 1;//  LOF算法中的k值, 默认设置为1, 也就是取历史最相似的序列进行预测

  /**
   * LOF检测工具的构造方法
   *
   * @param T 时间序列用来训练的长度
   * @param L 时间序列的所利用的窗口长度
   */
  public LOFDetectTool(int T, int L) {
    this.T = T;
    this.L = L;
  }


  /**
   * 利用LOF进行时间序列分析
   * 打印最后一段窗口的异常分数, 越接近1则越异常
   */
  public void timeSeriesAnalyse(double[] series) {

    // 利用T和L, 以及时间序列生成测试矩阵
    double[][] mat = MatrixUtil.getMat(series, T, series.length - T - L + 1, L);

    //一个窗口大小的测试序列, 默认是原序列中最后窗口大小的序列
    double[] test = MatrixUtil.getTestSeries(series, series.length - L - 1, L);;

    double[][] matC = MatrixUtil.getMatC(mat, T, series.length - T - L + 1, L);
    double[][] matT = MatrixUtil.getMatT(mat, T, series.length - T - L + 1, L);

    LOF lof = new LOF(K);

    double[] ncmForC = new double[matC.length];

    for (int i = 0; i < matC.length; i++) {
      ncmForC[i] = lof.getLOF(matT, matC[i]);
    }

    double ncmForTest = lof.getLOF(matT, test);
    double count = 0;
    for (double x : ncmForC) {
      if (ncmForTest <= x) {
        count++;
      }
    }
    count /= matC.length;
    System.out.println("Anomaly Score is "+count);
  }
}

给出具体的Test类

public class LOFDetectToolTest {

  public double[] testData;
  @Before
  public void setUp() throws Exception {
    testData = FileTool.getData("data.json");
  }

  @Test
  public void timeSeriesAnalyse() throws Exception {
    LOFDetectTool lofDetectTool = new LOFDetectTool(200, 50);
    lofDetectTool.timeSeriesAnalyse(testData);
  }

}

4. 测试

测试序列1

对于上图序列计算得到的窗口异常分数为0.007092198
我们给它加一个峰值


测试序列2

得到的窗口异常分数为0.950354609

源码以及测试数据我已经放到github了
地址为https://github.com/MezereonXP/AnomalyDetectTool
其中包括自己编写的多种异常检测的工具类, 欢迎使用
希望大家多多Star, 有什么问题可以提issue给我, 或者发邮件到我的邮箱 mezereonxp@gmail.com

下一篇, 将会介绍利用指数平滑进行异常检测的方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356

推荐阅读更多精彩内容

  • Lua 5.1 参考手册 by Roberto Ierusalimschy, Luiz Henrique de F...
    苏黎九歌阅读 13,819评论 0 38
  • 在C语言中,五种基本数据类型存储空间长度的排列顺序是: A)char B)char=int<=float C)ch...
    夏天再来阅读 3,345评论 0 2
  • 隐马尔可夫模型(Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表...
    vlnk2012阅读 6,686评论 3 47
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,392评论 0 5
  • 题记:让我们一起来回忆一下,每份悲伤的背后都藏着一份欢乐。 值得 每份悲伤的背后都藏着一份欢乐,这份欢乐不是拿时间...
    Hi陌上花开阅读 191评论 0 0