异常检测(一)

Problem Motivation

异常检测(Anomaly Detection)主要用于非监督学习,用于发现可能不应该属于一个已定义的组中的数据。

密度估计(Density Estimate)

现假设数据集为{x(1), x(2), ···, x(m)},我们根据相关信息了解到该数据集中的数据是正常的,但我们想要知道对于新数据xtest是否为异常数据。对于该问题,我们可以将其转换为概率问题,即xtest是异常数据的概率是多少。因此,我们应该构建模型p(x),其能计算出测试数据是否为异常数据的概率,其中p(x)称为x的概率模型。

上图中,在蓝色圈内的数据为正常数据的概率就越高,而圈外的数据为正常数据的概率就越低,即为异常数据的可能性就越高。

这种方法称为密度估计,其数学表达式为:

Question:
Your anomaly detection system flags x as anomalous whenever p(x) ≤ ε. Suppose your system is flagging too many things as anomalous that are not actually so (similar to supervised learning, thest mistakes are called false positives). What should you do?

A. Try increasing ε.
B. Try decreasing ε.

答案为B。

高斯分布(Gaussian Distribution)

高斯分布,即正态分布,x~N(μ, σ2),其中x∈R。其概率密度函数为:

其中:

注:在机器学习中对于方差我们通常只除以m,而在统计学中为除以(m - 1)。

异常检测算法

1)数据集为{x(1), ···, x(m)},计算μ1, ···, μn, σ12, ···, σn2

2)对于新数据x,计算p(x)

3)若p(x) < ε则为异常数据,否则为正常数据

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Xavier A, Muir WM, Craig B, Rainey KM (2016) Walking thro...
    董八七阅读 2,395评论 0 3
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 11,118评论 0 7
  • 查看原文 1 简介 Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身...
    JinkeyAI阅读 6,812评论 0 4
  • 时间:2017-3-8 入了一颗微月小苗,诗人柯德娜,带了一颗花苞。根系饱满。 时间:2017-4-23 本来花苞...
    一只米阅读 631评论 2 3
  • 在没有答案的地方寻找答案,这才是真正有价值的能力。
    妖孽6阅读 252评论 0 0