异常检测Task1

异常检测常用方法

基于统计学的方法
统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。

即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。

线性模型
典型的如PCA方法,Principle Component Analysis是主成分分析,简称PCA。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。 PCA的原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓解"高维灾难"。

基于相似度的算法
基于密度的度量,如LOF(局部离群因子)算法。
  局部离群因子(LOF)算法与k近邻类似,不同的是它以相对于其邻居的局部密度偏差而不是距离来进行度量。它将相邻点之间的距离进一步转化为“邻域”,从而得到邻域中点的数量(即密度),认为密度远低于其邻居的样本为异常值。
LOF(局部离群因子)算法的优缺点:
(1)给出了对离群度的定量度量;
(2)能够很好地处理不同密度区域的数据;
(3)对参数的选择敏感。

集成方法
feature bagging
与bagging法类似,只是对象是feature。

孤立森林
孤立森林假设我们用一个随机超平面来切割数据空间,切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环,直到每个子空间只有一个数据点为止。直观上来讲,那些具有高密度的簇需要被切很多次才会将其分离,而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1异常检测概述 2异常检测常用方法 传统方法 基于传统统计学方法 统计学方法对数据的正常性做出假定。它们假定正常的...
    许志辉Albert阅读 5,248评论 0 0
  • 一、离群点是什么? 离群点,是一个数据对象,它显著不同于其他数据对象,与其他数据分布有较为显著的不同。有时也称非离...
    堂堂正正的大号阅读 7,593评论 0 2
  •   异常检测技术被广泛应用到各个应用领域之中,包括疾病检测、金融欺诈检测、网络入侵检测等。在智能运维领域,异常检测...
    Siberia_阅读 20,848评论 1 22
  • 一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 常见的异常成因:数据来源于不同的类(异常对象...
    王尔德的小人书阅读 6,348评论 0 0
  • 什么是离群点   离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生的一样。有时也称非离群点...
    尼小摩阅读 10,547评论 0 6