哈罗~有一段时间没有更新了,不说太多,赶紧重操旧业,争取恢复日更。
这篇文章是数据分析的学习笔记,学习的是这篇公众号的内容:独家 | 每个数据科学家应该知道的五种检测异常值的方法(附Python代码)。
什么是数据异常值呢?
定义了三个特征:
- 不属于某一特定群体的数据点
- 与其他数值大不相同的异常观测值
- 与良好构成的数据组相背离
简单来说就是离群值
————————————————————
下面列出了五种检测数据异常值的方法:
方法一 标准差
这种方法的前提是数据的分布要大致符合正态分布,在这种情况下,三个标准差范围外的点,就是0.3%的数据点,极有可能是异常值。如图:
example code
方法二 箱线图
箱线图借助分位数对数值型数值进行了可视化(相当于方法一的可视化),通常把箱线图的上下须触线看作数据分布的上下边界,任何出现在上下须触线之外的数据点都可以被看作异常值。
example code
箱线图是基于四分位差来进行绘制的,“箱”代表的是四分位差,这个数据常常用于定义异常值,是第三个四分位数和第一个四分位数的差。
方法三 DBScan集群
DBScan是一种用于将数据分组的集群算法,也是一种被用于基于密度的,对于一维或多维数据异常检测方法。
DBScan的重要概念:
·核心点:为了更好地了解这个概念,我们需要先了解用于定义DBScan工作的超参数。
第一个超参数是最小值样本:形成集聚的核心点的最小数量。
第二个超参数是eps:在同一个簇中的样本之间的最大距离。
·边界点:与核心点在同一集群的点,但是要离集群中心远得多。
·噪声点:不属于任何集群的数据点,它们可能是异常点,也有可能不是,需要进一步调查进行判断。
上述代码的输出值是95,这是噪声点的总数。SKLearn将噪声点标记为(-1),这种方法的不足之处是维数越高,精度越低,还需要对eps的正确值进行估计。
方法四 孤立森林
孤立森林是一种无监督学习的算法,属于集成决策树族。这种方法与前面的方法都不同,它直接明确孤立的异常值。它基于这样一个事实:异常值只占数据的小部分,并且有着与正常值不一样的属性。这种算法适合高维数据集,是一种检测异常值非常有效的方法。
孤立森林具体的工作原理细节可以参考这篇文章:
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
from sklearn.ensemble import IsolationForest
import numpy as np
np.random.seed(1)
random_data = np.random.randn(50000,2) * 20 + 20
clf = IsolationForest( behaviour = 'new', max_samples = 100, random_state = 1, contamination = 'auto')
preds = clf.fit_predict(random_data)
preds
代码输出的数组中,若结果为-1,意味着这个特定的数据点是一个异常值;如果结果是1,说明该数据点不是异常值。
方法五 Robust Random Cut Forest
Robust Random Cut Forest是用于检测异常值的无监督算法,通过关联异常分数来工作。低的分数值表示数据点是正常的,高的分数值表示数据中存在异常。一般实践表明,超过平均值三个标准差的分数都被认为是异常的,算法的细节可以参考下面这个文章:
http://proceedings.mlr.press/v48/guha16.pdf
这个算法最大的优势在于它可以处理非常高维的数据,还可以处理实时数据流(内置AWS Kinesis Analytics)和离线数据。
更详细的概念解释可以看看这个视频:
https://youtu.be/yx1vf3uapX8
代码比较复杂,完整版本参考这个链接:
https://github.com/awslabs/amazon-sagemaker-examples/tree/master/introduction_to_amazon_algorithms/random_cut_forest
以上就是五种数据异常值的检测方法,除了第五种,其它的还是挺好实现的,希望这次的内容学习能够运动在日常科研处理数据中。