数据异常值的检测方法-基于Python

哈罗~有一段时间没有更新了，不说太多，赶紧重操旧业，争取恢复日更。
这篇文章是数据分析的学习笔记，学习的是这篇公众号的内容：独家 | 每个数据科学家应该知道的五种检测异常值的方法（附Python代码）。

什么是数据异常值呢？

定义了三个特征：

不属于某一特定群体的数据点
与其他数值大不相同的异常观测值
与良好构成的数据组相背离

简单来说就是离群值

————————————————————

下面列出了五种检测数据异常值的方法：

方法一标准差

这种方法的前提是数据的分布要大致符合正态分布，在这种情况下，三个标准差范围外的点，就是0.3%的数据点，极有可能是异常值。如图：

根据正态分布的特点，三个标准差的范围内包含了大约99.7%的数据

example code

方法二箱线图

箱线图借助分位数对数值型数值进行了可视化（相当于方法一的可视化），通常把箱线图的上下须触线看作数据分布的上下边界，任何出现在上下须触线之外的数据点都可以被看作异常值。

example code

箱线图是基于四分位差来进行绘制的，“箱”代表的是四分位差，这个数据常常用于定义异常值，是第三个四分位数和第一个四分位数的差。

四分位数与箱线图

箱线图与正态分布钟形曲线

方法三 DBScan集群

DBScan是一种用于将数据分组的集群算法，也是一种被用于基于密度的，对于一维或多维数据异常检测方法。

DBScan的重要概念：
·核心点：为了更好地了解这个概念，我们需要先了解用于定义DBScan工作的超参数。
第一个超参数是最小值样本：形成集聚的核心点的最小数量。
第二个超参数是eps：在同一个簇中的样本之间的最大距离。
·边界点：与核心点在同一集群的点，但是要离集群中心远得多。
·噪声点：不属于任何集群的数据点，它们可能是异常点，也有可能不是，需要进一步调查进行判断。

示意图

example code

上述代码的输出值是95，这是噪声点的总数。SKLearn将噪声点标记为（-1），这种方法的不足之处是维数越高，精度越低，还需要对eps的正确值进行估计。

方法四孤立森林

孤立森林是一种无监督学习的算法，属于集成决策树族。这种方法与前面的方法都不同，它直接明确孤立的异常值。它基于这样一个事实：异常值只占数据的小部分，并且有着与正常值不一样的属性。这种算法适合高维数据集，是一种检测异常值非常有效的方法。

孤立森林具体的工作原理细节可以参考这篇文章：
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf

from sklearn.ensemble import IsolationForest
import numpy as np
np.random.seed(1)
random_data = np.random.randn(50000,2) * 20 + 20

clf = IsolationForest( behaviour = 'new', max_samples = 100, random_state = 1, contamination = 'auto')
preds = clf.fit_predict(random_data)
preds

代码输出的数组中，若结果为-1，意味着这个特定的数据点是一个异常值；如果结果是1，说明该数据点不是异常值。

方法五 Robust Random Cut Forest

Robust Random Cut Forest是用于检测异常值的无监督算法，通过关联异常分数来工作。低的分数值表示数据点是正常的，高的分数值表示数据中存在异常。一般实践表明，超过平均值三个标准差的分数都被认为是异常的，算法的细节可以参考下面这个文章：
http://proceedings.mlr.press/v48/guha16.pdf

这个算法最大的优势在于它可以处理非常高维的数据，还可以处理实时数据流（内置AWS Kinesis Analytics）和离线数据。

更详细的概念解释可以看看这个视频：
https://youtu.be/yx1vf3uapX8

代码比较复杂，完整版本参考这个链接：
https://github.com/awslabs/amazon-sagemaker-examples/tree/master/introduction_to_amazon_algorithms/random_cut_forest

以上就是五种数据异常值的检测方法，除了第五种，其它的还是挺好实现的，希望这次的内容学习能够运动在日常科研处理数据中。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,919评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,567评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,316评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,294评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,318评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,245评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,120评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,964评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,376评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,592评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,764评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,460评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,070评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,697评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,846评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,819评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,665评论 2赞 354

数据异常值的检测方法-基于Python

什么是数据异常值呢？

方法一 标准差

方法二 箱线图

方法三 DBScan集群

方法四 孤立森林

方法五 Robust Random Cut Forest

推荐阅读更多精彩内容

方法一标准差

方法二箱线图

方法四孤立森林