机器学习实战-数据探索(异常值处理)

通常,我们倾向于在构建模型时忽略异常值,这不是一个明智的做法, 异常值使数据偏移并降低准确性,在此让我们进一步了解异常处理。

什么样的值是异常值?

异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计。 简单来说,异常值是一个观察值,远远超出了样本中的整体模式。

我们举个例子,做客户分析,发现客户的年平均收入是80万美元。 但是,有两个客户的年收入是4美元和420万美元。 这两个客户的年收入明显不同于其他人,那这两个观察结果将被视为异常值。

异常值有哪些类型呢?

异常值有两种类型:单变量和多变量。 以上,我们讨论了单变量异常值的例子。 当我们看到单变量的分布时,可以找到这些异常值。 多变量异常值是n维空间中的异常值,必须通过多维度的分布。

Outlier_21.png

让我们以一个例子来理解这一点。 例如身高和体重之间的关系,我们对“身高”和“体重”有单变量和双变量分布。 看box plot,没有任何异常值(高于和低于1.5 * IQR,最常见的方法)。 现在看scatter plot,有两个值在一个特定的重量和身高的平均值以下。

什么会引起异常值呢?

每当我们遇到异常值时,处理这些异常值的理想方法就是找出引起这些异常值的原因。 处理它们的方法将取决于它们发生的原因, 异常值的原因可以分为两大类:

  • 人为错误
  • 自然错误

数据输入错误

人为错误(如数据收集,记录或输入过程中导致的错误)会导致数据中的异常值。 例如:客户的年收入是10万美元,但意外地,数据输入操作附加一个零。 现在的收入就是100万美元,是10倍。 显然,与其他人相比,这将是异常值。

测量误差

这是异常值最常见的来源。 当使用的测量仪器出现故障时,会引起这种情况。 例如:有10台称重机。 其中9个是正确的,1个是错误的。 故障机器上的人员测量重量将高于或低于组内其余人员。 在故障机器上测量的重量可能导致异常值。

实验误差

异常值的另一个原因是实验误差。 例如:在7名跑步者的100米冲刺中,有一名选手错过了跑的口令,让他开始延迟。 因此,这使得跑步者的跑步时间比其他跑步者要多, 总运行时间可能是一个异常值。

故意异常值

通常在自我报告的措施中涉及敏感数据。 例如:通常青少年报告酒量,只有其中一小部分报告实际价值,这里的实际值可能看起来像异常值,因为其余的青少年正在假值。

数据处理错误

无论何时执行数据挖掘,我们从多个来源提取数据。 某些操作或提取错误可能会导致数据集中的异常值。

抽样错误

例如,衡量运动员的身高,错误地在样品中包括几名篮球运动员。 这种包含可能会导致数据集中的异常值。

自然异常值

当异常值不是人为的(由于错误),它是一个自然的异常值。 例如:注意到其中一家著名的保险公司,前50名财务顾问的表现远远高于其他人。 令人惊讶的是,这不是由于任何错误。 因此,每当与顾问一起执行任何数据挖掘活动时,我们都会分别对待此细分。

异常值对数据集有什么影响呢?

异常值可以大幅度地改变数据分析和统计建模的结果。 数据集中异常值有很多不利影响:

  • 增加了误差差异,并降低了统计测试的能力
  • 如果异常值是非随机分布的,则可以降低正态性
  • 可能影响具有实质意义的估计
  • 可能影响回归、方差分析等统计模型假设的基本假设。

为了深入了解,让我们举个例子来检查数据集中有和没有异常值的数据集会发生什么。

Outlier_31.png

从图可知,具有异常值的数据集具有不同的平均值和标准差。

如何检测异常值?

最常用的检测异常值的方法是可视化。使用各种可视化方法,如Box plot,Histogram,Scatter Plot(上图,我们已经使用了box plot和散点图进行可视化),一些分析师也有各种规则来检测异常值。其中一些是:

  • 任何值超出-1.5 x IQR至1.5 x IQR的范围
  • 使用封顶方法。超出5%或95%的任何值都可以被认为是异常值
  • 距平均值三个或更多的标准差被认为是异常值
  • 异常值检测只是对有影响的数据点的数据进行检查的特殊情况,也取决于业务的了解
  • 通常使用影响力、杠杆指数或距离来衡量双变量和多变量异常值。如马哈拉诺比斯距离和库克距离(Mahalanobis’ distance and Cook’s D )等经常用于检测异常值。

如何处理异常值?

处理异常值的大多数方法类似于缺失值处理方法,删除观察值、转换、分组、估算或其他统计方法。 在这里,我们将讨论用于处理异常值的常用方法:

删除观察

如果由于数据输入错误,异常值观察数据非常少,可删除异常值,也可以在两端修剪去除异常值。

变换合并值

变换变量也可以消除异常值,自然对数可以减少由极值引起的变化,分箱也是一种可变转型的形式, 决策树算法允许变量的合并也可很好地处理异常值,也可以使用向不同观察值分配权重。

Transformation_1.png

估算

就像估算缺失值一样,也可以估计异常值。 可以使用平均值,中值,mode估算方法。 在估算之前,应该首先分析是自然异常值还是人为的。 如果是人为的,可以用估算值来估算。 也可以使用统计模型来预测异常值观测值,而后用预测值估算它。

单独处理

如果有大量异常值,应该在统计模型中单独对待它们。 其中一个方法是将两组视为两个不同的组,并为两组建立个体模型,然后组合输出。

参考

https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容