2019-04-01 3σ准则异常值检测及相关方法

标准差 standard deviation

% Y = std(X,W,DIM) 
% W权值,传入0表示正常的计算方法。
% dim=1表示对行进行操作
% dim=2表示对列进行操作
% 默认行操作
% Example: 
        >> X = [4 -2 1; 9 5 7]
              X =
                   4    -2     1
                   9     5     7
        >> std(X,0,1)
        ans =
                3.5355    4.9497    4.2426  
        >> std(X,0,2)
        ans =
               3
               2
        >> mean(X)
        ans =
              6.5000    1.5000    4.0000
        >> mean(X,1)
        ans =
              6.5000    1.5000    4.0000
        >> mean(X,2)
        ans =
               1
               7

% 3σ用法

>> abs(X-mean(X))
ans =
    2.5000    3.5000    3.0000
    2.5000    3.5000    3.0000

>> abs(X-mean(X))>3*std(X)
ans =
  2×3 logical 数组
   0   0   0
   0   0   0
>> abs(X-mean(X))>3*std(X)
ans =
  2×3 logical 数组
   0   0   0
   0   0   0

% 小样本无效

>> X = [4 -2 1; 9 5 1000]
X =
           4          -2           1
           9           5        1000
>> std(X)
ans =
    3.5355    4.9497  706.3997
>> abs(X-mean(X))>3*std(X)
ans =
  2×3 logical 数组
   0   0   0
   0   0   0

% 复制第一行数据,直到复制十遍,才有效

>> X = [4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;4 -2 1;9 -2 1000]
X =
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           4          -2           1
           9          -2        1000
>> std(X)
ans =
    1.5076         0  301.2098
>> abs(X-mean(X))>3*std(X)
ans =
  11×3 logical 数组
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   1   0   1

% 使用any函数,找出任一变量(列)落在3σ外的样本(行)

>> abs(X-mean(X))>3*std(X)
ans =
  11×3 logical 数组
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   0   0   0
   1   0   1
>> any(abs(X-mean(X))>3*std(X),2)
ans =
  11×1 logical 数组
   0
   0
   0
   0
   0
   0
   0
   0
   0
   0
   1
>> X(any(abs(X-mean(X))>3*std(X),2),:)
ans =
           9          -2        1000

以下分割线内参考百度百科

3σ准则

又称为拉依达准则它是先假设一组检测数据只含有随机误差对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。且3σ适用于有较多组数据的时候。

这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的,当测量次数较少的情形用准则剔除粗大误差是不够可靠的。因此,在测量次数较少的情况下,最好不要选用准则,而用其他准则。

在正态分布中σ代表标准差μ代表均值。x=μ即为图像的对称轴
3σ原则为:

  • (μ-σ,μ+σ),p=0.6827
  • (μ-2σ,μ+2σ),p=0.9545
  • (μ-3σ,μ+3σ),p=0.9973
    可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。


    image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,824评论 0 3
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,923评论 0 3
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 11,149评论 0 7
  • Chapter 5 Estimation 本篇是第五章,内容是参数估计。 1.参数估计的一般问题 正如前面介绍的,...
    G小调的Qing歌阅读 7,901评论 1 6
  • 今天是一个单身狗最难受的日子,被打击的体无完肤,含着泪,来完成今天任务,下午,扫楼时候,还有狗对我叫,是我兄弟在祝...
    无言勿演勿言_ea95阅读 329评论 3 3