2019-10-04数据结果的分析-离群值

一 定义

        离群值分为统计离群值(高度异常值)与歧离值(异常值)。离群值的分类与我们使用的水平有关,一般检出水平为0.05(为检出离群值而指定的统计检验的显著性水平);而剔除水平为0.01(为检验离群值是否高度离群指定的统计检验的显著性水平),而这个水平指的是误判概率(把正常值当作离群值的概率)。参考这个标准GB 4883-2008.一般都有免费下载的,大家可以下载来看看,这个标准特意的讲解了离群值定义,方法与离群值的方法选择,还有对应方法的临界值表。

       一般同一实验室重复性检测参照检出水平0.05,以及该方法的重复性或以前的证实的精密度数据。不同实验室之间的,一般选择剔除水平0.01。

二 离群值分布

1-单侧分布:最高值出现离群;

2-单侧分布:最低值出现离群;

2-双侧分布:最高值或最低值都可能出现离群。

三 离群值检测方法

由小到大排列一组测量数据:X1,X2,...,Xn

3.1 奈尔检验(样本量为3-100,用的相对少)

需要知道历史的经验积累的标准差(重复性或再现性)的前提下,才可以使用该方法哦。

公式如下:

则该Xn,X1异常,这个α是显著性水平,n为测量次数。若是单侧检验,则只需要根据α与n查临界表R(α,n);若是双侧检验,就是同时怀疑最大值与最小值都有异常时,需要查临界值表,这时候的临界值应该是R(α/2,n)。当剔除一个数据后需要继续使用奈尔检验检验可疑值。

3.2拉依达检验(由小到大排列一组测量数据:X1,X2,...,Xn)

平均值可求,标准差s也可以计算得出。

当n>10时,其中可疑值|Xp-X平均值|>2s;(偏差大于2s的概率只有将近5%)

当n>5时,其中可疑值|Xp-X平均值|>3s;(偏差大于3s的概率只有将近0.3%)

一般我们采用2s与3s为统计分析允许的合理误差范围内。

3.3格拉布斯检验(Grubbs)

由小到大排列一组测量数据:X1,X2,...,Xn

       该方法用法较为广泛,一般用于有一个离群值时的检验,而且检验数量较少的时候,或者在数据分散较大,样本主体不在一条直线上的近旁的数据。这种方法无论是否已知方差,都可以使用该方法。

当单侧最大值可疑时,若Gn>G(α,n),则为异常值。这个α的选择已经在第一部分已经说明。

当单侧最小值可疑时,若G1>G(α,n),则为异常值。反之正常值。


若双侧(最大值与最小值都可疑)时,

1-分别计算出Gn,G1;

2-比较Gn与G1的大小,若Gn>G1,且Gn>G(α/2,n),则最大值Xn为异常值;若G1>Gn,且G1>G(α/2,n),则最小值X1为异常值;

下图为格拉布斯临界值查询表


举例:

标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?

1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.平均值为1.975;标准差为0.046

2-计算Gn与G1

G10=(2.08-1.975)/0.046=2.283;G1=(1.975-1.90)/0.046=1.631,临界表G(0.005,10)=2.482

G10>G1,但<G(0.025,10),无离群值。

3.4 迪克逊(Dixon)检验法

该方法也广泛应用,一般测量数量较少,可用于检查不少于一个可疑值的重复性检测。不需要计算平均值与标准差,简单实用。


举例上述案例,我们使用迪克逊检验:

标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?

1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.n=10

2-计算Dn与Dn'

Dn=r11=(2.08-2.00)/(2.08-1.94)=0.572; Dn'=r11'=(1.94-1.90)/(2.00-1.90)=0.4

3-查临界值表α=0.01;D(0.01,10)=0.635>Dn,无离群值。

3.5 罗马诺夫斯基检验(t 检验)

设置可疑值为单独的一个总体Xp,测量值除去可疑值以外为一总体(平均值x-,标准差s-)。

k=|Xp-x-|/s->k(α,n),则该Xp为离群值。

3.6偏度与峰度检查法

该方法适用于正态分布的数据,用于单个可疑值检查,也可用于重复性检查,可信度高,依赖于正态分布的数据。

1-偏度检验


确定α后,若bs>b(α,n),则最大值为离群值,若-bs>b(α,n),则最小值为离群值

下图为临界值表


2-峰度检验 用于两端测量值是否存在异常


确定α后,若bk>b(α,n),则距离平均值最远的测量值为离群值;反之未发现离群值。


举例上述案例,我们使用偏度-峰度检验:

标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?

1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.平均值为1.975

采用双侧检验:

bk=4.196(计算过程都在EXCEL中进行),查临界值b(0.01,n)=5.0>bk因此无离群值。

三种统计量结果均相同。

四 统计检验的选择

        格拉布斯,迪克逊,罗马诺夫斯基考虑了测量数据数量,将数据分布与α联系起来,判断客观。格拉布斯与罗马诺夫斯基考虑了测量数据的分布较为严格的方法。偏度-峰度检查法只能用于检测正态分布的数据检查。若使用几个统计检验得出的结果不相符,那么一般时增加测量次数,提高数据的可靠性。

五 出现异常值的处理

       一般出现异常值若不是粗大误差导致的,需要考虑其技术性原因和试验误差引起的。若不同实验室之间未出现离群值,但其分布较广,可能表现再现性差,尤其时在标准物质均匀性检验和定值分析的数据处理时,我们还需要通过考虑再现性,或者以前经验积累下的精密度数据确定是否漏判。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354

推荐阅读更多精彩内容