一 定义
离群值分为统计离群值(高度异常值)与歧离值(异常值)。离群值的分类与我们使用的水平有关,一般检出水平为0.05(为检出离群值而指定的统计检验的显著性水平);而剔除水平为0.01(为检验离群值是否高度离群指定的统计检验的显著性水平),而这个水平指的是误判概率(把正常值当作离群值的概率)。参考这个标准GB 4883-2008.一般都有免费下载的,大家可以下载来看看,这个标准特意的讲解了离群值定义,方法与离群值的方法选择,还有对应方法的临界值表。
一般同一实验室重复性检测参照检出水平0.05,以及该方法的重复性或以前的证实的精密度数据。不同实验室之间的,一般选择剔除水平0.01。
二 离群值分布
1-单侧分布:最高值出现离群;
2-单侧分布:最低值出现离群;
2-双侧分布:最高值或最低值都可能出现离群。
三 离群值检测方法
由小到大排列一组测量数据:X1,X2,...,Xn
3.1 奈尔检验(样本量为3-100,用的相对少)
需要知道历史的经验积累的标准差(重复性或再现性)的前提下,才可以使用该方法哦。
公式如下:
则该Xn,X1异常,这个α是显著性水平,n为测量次数。若是单侧检验,则只需要根据α与n查临界表R(α,n);若是双侧检验,就是同时怀疑最大值与最小值都有异常时,需要查临界值表,这时候的临界值应该是R(α/2,n)。当剔除一个数据后需要继续使用奈尔检验检验可疑值。
3.2拉依达检验(由小到大排列一组测量数据:X1,X2,...,Xn)
平均值可求,标准差s也可以计算得出。
当n>10时,其中可疑值|Xp-X平均值|>2s;(偏差大于2s的概率只有将近5%)
当n>5时,其中可疑值|Xp-X平均值|>3s;(偏差大于3s的概率只有将近0.3%)
一般我们采用2s与3s为统计分析允许的合理误差范围内。
3.3格拉布斯检验(Grubbs)
由小到大排列一组测量数据:X1,X2,...,Xn
该方法用法较为广泛,一般用于有一个离群值时的检验,而且检验数量较少的时候,或者在数据分散较大,样本主体不在一条直线上的近旁的数据。这种方法无论是否已知方差,都可以使用该方法。
当单侧最大值可疑时,若Gn>G(α,n),则为异常值。这个α的选择已经在第一部分已经说明。
当单侧最小值可疑时,若G1>G(α,n),则为异常值。反之正常值。
若双侧(最大值与最小值都可疑)时,
1-分别计算出Gn,G1;
2-比较Gn与G1的大小,若Gn>G1,且Gn>G(α/2,n),则最大值Xn为异常值;若G1>Gn,且G1>G(α/2,n),则最小值X1为异常值;
下图为格拉布斯临界值查询表
举例:
标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?
1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.平均值为1.975;标准差为0.046
2-计算Gn与G1
G10=(2.08-1.975)/0.046=2.283;G1=(1.975-1.90)/0.046=1.631,临界表G(0.005,10)=2.482
G10>G1,但<G(0.025,10),无离群值。
3.4 迪克逊(Dixon)检验法
该方法也广泛应用,一般测量数量较少,可用于检查不少于一个可疑值的重复性检测。不需要计算平均值与标准差,简单实用。
举例上述案例,我们使用迪克逊检验:
标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?
1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.n=10
2-计算Dn与Dn'
Dn=r11=(2.08-2.00)/(2.08-1.94)=0.572; Dn'=r11'=(1.94-1.90)/(2.00-1.90)=0.4
3-查临界值表α=0.01;D(0.01,10)=0.635>Dn,无离群值。
3.5 罗马诺夫斯基检验(t 检验)
设置可疑值为单独的一个总体Xp,测量值除去可疑值以外为一总体(平均值x-,标准差s-)。
k=|Xp-x-|/s->k(α,n),则该Xp为离群值。
3.6偏度与峰度检查法
该方法适用于正态分布的数据,用于单个可疑值检查,也可用于重复性检查,可信度高,依赖于正态分布的数据。
1-偏度检验
确定α后,若bs>b(α,n),则最大值为离群值,若-bs>b(α,n),则最小值为离群值
下图为临界值表
2-峰度检验 用于两端测量值是否存在异常
确定α后,若bk>b(α,n),则距离平均值最远的测量值为离群值;反之未发现离群值。
举例上述案例,我们使用偏度-峰度检验:
标定某还原性物质,10个实验室协同试验,测试数据,分别为1.98;1.97;1.95;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位为mL),检查该测量数据是否有离群值?
1-从小到大依次排列为1.90;1.94;1.95;1.97;1.97;1.98;1.98;1.98;2.00;2.08.平均值为1.975
采用双侧检验:
bk=4.196(计算过程都在EXCEL中进行),查临界值b(0.01,n)=5.0>bk因此无离群值。
三种统计量结果均相同。
四 统计检验的选择
格拉布斯,迪克逊,罗马诺夫斯基考虑了测量数据数量,将数据分布与α联系起来,判断客观。格拉布斯与罗马诺夫斯基考虑了测量数据的分布较为严格的方法。偏度-峰度检查法只能用于检测正态分布的数据检查。若使用几个统计检验得出的结果不相符,那么一般时增加测量次数,提高数据的可靠性。
五 出现异常值的处理
一般出现异常值若不是粗大误差导致的,需要考虑其技术性原因和试验误差引起的。若不同实验室之间未出现离群值,但其分布较广,可能表现再现性差,尤其时在标准物质均匀性检验和定值分析的数据处理时,我们还需要通过考虑再现性,或者以前经验积累下的精密度数据确定是否漏判。