两组间差异的非参数检验

检测一组数据是否为正态分布

(1)QQ图

Quantile-Quantile plot可以检视数据是否符合某种类型的分布(如正态分布),或两组分布进行比较。

步骤:
原始数据的每一个点作为一个分位数,然后找一个任意的正态分布,求出与原始数据等量的正态分布分位数。原始数据的分位数与理论的分位数画图,如果原始数据符合这种分布,点就会很好地拟合在直线上。

用法:

> set.seed(1234)
> a <- rnorm(100,mean=0,sd=2)
> set.seed(1234)
> b <- rnorm(100,mean=0,sd=4)
> qqnorm(a,main="QQ Plot")
> qqline(a)
QQ plot.png

(2)K-S test

Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感,所以成为比较两样本的最有用且最常用的非参数方法之一。

KS test.png

红线表示假定符合的分布(正态分布),蓝线是离散化的数据,所以呈现阶梯状。X轴表示数据值的大小,Y轴表示的数据累计所占百分比(实际上就是概率密度函数的积分)。两条线之间的最大距离也就是黑色箭头,称为D值,表示了二者之间的最大区别程度。

步骤:
提出H0;计算统计量D;用样本容量n和显著水平a查出临界值Dna;如果D < Dna,则认为拟合是满意的。
H0:数据符合正态分布(数据与正态分布没有差异)。
p-value < 0.05,拒绝H0;p-value > 0.05,不能拒绝H0。

用法:

> ks.test(a,"pnorm",mean(a),sd(a))
    One-sample Kolmogorov-Smirnov test
data:  a
D = 0.10124, p-value = 0.257
alternative hypothesis: two-sided

> ks.test(a[1:30],a[31:100])  #来自同一分布的数据
    Two-sample Kolmogorov-Smirnov test
data:  a[1:30] and a[31:100]
D = 0.16667, p-value = 0.5527
alternative hypothesis: two-sided 

> ks.test(a,a+1)  #改变分布的位置
    Two-sample Kolmogorov-Smirnov test
data:  a and a + 1
D = 0.27, p-value = 0.001365
alternative hypothesis: two-sided

> ks.test(a,b)  #改变分布的形状
    Two-sample Kolmogorov-Smirnov test
data:  a and b
D = 0.27, p-value = 0.001365
alternative hypothesis: two-sided

# 如果出现K-S检验不应该有连结,表示原数据中有重复值,可以加一个随机扰动runif(length(a),-0.05,0.05)

(3)S-W test

Shapiro-Wilk检验用于验证一个随机样本数据是否来自正态分布,适用于样本量小于50的情况。

步骤:
提出H0;计算统计量W(可以看做线性回归的确定性系数);W接近1,p > 0.05,不能拒绝H0;W小于临界值Wα,则拒绝H0。
H0:数据符合正态分布。
p-value < 0.05,拒绝H0;p-value > 0.05,不能拒绝H0。

用法:

> shapiro.test(a)
    Shapiro-Wilk normality test
data:  a
W = 0.96587, p-value = 0.01078

两组间差异的非参数检验

参数检验,就是假定数据服从某种分布,通过样本信息对总体参数进行检验。因而在分析前,先要检验数据是否符合该类型的分布。如果数据不符合检验假设的分布,则可以考虑选择使用非参数检验。

(1)Wilcoxon秩和检验

秩和检验方法最早是由Wilcoxon提出,后来Mann-Whitney将其应用到两样本容量不等的情况。Wilcoxon秩和检验(Mann-Whitney U检验),假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。适用于双独立样本

步骤:
将样本量为n1、n2的两组数据混合,按照从小到大排序编号;分别计算两个样本的编号之和W1、W2;计算统计量U1、U2;U1,U2中的最小值用于与临界值Uα相比较,如果Umin < Uα,则拒绝H0,表明两样本之间存在差异。
原假设:两样本分布相同。
备择假设:在理论研究时,假设两个总体的分布函数性状相同,仅有可能是位置参数不同。在实际应用时,不必强求两个总体的分布函数形状相同。

用法:

wilcox.test(y~x,data) #y是连续变量(两组值合并到一起),x是一个二分变量(分组),data为一个包含这些变量的矩阵或数据框
wilcox.test(y1,y2) #y1和y2为变量名

> wilcox.test(a[1:30],a[31:100])  #来自同一分布的数据
    Wilcoxon rank sum test with continuity correction
data:  a[1:30] and a[31:100]
W = 952, p-value = 0.4633
alternative hypothesis: true location shift is not equal to 0

> wilcox.test(a,a+1)  #改变分布的位置,敏感
    Wilcoxon rank sum test with continuity correction
data:  a and a + 1
W = 3502, p-value = 0.0002532
alternative hypothesis: true location shift is not equal to 0

> wilcox.test(a,b)  #改变分布的形状,似乎不那么敏感
    Wilcoxon rank sum test with continuity correction
data:  a and b
W = 5708, p-value = 0.08386
alternative hypothesis: true location shift is not equal to 0

(2)Wilcoxon配对秩和检验

符号检验是用来检验两配对样本所来自的总体的分布是否存在显著差异的非参数方法,但是配对样本的符号检验注重对变化方向的分析,而没有考虑变化幅度。Wilcoxon配对秩和检验是对Sign符号检验的改进。适用于双配对样本检验

步骤:
用第二组样本的各个观察值减去第一组对应样本的观察值,差值为正则记为正号,为负则记为负号,并同时保存差值数据;将差值变量按升序排序,并求出差值变量的秩;最后,分别计算正号秩总和W+和负号秩和W-。
H0:两组数据总体中位数相等。

用法:

wilcox.test(y~x,data,paired=TRUE)
wilcox.test(y1,y2,paired=TRUE)

> wilcox.test(a[1:30],a[31:60],paired=T)
    Wilcoxon signed rank test
data:  a[1:30] and a[31:60]
V = 286, p-value = 0.2801
alternative hypothesis: true location shift is not equal to 0

> wilcox.test(a[1:30],a[31:60])
    Wilcoxon rank sum test
data:  a[1:30] and a[31:60]
W = 551, p-value = 0.1381
alternative hypothesis: true location shift is not equal to 0
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352