正态分布检验

  1. 什么情况下需要做正态分布检验
  2. 如何检验
    1. Shapiro-Wilk检验(W检验)
    2. Kolmogorov-Smirnov正态性检验(D检验)
    3. Q-Q图法
  3. 频率分布直方图、概率密度图、理想正态分布的概率密度图
  4. QQ图与直方图组合

1.什么情况下需要做正态分布检验

  • 统计推断的前提假设是正态分布
  • 模型基于正态分布

2.如何检验

参考:
https://bbs.pinggu.org/linkto.php?url=http%3A%2F%2Fblog.sina.com.cn%2Fs%2Fblog_65efeb0c0100htz7.html

介绍了三种正态性检验的方法:

  1. 计算综合统计量
    夏皮罗-威尔克Shapiro-Wilk法(W检验),达戈斯提诺D′Agostino法
  2. 正态分布的拟合优度检验
    柯尔莫哥洛夫Kolmogorov-Smirov法检验
  3. 图示法
    分位数图(Quantile Quantile plot,简称QQ图)
1. Shapiro-Wilk检验(W检验)

基础函数 shapiro.test()
fBasics包 normalTest()、shapiroTest()也是调用shapiro.test(x)
这些函数的结果一致,样本大小必需在3和5000之间

2. Kolmogorov-Smirnov正态性检验(D检验)

Kolmogorov - Smirnov是比较精确的正态检验法

nortest包 lillie.test(更精确)
fBasics包 ksnormTest()、lillieTest(更精确)

SPSS 规定:当样本含量3 ≤ n ≤ 5000时,结果以Shapiro - Wilk(W检验)为准,当样本含量n > 5000结果以Kolmogorov - Smirnov为准。
SAS 规定:当样本含量n ≤ 2000时,结果以Shapiro - Wilk(W检验)为准,当样本含量n > 2000时,结果以Kolmogorov - Smirnov为准。

参考
http://tiramisutes.github.io/2015/10/08/ANOVA.html
https://www.cnblogs.com/blueicely/archive/2013/01/08/2850929.html

3. Q-Q图法

QQ图是怎么画的
详细原理:
http://www.docin.com/p-44022618.html
https://znonymous.me/2016/06/23/q-q-plot-introduction/

回忆以前学习标准正态分布的时候,讲过累积分布函数和概率密度函数,其中将概率密度函数积分能得到累积分布函数。下面是分位数的定义:

以前还做过这种题,给你一个比例p,让你求一个数,使得小于等于这个数的比例是p,或者反过来。按照这个定义,我觉得中位数可以叫做1/2分位数,表示小于等于这个数的数据量占总体数据量的1/2。所以分位数和比例p之间是存在对应关系的,这种关系在给定的数据集中是唯一的。

由统计学可以证明:若数据y1,y2,⋯,yn的分布与正态分布非常接近,则点 (qi,yi)(i=1,2,⋯,n)应大致成一条直线。

  1. 将原始观察数据由小到大排列,依次表示p1,p2,⋯,pn分位数
  2. 如果符合标准正态分布,对应于p1,p2,⋯,pn这些比例,其分位数应该是q1,q2,⋯,qn
  3. 用数对 (qi,yi)(i=1,2,⋯,n)画散点图,并观察它们是否成直线

这里面需要我们求的只有第2步,根据pi求qi。按照前面的定义,这里pi应该等于i/n(i=1,2,...,n)。我在一些理论博客上面看到这里用的是(i-0.5)/n,为什么会这样?我的理解是:一方面当n比较大的时候其实p值基本没区别,另一方面我用本来就是正态分布的一些数据画了i,i-0.5,i-1三个图发现i-0.5是最直的,i/n的图右上角点向右偏移,(i-1)/n的图左下角的点向左偏移,这两种情况都出现了一个“无穷远”的点,相比之下(i-0.5)/n更符合通过笔直程度判断正态分布这个“主题”。

举个例子:

y <- rnorm(10000)
y <- sort(y)
# i - 1
ggplot(NULL,aes(qnorm(seq(0/10000,9999/10000,1/10000)),y))+
  geom_point()+
  xlim(-4,4)+ylim(-4,4)

3.频率分布直方图、概率密度图、理想正态分布的概率密度图

只能辅助判断并不是一种正态分布检验方法

频数分布直方图来定性地判断数据分布正态性,决不是严格的正态性检验

set.seed(20190816)
x <- rnorm(4000)

expected_density<-dnorm(x,mean(x),sd(x))

ggplot(NULL,aes(x=x,y=..density..))+geom_histogram(bins=100,fill="light blue")+
  geom_density(color="green",size=1)+
  geom_line(aes(x,expected_density),color="red",size=1)+
  geom_hline(yintercept = 0,color="grey",size=1.5)

或者

set.seed(20190816)
h<-rnorm(4000)
#直方图
hist(h,freq = F,col = "light blue",breaks = 100)
#加密度曲线
lines(density(h), col="grey", lwd=3)  
#加正态密度曲线
xfit<-seq(min(h),max(h),length=4000)
yfit<-dnorm(xfit,mean(h),sd(h))
lines(xfit,yfit,col="red",lwd=3)

4.QQ图与直方图组合

参考:
http://blog.sina.com.cn/s/blog_8d8d6cde01017d1b.html
https://blog.csdn.net/XIUXIU179/article/details/80107269

set.seed(20190816)
h<-rnorm(4000)
qqnorm(h)
qqline(h, col="red",lwd=2)
op <- par(fig=c(0.02,0.6,0.4,0.98), new=TRUE)
hist(h, probability=T, col="light blue", xlab="", ylab="", main="", axes=F)
lines(density(h), col="red", lwd=2)
box()
par(op)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容