《Discovering Statistics Using R》笔记1-图示法考察正态性假设

笔记说明

读《Discovering Statistics Using R》第五章 Exploring assumptions做的笔记。本笔记对应章节为5.5.1,主要介绍正态性假设及如何用图示法考察正态性假设。

数据来源:https://studysites.uk.sagepub.com/dsur/study/articles.htm

统计分析中4个常见的假设

不同的统计模型有不同的假设(assumptions),这些假设为真是这些模型能够准确反映实际的前提。
基于正态分布的大多数参数检验有4个基本假设:

  • 正态分布
    实际上在不同的情况下正态性假设的含义是不同的。简而言之,在假设检验中一般总是需要某些东西是正态分布的(一些情况下是样本分布,另一些情况下则是模型的误差)。
  • 方差齐性
    进行组间比较时,方差齐性意味着不同组样本背后的总体的有着相同的方差;考察相关性时,方差齐性意味着随着一个变量的值在不同水平上变动,另一个变量的方差是稳定不变的。
  • 定距变量
    按照数据类型,变量可以分为四种:定类,定序,定距,和定比,这四种类型由低到高,高级类型的变量可以使用低级类型变量的分析方法,但反过来不行。《Discovering Statistics Using R》中介绍的大部分统计方法需要数据类型至少满足定距变量的要求。对定距变量的数据可以进行分类、排序、加减运算,不要求乘除运算。定距变量值之间的差值有实际意义。一般我们通过常识来判断这个假设是否符合。
  • 独立性
    这个假设和正态性假设一样,具体含义取决于使用的统计方法。在一些情况下独立性是指一个样本的数据值不会受到其他样本数据值的影响;在重复测量的设计中,在同一个研究对象上得到的多个数据点之间是不独立的,在这里独立性是指不同研究对象之间相互不影响。

正态性假设

正态性假设并不是要求数据符合正态分布的,而是要求抽样分布(所使用的统计方法对应的统计量的分布)符合正态分布。问题在于我们无法直接观测到抽样分布的样子。
由中心极限定理我们知道:

  • 如果样本数据近似服从正态分布,那么抽样分布也会近似服从正态分布。
  • 样本量足够大时,抽样分布近似满足正态分布——无论样本数据的分布形状如何。

在回归分析中,正态性假设是指模型的误差符合正态分布。
常用的考察正态性假设的方法有:图示法、计算偏度系数峰度系数、正态性检验。

图示法-直方图

可以通过作直方图来观察数据分布的形状从而判断数据是否近似服从正态分布。
示例数据:一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的去除极端值后的版本DownloadFestival(No Outlier).dat

library(rio)
library(ggplot2)

# 数据导入
dlf <- import("data/DownloadFestival.dat")
head(dlf)
##   ticknumb gender day1 day2 day3
## 1     2111   Male 2.64 1.35 1.61
## 2     2229 Female 0.97 1.41 0.29
## 3     2338   Male 0.84   NA   NA
## 4     2384 Female 3.03   NA   NA
## 5     2401 Female 0.88 0.08   NA
## 6     2405   Male 0.85   NA   NA
hist.day1 <- ggplot(dlf, aes(day1)) + 
  geom_histogram(aes(y = ..density..), colour = "black", fill = "white") +
  labs(x = "Hygiene score on day 1", y = "Density")+ 
  stat_function(fun = dnorm, 
               args = list(mean = mean(dlf$day1,na.rm = TRUE), 
                             sd = sd(dlf$day1, na.rm = TRUE)), 
               colour = "black", size = 1)

ggplot(dlf, aes(day1))指定对dlf数据的day1变量作图。
geom_histogram(aes(y=..density..), colour = “black”, fill=”white”)做直方图,设定线颜色为黑色,填充颜色为白色,注意我们指定画密度直方图而不是频率直方图。因为我们之后还想画正态分布曲线来进行比对。
labs(x = “Hygiene score on day 1”, y = “Density”)设定横轴纵轴的标签。
stat_function()中用dnorm()函数绘制出以样本数据均值为均值,样本数据标准差为标准差的正态曲线。

hist.day1

图示法-Q-Q图

还可以用Q-Q图(quantile-quantile图)来检查数据分布是否近似正态分布。分位数(quantile)就是把数据分为特定等份得数据值,比如二分位数(即中位数)就是把数据二等分的数值点。Q-Q图中以样本数据的分位数作为纵坐标,横坐标是假设数据服从正态分布情况下计算出的各数据点的分位数。如果数据近似服从正态分布,则 Q-Q图上的点应该近似排列为一个一三象限的对角线。

# Q-Q图
qqplot.day1 <- qplot(sample = dlf$day1) +
  labs(x = "theoretical quantiles", y = "data quantiles")
qqplot.day1
qqplot.day1

从直方图和Q-Q图的结果看出day1数据近服从正态分布
用图示法考察数据正态性的缺点是比较主观。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355