参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第十八章 非参数方法
前面的章节在统计推断中使用的都是参数方法。本章我们将介绍非参数方法,这种方法对总体概率分布形式的假定没有要求,因此也称为无分布方法。
非参数方法允许数据不是数量型数据,也可以是分类型的。
18.1 符号检验
符号检验(sign test)是假设检验中一种多用途的非参数方法,利用p=0.5的二项分布作为抽样分布。
18.1.1 总体中位数假设检验
举例1:Lawler食品店的薯片周销售额的估计值是450美元,经理想要做一个检验。
假设:,
-
把观测值(周销售额)和估计值(450)作比较,大的转化为'+',小的转化为'-',等于450的剔除掉。
在转换符号的时候,相当于一个10次试验的二项分布,每次试验独立且只有两种结果。因此令p为加号的概率。则转化假设:
-
根据查表或计算机计算得到相应的概率,观测到的'+'个数为7,则我们计算加号个数为7、8、9或10的概率为0.1719(EXCEL:=1-BINOM.DIST(6,10,0.5,1)),p-值=因此不能拒绝(双侧检验需要乘以2)
当然也可以使用单侧检验。
举例2:一年前的住宅中位数236000美元,最近经济低迷,想了解中位数是否下降。
- 假设:,取显著水平0.05
- 取61个住宅,22个高于236000,38个低于236000,1个等于。即样本容量60,22个加号,38个减号。
- 在计算概率时,我们可以用正态分布来近似。
- 当时,加号个数的抽样分布的正太近似其均值,标准差
- 分布形式:n>20时近似正态分布。
- 计算小于等于22的二项概率。使用近似的正态分布,那么我们知道区间(21.5,22.5)对应的面积是计数为22的二项概率,0.5是连续性校正因子。于是p-值=则认为中位数已经低于236000美元了。
符号检验的二项抽样分布还可以计算总体中位数的置信区间,利用计算机可以完成。
18.1.2 匹配样本的假设检验
例子:14名消费者面对两种橙汁品尝后选出喜爱的品牌,“热带橘”记为“-”,“柑橘谷”记为“+”。
剔除2名无偏好的消费者后,n=12,2个"+",10个“-”。
- 假设:
- 取显著水平0.05,计算加号个数为0,1,2的概率和==0.0385<0.05则拒绝,认为口味偏好存在差异。
18.2 威尔科克森符号秩检验
威尔科克森符号秩检验是分析匹配样本实验数据的非参数方法。检验两个总体中位数是否有差异。
要求:
- 检验使用数量型数据。
- 不要求假定配对观测值之差服从正态分布,只需要对称分布。
例子:制造业企业想判断两种生产方法再完成时间上是否存在差异,选取11个工人分两次使用两种方法进行生产(首选方法随机挑选)。结果如下表:
- 假设:
- 剔除差异为0的工人,剩余工人n=10,计算差、绝对值、秩(绝对值从小到大的排序,相同的绝对值取所占的两个名次的均值,如并列第三占据了3名和4名,则秩为3.5)。
-
将秩赋予原始差的符号
其中为正的秩的和。我们把作为检验的统计量。
威尔科克森符号秩检验中的抽样分布
- 均值:
- 标准差:
- 分布形式:时,近似正态分布。
回到例子:我们计算得到
计算得到,双侧检验p-值=所以拒绝,故认为中位数存在差别。
注意:
- 也可以使用单侧检验,
- 总体中位数的非参数检验:推荐威尔科克森符号秩检验,要求总体分布对称。(对称,所以也可以用于总体均值的检验)
- 如果总体分布偏斜,首选符号检验。
- 威尔科克森符号秩检验也可用于计算总体中位数的置信区间。
18.3 曼-惠特尼-威尔科克森检验
本节介绍一种基于两个独立样本的两总体之间差异的非参数方法,可以用顺序型数据或数量型数据,不需要假定总体服从正态分布。叫做曼-惠特尼-威尔科克森检验(Mann-Whitney-Wilcoxon test,MWW)。
例子1(小样本):Showtime电影院有35名员工,影院经理给每个人的表现排了等级(1到35),并想知道其中的大学生和高中生是否有显著差异。
-
假设:
取显著水平0.05
-
在大学生和高中生中分别随机抽取4名和5名,并根据表现排名。并求出两个样本的秩和。其中大学生的秩和(W)区间为[10,30]。
-
秩和的分布
-
计算概率:
- p-值
结论:两总体的表现不相同。
例子2(大样本):银行经理像判断两个分行的支票账户余额的总体是否相同。对两个独立账户进行抽样,数据如下:
-
对观测值进行秩排序。
-
对账户按照分行进行分类,计算出每个分行的秩和。
- 同样使用样本1的秩和作为检验统计量W=169.5
- 在假设两总体相同情况下,计算相同总体的W的抽样分布
- 均值:
- 标准差:
- 分布形式:当且时,近似正态分布。
- 案例中的值:
- 取置信水平0.05
- 计算p-值:W本身是离散型的,正态分布是连续的,所以我们使用连续性校正因子。,双侧检验的p-值=所以拒绝认为两个分行账户余额总体不相同。
MWW检验的一些应用使其使用假定两个总体具有相同的形态,总体不同,也只是左右平移。若总体有相同的形态,则假设检验可以根据两总体中位数之差来陈述。假设形式如下:
18.4 克鲁斯卡尔-沃利斯检验
非参数的克鲁斯卡尔-沃利斯检验(Kruskal-Wallis test)的依据是对k个总体的k个独立随机样本的分析。
- 要求:顺序型数据、数量型数据都可,不需要假定服从正态分布。
- 假设的一般形式:
例子:威廉姆斯制造公司像判断招聘来自三所大学的学生年度业绩是否存在差异。A、B和C三所大学人数分别为7、6、7;总分100分,我们取显著水平0.05,数据如下:
-
对样本数据排序,计算秩、秩和。
- 计算检验统计量H
克鲁斯卡尔-沃利斯检验的统计量:
其中,k代表总体的个数;代表样本i中观测值的个数,(即总观测数);为样本i的秩和。 - 理解:在总体相同的假设下,H的抽样分布近似服从自由度为k-1的分布,且要求每个样本容量都要大于等于5。由于服从分布,所以我们希望检验统计量H尽量小,因此克鲁斯卡尔-沃利斯检验总是一个上侧检验。
- 例子中计算得到,当时的上侧面积为0.0116<0.05,因此拒绝认为3所大学的业绩总体是不同的。
补充:克鲁斯卡尔-沃利斯检验的应用中,做出总体有相同的形态的假定是合适的,就算有不同也只是位置上的平移。如果k个总体均有相同形态,假设检验的行驶也可以改为:
18.5 秩相关
第三章介绍了皮尔逊积矩相关系数是计算两个数量型数据变量之间线性关系的度量。本节使用顺序或排秩数据时,我们给出两个变量之间联系的相关性度量。
斯皮尔曼秩相关系数:
其中n为样本中观测值个数,中为对于第一个变量的第i观测值的秩,为对于第二个变量的第i观测值的秩。
例子:公司的10个销售人员在入职时给定了一个潜力排秩,工作两年后计算根据实际销售量的排秩。数据如下:
-
计算相关系数
我们还可以利用样本相关系数来推断总体秩相关系数
- 假设:,
-
的抽样分布
- 均值:
- 标准差:
- 分布形式:当时,近似正态分布
- 求上侧面积并乘以2得到p-值=,因此拒绝认为总体秩相关系数不为0,认为招聘时的销售潜力和实际销售业绩之间存在显著的秩相关关系。
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦