参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第十二章 多个比率的比较、独立性及拟合优度检验
前面介绍了一个或两个总体的总体均值、比率和方差的假设检验的统计推断。接下来介绍另外三种假设检验的方法。帮助我们对总体进行统计推断。
12.1 三个或多个总体比率的相等性的检验
针对多个总体比率
假设:
如果根据样本数据和检验计算结果表明不能拒绝则我们认为k个总体比率有差异。
举例:调查不同汽车的汽车品牌忠诚度(再次购买的比率)。
- 假设:
- 已知:
另外在500人有312人对自己的品牌有忠诚度,312/500=0.624;那么我们可以算出每个汽车车主还会再次购买该品牌的期望频数,即,从而得到下面的表。
检验统计量:
式子中,为第行第列的单元格的观察频数;代表在假定为真时的第行和第列的单元格的期望频数。
涉及k个总体比率相等性的检验中,上述检验统计量服从自由度为k-1的分布,并且要求每个都大于等于5。
根据公式,我们进行计算,如下图所示。得到
由于我们假定的时,所以观察频数与期望频数应该是一致的,那么在检验统计量计算中应该较小,且此时不能被拒绝;另一方面,如果较大,则可能会被拒绝。所以说总体比率相等性的检验永远是一个上侧检验。
通过excel的计算,我们知道当,自由度为2时的上侧面积即p-值=0.0194<0.05,所以我们拒绝认为三车的车主品牌忠诚度不完全相同。
当然也可以用临界值法:对于,自由度为2的检验统计量的临界值,如果则拒绝
总结:对于个总体,总体比率相等性的检验的一般步骤如下:
多重比较方法:
- 首先,我们取每一对总体的样本比率之差的绝对值。即、和。
- k个总体比率的Marascuilo成对比较方法的临界值:
其中为显著水平为且自由度为k-1的值;和总体为i和j的样本比率,和为样本容量。
将三个样本比率代入得到、和 - 进行比较,任何成对样本比率之差的绝对值超过其对应的临界值,则在显著水平0.05之下,成对的差是显著的,此时我们得出相应的两个总体比率不同。
从上图所示,我们只能得到,明显大于。而的值分别和以及都没有显著差异。
总结:
- 在前面介绍的使用标准正态分布和检验统计量z来比较两个总体比率的假设检验,本节使用检验也可用于两总体比率相等的假设检验。两种方法结果相同,且的数值时的数值的平方。区别在于检验只能用于相等性检验,但总体可以来源于3个及以上。
- 在k个总体中,每个车主有两种结果:“是”、“否”。每个总体服从二项分布。当k个总体中每一个有三个或更多种回答时,方法有拓展应用,此时每一个总体服从多项分布。计算的期望频数以及检验统计量的计算与上述相同,不同的是原假设为对于所有总体回答变量的多项分布是相同的。k个总体中每一个都有r种回答,则检验统计量的自由度为
12.2 独立性检验
检验的一个重要应用是利用样本数据检验两个分类变量的独立性,称作独立性检验(test of independence)。
举例:抽取200名饮酒者组成样本,看他们对三种类型的啤酒偏好程度。研究问题是:啤酒的偏好是否与饮酒者性别独立。
-
独立性检验的假设::啤酒偏好与饮酒者性别独立 :啤酒偏好与饮酒者性别不独立。数据如下图所示:
将性别作为解释变量,(因为想探究性别对啤酒偏好的影响)。
-
三种类型啤酒的样本比率或百分比如下:
-
首先计算得到下表
按照公式计算:
对于r行c列的表,的自由度为,且期望频数都大于等于5。
下面是计算过程:
在自由度为2的上侧面积即p值为0.0398,所以拒绝
使用临界值法的话,可以计算 且自由度为2时的临界值为5.991,如果大于5.991则拒绝
对于不同性别对啤酒的偏爱如图所示:
总结:
12.3 拟合优度检验
本节,我们使用来确定被抽样的总体是否符合某个特殊的概率分布。首先考虑总体服从一个历史的多项概率分布情形,并使用拟合优度检验来确定样本数据的总体分布在与历史的分布相比较中,是否存在改变。然后考虑假设总体服从正态概率分布的情形,我们利用分布拟合检验来确定样本数据是否显示与正态概率分布的假设是适当还是不适当。这两个检验都称作拟合优度检验。
12.3.1 多项概率分布
多项概率分布,总体中每个个体都被分到三个或多个类别中的一个。
举例:市场调研公司调查三个公司的市场份额,在过去一年中份额为:、和;C公司有了新产品,想知道新产品上线是否对市场份额产生影响。
假设c公司新产品上市后的市场占有率::,, :总体比率不是,,
现取样本n=200得到观察频数如图所示:
再计算期望频数:
计算拟合优度的检验统计量:
为第类的观察频数;为第类的期望频数;为类别个数
注意:当所有类别的期望频数都大于等于5时,检验统计量服从自由度为的分布。
我们令显著水平,经过下面的计算过程得到
再利用excel计算在自由度的上侧面积为0.0255<0.05
或者用临界值法,计算自由度为2且上侧面积为0.05的
两种方法的结论都为拒绝,认为C公司在新产品引入后的新市场份额与原来不同。
两个市场份额对比如下:
看到C公司的新品对A公司的市场占有率影响更大。
总结:对假设的多项总体分布进行拟合优度检验的步骤:
12.3.2 正态分布
举例:公司对员工进行能力测验,如果服从正态分布,就好判断谁是后20%的人。
- 现取样本容量为
- 点估计值:
- 假设::测验分数总体服从均值为68.42和标准差为10.41的正态分布 :测验分数总体不服从均值为68.42和标准差为10.41的正态分布
-
将正态分布划分10个等概率区间,计算每个区间的边界z值(需要满足每个区间的期望频数大于等于5),这样做是因为正态分布是连续型的,我们需要用区间来定义类别。
-
计算出每个区间的边界的z值和对应的测验分数
- 统计每个区间的观察频数()和期望频数()
- 根据观察频数()和期望频数()计算,其中自由度为这里的p指是有样本估计的分布参数的个数(这里指的样本均值和样本标准差,使用的样本估计值)。
假设显著水平为0.1,通过计算自由度为7,的上侧面积即p-值为0.4084>0.1。因此不能拒绝
总结:正态分布的拟合优度检验步骤如下
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦