方差分析用于研究一个或多个分类型自变量与一个数值型因变量的关系。
方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。
一、基本概念
1.因素
因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。
2.水平
因素中的内容称为水平,它是因素的具体表现。
因素的每一个水平可以看作是一个总体。
3.控制变量
在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量。
4.随机变量
在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量。
5.观察变量与观察值
在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。在每个水平下得到的样本数据称为观察值。
二、单因素方差分析
当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
1)提出假设
通过检验因素的k个水平均值是否相等,来判断自变量与因变量是否相关。
H0: μ1=μ2=...=μi=...μk (自变量对因变量没有显著影响)
H1: μ1,μ2,....μk不全相等。(自变量对因变量有显著影响)
2)构造检验统计量
需要构件三个误差平方和,总平方和(SST)、组间平方和(SSA)和组内平方和(SSA)。
且SST=SSA+SSE
SSE:每个水平或组的样本数据与其组均值的误差平方和。公式为:
3)计算统计量
各平方误差除以它们所对应的自由度,称为均方。
SST的自由度为n-1,其中n为全部观测值个数;
SSA的自由度为k-1,k为因素水平的个数
SSE的自由度为n-k。
MST=SST/n-1;
MSA=SSA/k-1;
MSE=SSE/n-k;
则F=MSA/MSE~F(k-1,n-k)分布。
4)统计决策
在给定显著性水平α下,计算F(k-1,n-k)分布的Fα,如果F>Fα,则拒绝原假设,表明自变量对因变量影响显著。
R2越大,表明影响越显著。
三、双因素方差分析
如果存在两个分类变量,需要分析是一个分类变量对因变量起作用,还是两个变量起作用,还是都不起作用。
(1)无交互作用或无重复双因素方差分析
两个因素是独立的,不存在联系。
1)提出假设(需要分别对行因素和列因素提出假设):
H0: μ1=μ2=...=μi=...μk (行因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μk不全相等。(行因素自变量对因变量有显著影响)
H0: μ1=μ2=...=μi=...μr (列因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μr不全相等。(列因素自变量对因变量有显著影响)
2)构造检验统计量
其中,第一项为行因素产生的误差平方和SSR(自由度为k-1):
第二项为列因素产生的误差平方和SSC(自由度为r-1):
第三项为随机误差平方和SSE(自由度为(k-1)*(r-1)):
分别构造行检验和列检验的F统计量:
3)统计决策
在给定显著性水评α和两个自由度值,分别查询用于行检验和列检验F表的临界值Fα。
若FR>Fα,则拒绝原假设,认为行因素对因变量有显著影响;
若FC>Fα,则拒绝原假设,认为列因素对因变量有显著影响。
4)关系强度度量