1. 基础概念及其定义
1.0 方差分析
方差分析背后的逻辑是以共同总体方差 的两个独立的估计量为基础。
的一个估计量是以样本均值它们自己之间的变异性为依据,
的另一个估计是每个样本内部数据的变异性为依据。通过比较
的这两个估计量,我们能够确定总体均值是否相等。
1.1 关键术语
- 因子(factor):即自变量。
- 处理(treatments):因子的不同水平。
- 单因子试验:只涉及有
个总体或处理的一个因子的试验。
- 响应变量:即应变量。
- 完全随机化设计:处理被随机地指派给实验单元的一种试验设计。
1.2 方差分析的假定
- 对每个总体,响应变量服从正态分布。
- 响应变量的方差对所有总体都是相同的。
- 观测值必须是独立的。
1.3 完全随机化设计的重要计算公式
假定从 个总体或处理中的每一个抽取一个容量为
的简单随机样本,对于得到的样本数据,令
代表第
个处理的第
个观测值;
代表第
个处理的观测值个数;
代表第
个处理的均值;
代表第
个处理的样本方差;
代表第
个处理的样本标准差。
第 个处理的样本均值与样本方差的计算公式如下:
总样本均值的计算公式如下:
其中
若每个样本的容量是相等的,都为 ,则
,则
式简化为
均方处理(mean square due to treatment, ):
其中,(sum of squares due to treatment)的计算公式如下:
若 为真,则
给出了
的一个无偏估计。但是,如果
个总体均值不相等,则
就不是
的无偏估计;在这种情形下,
将会高估总体方差
。
均方误差(mean square due to error, )
其中,(sum of squares due to error)的计算公式如下:
是以每个处理内部的变异性为依据,它不受原假设是否为真的影响,因此,
永远给出
的一个无偏估计。
总平方和()
1.4 第一类错误概率
- 比较方式的第
类错误概率:与单个两两成对比较相联系的犯第
类错误的概率。
- 实验方式的第
类错误概率:若干个两两比较中至少有一个犯第
类错误的概率。
- 控制总的犯实验方式第
类错误概率的
方法:如果我们想要检验
个成对的两两比较,并希望总的犯实验方式第
类错误的最大概率为
,那么犯比较方式错误概率为
。
1.5 随机化区组设计的重要计算公式
代表处理个数,
代表区组个数,
代表总样本容量(
),
代表在区组
中对应于处理
的观测值,
代表第
个处理的样本均值,
代表第
个区组的样本均值,
代表总样本均值。
第 步:计算总平方和(
)
第 步:计算处理平方和(
)
第 步:计算区组平方和(
)
第 步:计算误差平方和(
)
1.6 析因实验的重要计算公式
代表因子
的水平数,
代表因子
的水平数,
代表复制的个数,
代表实验中观测值的总数(
),
对应于因子
的处理
和因子
的处理
的第
次复制的观测值,
代表处理
(因子
)的观测值的样本均值,
代表处理
(因子
)的观测值的样本均值,
代表处理
(因子
)和处理
(因子
)的组合的观测值的样本均值,
代表总样本均值。
第 步:计算总平方和(
)
第 步:计算因子
的平方和
第 步:计算因子
的平方和
第 步:计算交互作用的平方和
第 步:计算误差平方和(
)
2. 完全随机化实验的方差分析
2.1 k个总体均值相等的检验
建立原假设与备择假设
检验统计量
拒绝法则
值法:如果
值
,则拒绝
临界值法:如果 ,则拒绝
其中, 是分子自由度为
,分母自由度为
时,使
分布的上侧面积或者概率为
时的
值。
2.2 方差分析表(ANOVA表)
完全随机化设计的方差分析表
方差来源 | 平方和 | 自由度 | 均方 | F |
|
---|---|---|---|---|---|
处理 | |||||
误差 | |||||
总计 |
2.3 多重比较的方法
多重比较方法是在成对的总体均值之间进行统计比较,以确定在 个均值之间到底哪几个均值之间存在差异。
2.3.1 Fisher 的LSD方法
建立原假设与备择假设
检验统计量
拒绝法则
值法:如果
值
,则拒绝
临界值法:如果 或者
,则拒绝
其中, 是自由度为
时,使
分布的上侧面积为
时的
值。
2.3.2 基于检验统计量
的 Fisher 的LSD方法
建立原假设与备择假设
检验统计量
显著性水平 下的拒绝法则
如果 ,则拒绝
式中
其中, 是自由度为
时,使
分布的上侧面积为
时的
值。
2.4 应用 Fisher 的LSD方法的两个总体均值之间的置信区间估计
式中
其中, 是自由度为
时,使
分布的上侧面积为
时的
值。
如果式 的置信区间包含数值
,则我们不能拒绝两个总体均值相等的原假设;如果式
的置信区间不包含数值
,则我们可以得出两个总体均值之差存在差异的结论。
3. 随机化区组设计的方差分析
区组划分的过程就是对所有的处理使用相同的或者相似的实验单元的过程,区组划分的目的是从误差项中删除来自外部的变异,因此给出了总体或处理均值之间是否存在差异的更有力的检验。
3.1 k个处理,b个区组的随机化区组设计的 ANOVA 表
方差来源 | 平方和 | 自由度 | 均方 | F |
|
---|---|---|---|---|---|
处理 | |||||
区组 | |||||
误差 | |||||
总计 |
因为有 个区组使得自由度减少了
,所以随机化区组设计的误差自由度小于完全随机化设计的误差自由度。如果
很小,因为误差自由度的减少,区组的潜在影响可能被掩盖;当
很大时,这种影响被最小化了。
4. 析因实验的方差分析
析因实验的实验设计方法允许我们得到有关两个或者两个以上因子同时存在的统计结论。
4.1 有r个复制的两因子析因实验的的 ANOVA 表
方差来源 | 平方和 | 自由度 | 均方 | F |
|
---|---|---|---|---|---|
因子 |
|||||
因子 |
|||||
交互作用 | |||||
误差 | |||||
总计 |