产品开发工程师考虑能使一种新的合成纤维的抗拉强度增大的方案,这种合成纤维织出的布是用来缝制男士衬衫的。工程师从以前的经验知道,抗拉强度受棉花在纤维中所占百分比的影响。开始,他推测增加棉花含量会增大强度。他还知道,如果成品布须具有其他所希望的质量特性(比如承受恒压加工处理的能力)的话,棉花含量应该在10%到40%之间。工程师决定检验棉花百分比为五个水平的样品,这五个水平是:15%,20%,25%,30%,35%。他还决定,对每个棉花含量水平试验五个样品,最终得出的抗拉强度观察值如下表:
通过这组数据,工程师能得出什么结论呢?
以上案例是一个典型多总体比较的案例[1],对于这个问题,存在多种路径来获取结论,下面我们将试着从两种路径对以上数据进行分析。
一、图形化探索——散点图与箱线图
在工作生活当中,数据可视化是一种非常有效的解读数据的方法,通过图形展示,可以很清晰地去发现数据中所蕴藏的一些规律,对于本案例,我们需要探索的是不同棉花百分比的情况下织布抗拉强度的差异情况,由于两组变量都是数值型变量,我们很容易想到用散点图来刻画两组变量的关系(是否存在线性关系?),同时,由于在每个水平上(水平是指特定的棉花百分比下),做了5次重复试验,因此,数据具有明显的分布特征,对于这种多水平分布特征的刻画,箱线图是一个很不错的可视化方法。为此,我们将这两个图都拿出来,并进一步进行分析。
从以上两张图中我们可以看出两点结论:
(1)棉花百分比影响抗拉强度(验证了工程师之前的经验判断)
(2)直到棉花百分比为30%为止,抗拉强度随棉花百分比的增加而增加,当棉花百分比超过30%时,抗拉强度有明显的减少。
二、为什么要做方差分析?
数据可视化确实在工作中给我们探索数据带来了巨大的便利,但是从以上的两张图中,我们还是拿不出强有力的证据来说明不同棉花百分比的情况下抗拉强度指标存在显著的差异。
如果需要用假设检验的方式来进行推断的话,我们将要进行次的两两对比,而每一次检验的置信水平为1-α=0.95,因此,进行10次两两对比(假设这些检验都是相互独立的),且全部接受原假设的情况下,置信水平将降低到(1-α)^10=0.95^10=0.6,因此,犯第I类错误的概率将大幅增加到0.40(对于一次两两对比的检验,其犯第I类错误的概率为0.05),所以,这个方法是不恰当的,为此,统计学家才引出了方差分析的方法来对多个总体进行比较。
方差分析这一名称来源于把总体的变异性分解为它的分量,如果我们能够通过这种分解把影响总体变异性的主要原因找出来,我们就可以拿到非常确凿的证据来证实不同水平上的均值是否存在显著差异了。对于上面的案例,我们可以把总体的变异性(记为,也称之为总校正平方和或者总离差平方和)分解为两个维度:
(1)五个水平均值与总体均值之差的平方和,记为,也称之为处理平方和或者组间离差平方和;
(2)每个水平内观察值与该水平均值之差的平方和,记为,也称之为误差平方和或者组内离差平方和。
三、对于案例问题的方差分析以及延伸理解
我们再回到不同棉花含量对抗拉强度影响的案例,我们首先计算总离差平方和:
其次,我们计算组间离差平方和:
最后,我们计算组内离差平方和:
很明显可以看出,实际上这就是著名的平方和分解公式[2]。方差分析的基本思想就是先求出组间离差平方和与组内离差平方和,同时,在进行比较时,为了消除数据个数及分组数(水平数)的多少对离差平方和带来的影响,还要除以各自的自由度,得到各自的均方和、,那么,它们比值就构建成了方差分析的F统计量(该比值经证明符合F分布),若F值足够大,则说明各个水平间的差异是显著的。
根据查F分布的分位数表可得,当α=0.01、分子自由度、分母自由度时,,由于,因此,可以拒绝原假设,认为水平间的差异是显著的。
看到这里,我们可能依然会有问题,为什么我们不采用线性回归的方式来解决这个问题呢?实际上对于这类响应变量和因子都是数值型变量的问题,线性回归是一个非常好的分析工具,因此,对于这个案例我们自然可以通过线性回归的方法来探索变量之间的相互关系,在数据分析中,实际上我们有以下一种比较普适性的分析方法选择矩阵:
四、方差分析的应用场景及注意事项
方差分析在工业现场的应用非常之多,比如我们经常会遇到评价不同厂家的原料对产品性能、收率造成的影响,我们也经常会评估多个车间之间生产效率或者能耗的差异,甚至会评价同一个车间内不同产线的生产效率或能耗的差异等等。
但总体而言,方差分析是基于总体数量大于两个,我们进行比较时所采取一种合适的统计模型。但是在进行方差分析之前,我们需要了解方差分析方法应用的前提条件:
(1) 数据正态:每个水平下的数据均符合正态分布;
(2)数据独立:每个水平下的数据相互之间独立;
(3)方差相等:每个水平数据的方差相等。
对于这些前提条件,国工智能数据大脑都提供了相应的正态性检验、独立性检验和等方差检验的模型算法,可以满足工业用户的不同需求。
参考文献:
[1].《实验设计与分析》,[美]Douglas C. Montgomery著
[2].《六西格玛管理统计指南》,马逢时等著