多个总体的比较——方差分析

产品开发工程师考虑能使一种新的合成纤维的抗拉强度增大的方案,这种合成纤维织出的布是用来缝制男士衬衫的。工程师从以前的经验知道,抗拉强度受棉花在纤维中所占百分比的影响。开始,他推测增加棉花含量会增大强度。他还知道,如果成品布须具有其他所希望的质量特性(比如承受恒压加工处理的能力)的话,棉花含量应该在10%到40%之间。工程师决定检验棉花百分比为五个水平的样品,这五个水平是:15%,20%,25%,30%,35%。他还决定,对每个棉花含量水平试验五个样品,最终得出的抗拉强度观察值如下表:


表1:抗拉强度实验的数据(单位:lb/in^2

通过这组数据,工程师能得出什么结论呢?

以上案例是一个典型多总体比较的案例[1],对于这个问题,存在多种路径来获取结论,下面我们将试着从两种路径对以上数据进行分析。

一、图形化探索——散点图与箱线图

在工作生活当中,数据可视化是一种非常有效的解读数据的方法,通过图形展示,可以很清晰地去发现数据中所蕴藏的一些规律,对于本案例,我们需要探索的是不同棉花百分比的情况下织布抗拉强度的差异情况,由于两组变量都是数值型变量,我们很容易想到用散点图来刻画两组变量的关系(是否存在线性关系?),同时,由于在每个水平上(水平是指特定的棉花百分比下),做了5次重复试验,因此,数据具有明显的分布特征,对于这种多水平分布特征的刻画,箱线图是一个很不错的可视化方法。为此,我们将这两个图都拿出来,并进一步进行分析。


图1:抗拉强度对棉花百分比的散点图


图2:抗拉强度对棉花百分比的箱线图

从以上两张图中我们可以看出两点结论:

(1)棉花百分比影响抗拉强度(验证了工程师之前的经验判断)

(2)直到棉花百分比为30%为止,抗拉强度随棉花百分比的增加而增加,当棉花百分比超过30%时,抗拉强度有明显的减少。

二、为什么要做方差分析?

数据可视化确实在工作中给我们探索数据带来了巨大的便利,但是从以上的两张图中,我们还是拿不出强有力的证据来说明不同棉花百分比的情况下抗拉强度指标存在显著的差异。

如果需要用假设检验的方式来进行推断的话,我们将要进行C_{5}^2=10 次的两两对比,而每一次检验的置信水平为1-α=0.95,因此,进行10次两两对比(假设这些检验都是相互独立的),且全部接受原假设的情况下,置信水平将降低到(1-α)^10=0.95^10=0.6,因此,犯第I类错误的概率将大幅增加到0.40(对于一次两两对比的检验,其犯第I类错误的概率为0.05),所以,这个方法是不恰当的,为此,统计学家才引出了方差分析的方法来对多个总体进行比较。

方差分析这一名称来源于把总体的变异性分解为它的分量,如果我们能够通过这种分解把影响总体变异性的主要原因找出来,我们就可以拿到非常确凿的证据来证实不同水平上的均值是否存在显著差异了。对于上面的案例,我们可以把总体的变异性(记为SS_{T} ,也称之为总校正平方和或者总离差平方和)分解为两个维度:

(1)五个水平均值与总体均值之差的平方和,记为SS_{A} ,也称之为处理平方和或者组间离差平方和;

(2)每个水平内观察值与该水平均值之差的平方和,记为SS_{E} ,也称之为误差平方和或者组内离差平方和。

三、对于案例问题的方差分析以及延伸理解

我们再回到不同棉花含量对抗拉强度影响的案例,我们首先计算总离差平方和SS_{T}

其次,我们计算组间离差平方和SS_{A} :

最后,我们计算组内离差平方和SS_{E} :

很明显可以看出SS_{T} =SS_{A} +SS_{E} ,实际上这就是著名的平方和分解公式[2]。方差分析的基本思想就是先求出组间离差平方和SS_{A} 与组内离差平方和SS_{E} ,同时,在进行比较时,为了消除数据个数及分组数(水平数)的多少对离差平方和带来的影响,还要除以各自的自由度,得到各自的均方和MS_{A} MS_{E} ,那么,它们比值就构建成了方差分析的F统计量(该比值经证明符合F分布),若F值足够大,则说明各个水平间的差异是显著的。

表2:抗拉强度数据的方差分析

根据查F分布的分位数表可得,F_{\alpha ,\nu 1,\nu 2} 当α=0.01、分子自由度\nu _{1} =4、分母自由度\nu _{2} =20时,F_{0.01,4,20} =4.43,由于F>F_{0.01,4,20} ,因此,可以拒绝原假设H_{0} ,认为水平间的差异是显著的。

看到这里,我们可能依然会有问题,为什么我们不采用线性回归的方式来解决这个问题呢?实际上对于这类响应变量和因子都是数值型变量的问题,线性回归是一个非常好的分析工具,因此,对于这个案例我们自然可以通过线性回归的方法来探索变量之间的相互关系,在数据分析中,实际上我们有以下一种比较普适性的分析方法选择矩阵:

表3:数据分析方法选择矩阵

四、方差分析的应用场景及注意事项

方差分析在工业现场的应用非常之多,比如我们经常会遇到评价不同厂家的原料对产品性能、收率造成的影响,我们也经常会评估多个车间之间生产效率或者能耗的差异,甚至会评价同一个车间内不同产线的生产效率或能耗的差异等等。

但总体而言,方差分析是基于总体数量大于两个,我们进行比较时所采取一种合适的统计模型。但是在进行方差分析之前,我们需要了解方差分析方法应用的前提条件:

(1) 数据正态:每个水平下的数据均符合正态分布;

(2)数据独立:每个水平下的数据相互之间独立;

(3)方差相等:每个水平数据的方差相等。

对于这些前提条件,国工智能数据大脑都提供了相应的正态性检验、独立性检验和等方差检验的模型算法,可以满足工业用户的不同需求。

参考文献:

[1].《实验设计与分析》,[美]Douglas C. Montgomery著

[2].《六西格玛管理统计指南》,马逢时等著

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容