试验设计的那些事——费希尔的试验逻辑

如果说数学史上最牛的父子关系,您可能会想到伯努利家族,伯努利家族一共产生了8名数学家,其中有三人是世界级的数学家。而在统计学中,也有史上最牛的翁婿关系,他们是罗纳德·费希尔(1890年-1962年)与乔治·博克斯(1919年—2013年),两位重量级的统计学家都为试验设计这一重要统计优化分支做出了突出的贡献。

英国洛桑实验站,已有175年的历史,是世界上历史最悠久的农业研究所。

然而,可能大多数人并不熟知,试验设计如此重要的优化方法居然诞生于一个叫洛桑的农业实验站——世界上最古老的农业研究站,而他的发明者就是统计学大师罗纳德·费希尔,他在其著作《研究工作者的统计方法》和《试验设计》等书籍中系统地介绍了他关于试验设计的精妙思想。

非常巧合的是,乔治·博克斯——罗纳德·费希尔的女婿,也衣钵了费希尔深邃的统计学思维,在试验设计、时间序列模型等领域钻深研精、大有所成,并且发表了大量重要的文章和著作,他有一句被统计学和大数据行业从业人员奉为经典的名言:所有模型都是错误的,但有些是有用的。博克斯在《演化式操作——一种过程改进的统计学方法》、《实验员的统计学》以及《经验建模和响应面法》等著作中系统地介绍了他对于试验设计的深刻理解,同时,他本人在帝国化学工业(ICI)实习和工作的八年时间里曾与他的同事(化学家和化学工程师们)研究探索了如何设计和分析试验以达到提升试验效率的目的,提出了如何更快速地寻找提升化学反应收率的系统性方法。

试验设计从最初应用于农业以提升亩产量,转而迅速普及推广到化学、医药、电子、机械等各行各业的生产和研发活动当中,这一过程中,各行各业的研究人员在实践中逐渐认识到了试验设计方法在优化范畴的独特优势,本文将系统地从为何试验设计?试验设计三大原则,试验设计的工作流程,为何部分因子试验?响应曲面及序贯试验策略,以及试验设计的应用场景等方面对试验设计做一个简要入门的介绍。

一、为何试验设计?——面搜索还是线搜索?

博克斯在其作品《统计学大师之路——乔治·博克斯回忆录》中曾提到,『统计学是关于如何生成和使用数据来解决科学问题。为此,熟悉科学和科学方法至关重要。在科学和技术研究中,我们经常需要研究众多变量。不妨称那些你可以改变的变量为“输入变量”或“因子”,称那些你只能进行观测的变量为“输出变量”或“响应变量”。人们曾一度认为,研究多个因子影响的系统的正确方法是每次只改变一个因子。但早在八十多年前,R.A.费希尔就向世人揭示了,这种方法效率太低,白白浪费了许多实验努力。事实上,你应该按照所谓“实验设计”的安排同时改变多个因子。然而即便在现在,每次只改变一个因子的方法仍然在课堂上被教授。』

由此可见,即使在现在,仍有一些研究者依然在采用每次改变一个因子的方式(也称之为COST,即Change One Separate factor at a Time与之对应的试验设计也称之为DOEDesign of Experiments)来寻找最优值,然而,这种一次只改变一个因子的方式明显存在效率低下、因为无法评估交互效应而容易错失最优值等缺点。

我们可以先看一下如图1所示的案例:

某团队经过研究发现,其公司某种产品化学反应的收率与反应釜压力以及催化剂添加量有很大关系,为摸索最佳工艺展开如下试验:

1)固定催化剂添加量在5kg,调整反应釜压力进行试验数次,最后得出在反应釜压力750Mpa时,收率最佳;

2)随后,固定反应釜压力在750Mpa,调整催化剂添加量进行试验数次,最后得出催化剂添加量在3kg时,收率最佳;

3) 因此,研究团队认为反应釜要在750Mpa,催化剂添加量在3kg时,整体收率达到最佳。

图1:两种不同的寻优方式的比较

那么,事实与这个团队得出的的结论相同吗?我们从右边通过试验设计获取的等高线图中可以明显地看出,最优点实际上发生在反应釜压力=650Mpa及催化剂添加量=3kg时,此时的收率将高于91%,而通过第一种方法得到的最佳收率估计在90%左右,由此可见,第一种方法确实存在错失最佳值的风险。实际上,从上图我们也可以看出,第一种方法实际上是一种线搜索的方式,而试验设计是一种面搜索的方式,很明显,通过面进行搜索比通过线进行搜索更高效,更容易捕捉到最佳值。同时,通过试验设计的方法,我们可以获得响应变量与因子之间非常直观的响应曲面和等高线图,可以帮助我们更好地理解响应变量随因子变化的规律。

二、试验设计的三大原则 ——费希尔的农田

通过以上第一节,我们明白了为什么DOE比COST方法更加高效,然而如何进行试验设计是一个非常重要的环节,这将直接关系到试验的效率和成败。费希尔在洛桑农业实验站工作的14年中(1919年-1933年),通过大量的试验研究总结出了试验设计的普适性的三大原则,即:

(1) 重复试验;

(2) 随机化;

(3) 区组化。

然而有时候,一些专业书籍对这三大原则的解读会非常晦涩难懂,这里我们通过一个杜撰的故事——费希尔的农田,尝试从另外一个视角来解读这三大原则。

图2:“费希尔的农田”示意图

如图2,故事讲的是,费希尔在洛桑农业实验站工作时,曾做过两种稻种亩产量的评估试验,他经过严密认真的思考,最终得出了试验设计的三大原则,并一直被学界奉为经典:

① 最初费希尔的想法是,在两块稻田中分别种上A稻种和B稻种,然后去看哪一种稻种的亩产量更高,这样就可以得出评估结论了;

② 可是,费希尔是大统计学家,所以稍作考虑后,认为仅仅从一个点去做判断是不严谨的,因此,他就把左右两块田各分成4块,然后再把A和B种上去,这样不仅可以得到A和B两种稻种亩产量的平均值,而且还可以获得它们亩产量的标准差,这样比较就更加有说服力了;

③ 但是,敏锐的费希尔很快又意识到上面的试验方法还是存在缺陷,因为根据自己多年在农业实验站工作的经验,实验站农田的土壤肥沃很是不均,假设左边的农田土壤一般,而右边的农田土壤更加肥沃,如果最后得出的结论是B稻种的产量更高,那么是稻种的原因导致其产量高,还是土壤的原因导致其产量高呢?这里就产生了两种因素的混淆,所以,他经过思考之后,又重新设计了试验方法,他在左边和右边的农田分别种上A和B,那么这样A和B稻种在土壤肥沃和普通的农田上都机会均等地种上了,所以这样做得出的结果会更加合理;

④ 本来这个试验方案可以直接来进行操作了,这时,农业实验站临时接到一个新任务,要求评价新发明的机械播种机比人工播种是否更有助于提高亩产量,为了减少试验次数,要求将两种评价合并在一起,费希尔不愧是天才,他很快就找到了完美的方法来解决这个问题,他把左边和右边的农田各一半用人工播种,另一半用机械播种,这样就在不增加试验次数的情况下,非常完美地完成了这个临时接到的任务。

实际上,费希尔在上面的试验逻辑思考②、③、④里面,已经非常完整地把重复试验、随机化和区组化这三大试验设计原则创造性地应用到两种稻种亩产量的评价任务中,从而,保证了试验结果的有效性和合理性,为最后得出科学的评价结果提供了有力保障。

当然,对于区组化,有一个基本原则,即:能区组者则分区组,不能分区组者则随机化。』

三、试验设计及分析的工作流程

以上我们已经知晓了试验设计的优越性以及试验设计的三大原则,这里我们通过一个全因子完全析因设计来介绍一下试验设计及分析的工作流程。

如图3,这是一个典型的2^3 因子设计示意图,从图中可以看出,试验设计者试图研究A、B、C三个因子对响应变量的影响,为此,设计者设计了以下试验方案,并希望通过以上试验估计以下回归方程的系数:

由以上回归方程可以明显看出一共存在8个系数需要估计,因此,需要至少2^3=8次试验,类似地,如果因子数量为n个,那么我们需要做到完全析因,则需要至少2^n 次试验。

根据前面所提到的试验设计的三大原则,我们还需要进行重复试验,但是为了减少试验次数,一般选择在中心点进行3-4次重复性试验。选择在中心点进行重复性试验还有一个好处,即它可以发现模型是否存在弯曲现象,如果存在弯曲现象,则我们需要加上因子的高阶项,以构成响应曲面,通常而言,也就意味着我们基本找寻到了最优值。当然,对于出现弯曲情况,还需要增加一些试验点来对模型参数进行估计,这将在后面进行讨论。同时,我们还需要对试验顺序进行随机化处理,本案例没有区组化的要求,因此,可以直接根据此试验设计进行试验,并获得相应的试验数据。

图3:典型的2^3因子设计示意图

另外,在进行因子高低水平设置时,一定要尽可能地将高低水平设置得相对远一些,否则有可能试验中的噪声就可能淹没了本来存在的显著效应。而且,试验点设置远一些,也有助于探索未知的工艺位置,具体图4所示。

图4:因子水平设置对因子效应估计的影响

在获得了试验数据后,需要开始试验设计的分析工作,它基本上按照以下流程来展开:

图5:试验设计分析工作流程

实际上,以上工作流程中,前三个步骤我们在一元线性回归中已经进行了非常详细的介绍,稍有不同的是,在这个回归模型中,因子(主效应)的个数大于1个,且存在二阶交互项,所以,需要对回归系数进行检验,以确定其对响应变量的影响是否显著,同时,还需要看模型是否存在弯曲或者失拟的现象,比如,我们从模型结果中看到某个主效应不显著,或者某个二阶交互效应不显著的话,我们需要将这些项剔除后,重新进行回归。

当模型经过改进已经不存在任何异常时,就可以进入了模型解释阶段,在此阶段,我们需要做两件事情:

(1)通过输出因子的主效应图、交互效应图来进一步验证和确认它们的显著性;

(2) 通过输出等高线图、响应曲面来更加直观地理解响应变量随自变量变化的规律,以帮助寻找最佳设置。

接下来,我们还需要通过响应优化器来寻找最佳设置,并且判断最优值是否已经达到了原先设定的目标,如果已经达到了,并不代表工作就结束了,而是需要做进一步的验证试验,通常的做法是在最佳点做3次以上验证试验,当然,如果还没有达到原先设定的目标,则我们还需要以最佳点为中心继续安排试验设计,直至达到预定的目标为止。

四、为何部分因子试验?——分辨度与试验效率间的平衡

前面已经提到,当因子数量为n时,如果需要做完全析因设计,则至少要做2^n次试验,简单的计算我们就可以得到,当因子数量达到5个时,完全析因设计就需要32次试验(不包含中心点),当因子数量达到6个时,完全析因设计就需要64次试验。以4个因子为例,我们给出试验设计的模型方程如下:

由此可以看出,如果做完全析因设计,除了常数项外,估计出来的主效应有4项,二阶交互效应项共6项,三阶交互效应项共4项,四阶交互效应项共1项,一共2^4 =16项,而这些项中,三阶及三阶以上的交互项实际上已经不具备现实意义了,因此,我们真正需要推断的参数仅有常数项、主效应项和二阶交互效应项,一共是11项,因此,希望少做实验,同时能对模型方程中的常数、一阶及二阶项系数的想法是有可能实现的。

现实工作中,由于资源和时间的限制,这种对效率和试验成本控制的需求是常见的。依然以4因子(A、B、C、D)为例,完全析因设计需要16次试验,而此时根据限制条件,只能做8次试验,那么如何去选择这8次试验是最合理的呢?根据分析可以得出,按照生成元D=ABC(定义关系为ABCD=1简称“字”)来选择试验是最合理,这样不仅可以保证实验设计的正交性,同时,可以保证一阶主效应与二阶交互效应不产生混杂。

在部分因子试验中,也存在多个生成元(即多个字)的情况,此时,将所有字中长度最短的那个字的长度定义为整个设计的分辨度(resolution),分辨度通常用罗马数字给出,如I、II、III、IV等。前面的例子通过ABCD=1来获得8次试验安排,那么它的分辨度就是IV,这个设计方案就记为2_{IV}^{4-1} ,更一般地,分辨度为R的部分因子设计记为2_{R}^{k-p} ,其中k为因子个数,而p为生成元或字的个数。

表1:不同分辨度下混杂情况举例

统计学家为了方便研究者使用方便,特地编制了表2的部分因子试验分辨度表,同时,在minitab或者jmp软件中,也可以通过软件直接生成部分因子试验的设计。

表2:部分因子试验分辨度表(列为因子个数)

由以上表格可以看出,在因子数量确定的情况下,我们需要得到更高的分辨度,那么就必须要做更多的试验,所以,在实际工作中,研究者可以根据自身的需求来进行选择,使得分辨度和效率达到一种均衡。

五、响应曲面方法及序贯试验策略——弯曲下的选择

响应曲面方法(ResponseSurface Method,RSM)一般适用于以下情形:

(1) 因子数量较少(通常不超过3个)的情形;

(2) 需要求出响应变量最大值或最小值。

在试验设计中,响应曲面方法一般发生在筛选因子后进行全因子试验时发现有弯曲的现象的情况下,此时,需要采取的策略是在模型中加入含二次项的回归方程,以2水平为例,其一般模型可以表示为:

很明显,此时需要估计的参数增加了2个(因子的平方项的系数),那么原先的试验点就不够用了,需要增加一些试验点,再通过线性回归的方式来估计相关参数。而此时,最高效的方式就是采用序贯试验策略来增加试验点,图6显示了2种保持序贯性的中心复合设计方法。当然,在响应曲面设计还包括其它类型的方法,但是它们都不具备保持序贯性的特点,如中心复合有界设计(CCI)和Box-Behnken设计。

图6:两种实用的序贯试验策略方法

在增补了试验点后,就可以进行响应曲面分析了,其分析流程与前述的试验设计分析流程基本类似,这里就不再赘述。

六、试验设计在工业现场的应用场景介绍

试验设计作为一种高效的优化工具在各个行业得到广泛应用,尤其是在化工行业,研究者通过试验设计方法来提升产品配方设计与开发效率、改善生产效率、提高产品收率等等,此外,通过试验设计来提升产品的可靠性、过程的鲁棒性已经在很多行业获得了巨大的成功。

在进行试验设计中,统计思考以及研究人员的专业知识和经验(非统计知识)对于试验的成功是非常重要的。然而在做一些探索性的研究时,由于积累的知识和经验较少,需要评估的因子数量将会陡然增多,从前面讨论中可知,当因子数量变多时,完全析因设计的试验次数将呈现指数级的增长,即便是部分因子试验,试验次数依然非常之多,因此,对企业而言,将造成了较大的研发成本压力,并且影响了研发效率。国工智能在与国内万华研究院的合作项目中,国工智能的数据科学专家通过贝叶斯优化算法使得原先需要150次试验才可以完成的优化工作,降低到仅仅3个轮组共15次的试验就达到了同样的效果,然而不可否认的是,试验设计方法与机器学习算法相比,其模型的可解释性更强,这对于研究人员进行进一步的机理研究是至关重要的,同时,即便是人工智能算法,也需要前期试验设计所获得数据点的支持以做进一步的优化和实验安排。

总体而言,试验设计目前依然是化工和医药领域最为重要的一种优化工具。作为化工和医药领域人工智能决策控制领域的领跑者,国工智能一直非常重视各种统计学模型算法的开发和应用,目前其数据大脑平台已经融合了上百种统计学和机器学习算法,并在化工、医药等行业得到了广泛的应用,为国内众多企业创造了巨大的商业价值。


参考文献:

[1].《统计学》,[美]William M. Mendenhall等著

[2].《Design and Analysis of Experiments》,[美]Douglas C. Montgomery著

[3].《统计学大师之路——乔治·博克斯回忆录》,[英]George E.P. Box著

[4].《六西格玛管理统计指南》,马逢时等著

[5]. A Brief Introduction to Design of Experiments, [美] Jacqueline K. Telford.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容