如何让混沌工程实验降本增效

“混沌工程实验性价比太低了。测试、研发和运维三个部门都投入了大量人力物力,在准生产环境做了不少故障注入实验。但发现的问题还是比较少。”在一次混沌工程实践回顾会上,一位测试人员如是说。

这位测试人员,来自一家国内领先的股份制商业银行。而我正在为这家银行的运维团队,辅导他们的混沌工程实践。

近十几年来,随着企业业务不断微服务化,并迁移到复杂分布式的云生产环境,云上各个微服务业务系统之间相互访问的稳定性,以及与所依赖的第三方系统之间相互访问的稳定性,都会受到错综复杂的云生产环境的未知故障的影响,而损害业务连续性。混沌工程就是业界在应对上述问题的过程中孕育而生的良好实践。通过在测试环境和生产环境上,注入经过精心设计并控制好爆炸半径的故障,进行故障注入实验,就可以观察和学习复杂分布式系统的运行模式和失效模式,从而提升团队的系统稳定性设计,让团队能够快速应对业务系统在云环境上的未知故障。

看到其他银行已经率先实践了混沌工程,这家银行的运维部门也按耐不住,早在一年前就开始了混沌工程实践之旅。

我们知道,要想保持业务系统在云环境上运行的稳定性,离不开包括业务、研发、测试和运维部门的密切协作。这家银行的这4个部门的协作情况是怎样的呢?

最先响应运维部门实践混沌工程召唤的,是测试部门。测试部门认为混沌工程的故障注入实验,能丰富他们的压力测试和探索性测试的场景,从而发现更多软件缺陷。

然而相比之下,研发和业务部门的一线人员对此的参与度却不够高。他们认为,混沌工程的故障注入实验,其实就是另一种测试而已。

确实,测试部门就是把混沌工程故障注入实验,当作探索性测试来做的。“混沌工程实验,类似于探索性测试。实验本身没有明确的输入和预期的结果,而是通过对系统和服务的干预,来观察系统的反应。”测试人员在测试总结中这样写道。

缺乏明确的稳态行为假说

由于测试人员使用探索性测试的方法,来实践混沌工程故障注入实验,所以在实验结果报告中,找不到“系统稳态行为假说”的字眼。只是在“风险问题”的以下描述中,隐约看到稳态行为假说的影子:“预期主节点的docker服务关闭后,kubelet/api/etcd/controllers等pod会失效,之后这些核心服务的进程会重启,能继续提供服务”。

隐含的稳态行为假说没有反映用户价值

从上面的描述能看出,这个混沌工程实验的稳态行为假说,并不是没有,而是隐含存在的,即“能继续提供服务”。那如何才算“能继续提供服务”呢?这一点可以从测试方案的监控方式中,看出一点线索。即对于所有实验,无论注入的故障是什么,测试人员只关注3类指标:

  1. 系统业务指标:如系统业务交易的错误率
  2. 系统性能指标:如系统业务交易的TPS(每秒事务处理量)和响应时长的变化趋势
  3. 系统资源指标:如系统的CPU、内存、磁盘IO和网络资源指标的变化趋势

看到这3类指标,我产生了一个疑问:“用户真的在乎业务交易错误率和TPS变化趋势吗?”我相信,用户会更在乎自己下的订单,是否能在3秒内成功处理。这一点所有人都能很好理解。那未能反映用户价值的稳态行为假说,会导致什么后果呢?或许这种充满技术细节的稳态行为假说,不便于业务人员和领导直观感知其业务影响,吸引不了他们的注意,从而丧失了获得他们支持的机会,并弱化了实验的价值。

隐含的稳态行为假说不够量化

再看上面这个通过观察TPS变化趋势来判断是否“能继续提供服务”的例子。如果这个实验是由测试人员手工执行的,凭借丰富的经验,测试人员是能判断系统是否“能继续提供服务”的。但如果将这个实验自动化,用工具在晚上自动执行实验,那么工具该如何界定系统是否“能继续提供服务”呢?所以要想实现自动化,必须要把稳态行为的假说进行量化,以便工具自动执行实验。

良好稳态行为假说示例

这里试着给出一个能反映用户价值,且有量化指标的稳态行为假说的示例:

“即使在实例失效的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。”

这个稳态行为假说,不仅体现了成功场景,也体现了失败场景。

良好稳态行为假说能节省实验成本

如何设计一个能节省实验成本的稳态行为假说呢?让我们看看发生在这家银行测试人员身上的故事。

这些测试人员正在使用一款开源工具,来进行混沌工程故障注入实验。由于这款工具,提供了5种可供注入的原子故障,于是测试人员也就设计了5个实验。如果用上述示例的写法,来编写稳态行为假说的话,会是这个样子:

  1. 实验1的稳态行为假说:即使在实例中止的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。
  2. 实验2的稳态行为假说:即使在实例CPU爆满的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。
  3. 实验3的稳态行为假说:即使在实例内存爆满的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。
  4. 实验4的稳态行为假说:即使在实例磁盘爆满的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。
  5. 实验4的稳态行为假说:即使在关闭实例网络的条件下,系统仍然能在3秒之内,完成已受理的用户的交易,否则也能在5秒之内提示用户业务暂时不可用。

如果手工执行每个实验平均花30分钟,那么执行这5个实验,要花150分钟。

等一下!我们是银行的测试人员,不是开源混沌工程工具的测试人员!这5个原子故障好比病毒,它们所导致的症状都是同一个——实例失效。而对于银行的测试人员,只要从上述5个故障中任选一个注入,就能达成让实例失效的目的。毕竟测试人员只须关注业务系统在实例失效后,是否能继续提供服务。换句话说,这5个原子故障,同属一个等价类。对于等价类,我们只要注入一个原子故障就够了。如果一定要全面注入这5个原子故障,那么可以在以后的各轮回归实验中,每轮实验依次轮流选择一种不同的原子故障注入即可。这样对于“实例失效”的实验,我们就能节省80%的实验成本。这下你就知道上面的良好稳态行为假说示例,为何要写“症状”了——“即使在实例失效的条件下”。这也在某种程度上,揭示了文章一开头测试人员所抱怨的混沌工程实验“性价比太低”的原因。

这个故事给我们的启发是,如果针对“症状”而不是“病毒”来设计系统稳态行为假说,就能帮助我们识别等价类,从而只选择少量的“病毒”注入,达成同样“症状”的效果,进而降低实验成本。

总结

编写反映用户价值、便于量化且针对“症状”的系统稳态行为假说,能让混沌工程实验的价值更容易让业务人员和领导理解,从而获得他们的支持,也能更有利于自动化,并能通过等价类划分,来降低实验成本,进而达成降本增效的目的。

作者简介

最近10年,专注辅导国内近20家大中型企业研发团队的工程生产力赋能。曾在社区主持过几十次编程道场,人称“道长”。著《驯服烂代码》,译《发布!》第2版,合译《混沌工程》。ThoughtWorks中国区Lead Consultant,工程生产力赋能教练,伍斌。欢迎加我个人微信wubinben28并备注chaos,交流混沌工程赋能实践。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容