混沌工程-阿里周洋肖长军以及Thoughtworks伍斌的实践

云原生架构下的混沌工程实践,讲述了什么是混沌工程,混沌工程的5项原则。为什么要引入混沌工程?介绍了混沌工程开源工具chaosblade混沌之刃,统一实验模型描述混沌事件,控制爆炸半径减小实施风险,建立面向失败设计的技术文化,通过平台能力标准化实验流程,从系统分层来守护稳定性。

混沌工程与系统稳定性设计模式:讲述了在现有混沌工程原则基础上改进的“维稳”8步法,此外讲述了“维稳”的设计模式。

ChaosBlade: 云原生架构下的混沌工程探索与实践,讲述了ChaosBlade的基石-混沌实验模型(Target实验靶点+Scope实验范围+Matcher规则匹配器+Action实验行为),ChaosBlade 丰富的实验场景。

分布式服务架构下混沌工程实践,讲述了混沌工程的实施步骤,分布式架构下面临的问题以及分布式服务的高可用原则。

云原生架构下的混沌工程实践 来自阿里巴巴周洋(花名中亭)-2019

1) 建立稳定状态的假设

2) 用多样的现实世界事件做验证

3) 在生产环境中进行实验

4) 自动化实验以持续运行

5) 最小化爆炸半径

统一实验模型描述混沌事件

控制爆炸半径减小实施风险

建立面向失败设计的技术文化

混沌工程与系统稳定性设计模式:来自道⻓伍斌(“维稳”8步法和“维稳”设计模式)-2020

听众们的疑问

什么是混沌工程

为什么要混沌工程

复杂的和混沌的系统无法预测

复杂系统:一组相互之间以及环境之间存在互动关系的子系统,且不完全被中央系统所控制。

稳定性设计:混沌工程'维稳'8步法

混沌⼯程的⽬的不是搞破坏,⽽是⽤试验进⾏探 索和演练,来增强系统的稳定性。

系统稳定性(弹性/韧性),指系统在可接受的⼲ 扰情况下,能够承受局部破坏,并在可接受的时 间内进⾏⾃我恢复的能⼒。

混沌⼯程“维稳”8步法 :

*0). 先决条件:限制爆炸半径和受害者;建⽴可观测性;制定关闭混沌 试验后回归稳态的⽅案;制定应急预案;

1)定义稳态:定义系统正常*业务*⾏为的“稳态” ;

2) 稳定性设计:运⽤稳定性系统设计⽅法实现业务稳态

3.)建⽴假设:假设业务稳态在引⼊⼲扰时保持平稳

4). 引⼊⼲扰:模拟真实世界的⼲扰并引⼊系统

*5). 对⽐试验:根据试验和对照组的数据试图证明业务稳态假设不成⽴

*6). 进⾏改进:根据试验结果改进系统稳定性设计

*7). 持续试验:重复上述过程

备注:加*部分在混沌工程现有原则基础上增加的部分。

分布式系统“维稳”的稳定性设计模式

“要躲避的坑”(10+2个反模式) :

1 集成点 , 2 连累反应 , 3 层叠失效 , 4 ⽤户, 5 阻塞的线程 , 6 ⾃⿊式攻击 , 7 放⼤效应 , 8 失衡的系统容量, 9 ⼀窝蜂,10 做出误判的机器 ,11 缓慢的响应

集成点:传⼊数据的每⼀个连接,都可以 令系统停⽌响应

连累反应:由于⼀台服务器停机,令其他服 务器必须接过其负载⽽不堪重负

层叠失效:某⼀层的失效导致其调⽤层发⽣失效

⽤户:随着⽤户流量的增⻓,最终它将超过系统的容量

阻塞的线程:所有线程都在开开⼼⼼地运⾏, 但只在那⾥“等待⼽多”

⾃⿊式攻击:指系统(或有⼈类参与的扩展系 统)参与合谋来与⾃身作对

放⼤效应:存在“多对⼀”或“多对少”的关系的 多⽅规模增⼤,令另⼀⽅遭受放⼤的影响⽽崩溃

失衡的系统容量:⼀个层级或服务能向另⼀个层级或服务,发送超过后者处理能⼒ 的⼤量请求,从⽽淹没后者

⼀窝蜂:当启动多台服务器(如在代码升级和重新启动之后),或⼀个cron作业在任何⼀个整点时间被触发,或当配置管理系统推出⼀个变更时,⼀堆服务器同时对某 ⼀台服务器(如数据库)施加的瞬时负载

做出误判的机器:对于系统预期状态的“信念”,在⾃动化平台与管理员之间所发⽣的冲突

缓慢的响应:“慢得好像死了”

⽆限⻓结果集 “不信有好事”(9+3个好模式)

1 超时,2 断路器, 3 舱壁,4 稳态,5 快速失败,6 任其崩溃并替换, 7 握⼿, 8 考验机 ,9将中间件解耦,10 卸下负载

⽆限⻓结果集:查询数据库、遍历结果集并处理 每⼀⾏结果的程序,没有明确限 制可以处理的结果数量

超时:只要认为响应不会到来,就可以停⽌等待

断路器:如果调⽤执⾏成功,那么⼀切平安⽆事。但如果调⽤执⾏失败, 断路器会将其记录下来。⼀旦失败次数或频率超过阈值,断路器 将跳闸并“断开电路”

舱壁:能将船分隔成若⼲独⽴的⽔密隔间的隔板,可防⽌⽔从⼀个部分流到另⼀个部分。使得船体即使被洞穿⼀次也不会沉没,能控制损害范围

稳态:分布式系统的“维稳”,⽐如针对每个累积资源的机制,要相应存在 另⼀个机制以回收该资源

快速失败:如果系统⽆法满⾜SLA要求,则需要快速通知调⽤者。不要让调⽤者等待错误信息,也不要让他们 等到超时为⽌。否则只会让你的问题成为他们的问题

任其崩溃并替换:创建系统级稳定性所能做的最好的事情,就是放弃组件级的稳定性,并尽快更换组件,以回到系统最初⼲净的刚完成启动的状态

握⼿:发送⽅和接收⽅两个设备之间⽤于规范两者之间通信⽅式的过程,让服务器通过限制⾃⼰的⼯作量来保护⾃⼰

考验机:能够⽤⽹络错误、协议错误或应⽤程序级错误等各种低层错误, 来“考验”被测软件的测试服务器。 因为每个系统最终都会偏离接⼝ 规范

将中间件解耦:通过在系统之间传递数据和事件 的中间件来实现集成;通过让参与其中的系统不必了解其他系统的特定知识,⽽只是对其进⾏调⽤来实现解耦

卸下负载:当负载过⾼时,就开始拒绝新的⼯作请求。这与快速失败模式相关

背压机制:请求的消费⽅将其处理请求的速 度通知发送⽅,让⾃⼰能慢些⼯ 作,从⽽创造安全性

节速器:减缓缺乏判断能⼒的⾃动化机制出错时的速度

ChaosBlade: 云原生架构下的混沌工程探索与实践,来自阿里巴巴技术专家和混沌工程布道师肖长军(花名:穹谷)-2019.10.19

ChaosBlade(混沌之刃)是一款遵循混沌实验模型,简单易用,功能强大的混沌实验工具(场景丰富度高、使用简洁,易于理解、动态加载,无侵入、场景扩展方便)

Github 地址:https://github.com/chaosblade-io/chaosblade

ChaosBlade 的基石-混沌实验模型

Target 实验靶点:实验的组件

Scope 实验范围:集群、机器、Pod

Matcher规则匹配器:匹配条件

Action实验行为:具体执行的实验规则

简洁:层次清晰通俗易懂 四层,边界清晰

通用:覆盖目前所有故障场景,基础资源、应用、容器或 serverless 架构

易实现:实验场景共建简单,定义清晰的接口规范

语言:领域无关 可以扩展多语言、多领域实现

ChaosBlade 丰富的实验场景

基础资源 chaosblade-exec-os:CPU 负载、内存占用、网络延迟/丢包/阻塞、 杀进程、宕机、重启、磁盘填充、IO Hang、IO burn、shell 脚本

应用服务

service mesh:调用延迟、异常、超时

分布式跟踪:打标签标识

消息:投递延迟、异常、超时、重发

熔断限流:sentinel 限流失效、异常

web容器servlet:请求延迟、异常

数据库:servlet druid/tddl/mysql/ postgresql  连接池满、调用延迟、异常

容器服务chaosblade-exec-docker:内存溢出,进程 CPU 负载, 指定类和方法做延迟、异常、修改返回值、修改参数

容器服务chaosblade-exec-k8s:杀 POD、停止 POD、kubelet 异常、断网、 删容器、容器服务异常、etcd 异常等;容器内应用进程、基础资源场景

分布式服务架构下混沌工程实践,来自阿里巴巴混沌工程布道师肖长军(花名:穹谷)-2019

混沌工程的原则同周洋部分,下面仅列出分布式有关的信息。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352