(12)做好系统稳定性建设(上)

稳定性建设四要素:人、工具、预案、目标

稳定性建设四个方向:根基牢(45%)日常(30%)预案(15%)容量(10%)

一、稳定性建设四要素

人、工具、预案和目标。

(1)人

主导是开发、测试和运维,还有安全、产品等参与,在OKR中背负一部分,合规化,有迹可循,

1)编码规范:对外接口命名、统一异常父类、异常码规范、对外抛异常还是返回错误码、统一三方库版本、哪些场景必须用内部公共库、埋点日志怎么打、统一日志、监控切面实现等

  为什么统一异常父类和异常码:统一后,很多切面就可公共库做,如监控、出入口日志打印,异常拦截,压测标识透传、特殊的字段埋点等。例:可能不同模块异常父类不同的,订单模块异常父类OrderException、交易支付TradeException,OrderException和TradeException的父类BizException(定义在通用共公共库中),统一200代表正确码,异常6位数字(前3位模块,后3位异常类型),

2)公共库:内部公共库(也升级迭代),如日志库、HTTP库、线程池库、监控埋点库等,都“久经考验”应强制用,。

3)项目结构规范:统一结构快速接手项目

4)数据库规范:库名、表名、索引、字段、分库分表规范明确,分表数不用2的幂(很多人认为计算分表时用位运算更快,这个开销相比数据库操作可忽略),1024张表用质数(接近1024的1019),数据分的更均匀

(2)工具

能做什么?做到什么程度?如何降低稳定性工作成本?

日志采集分析检索(滴滴Arius)、监控告警(滴滴Odin Metrics)、分布式追踪系统(Google的Dapper、滴滴把脉)、自动化打包部署(滴滴One Experience)、服务降级系统(滴滴SDS)、预案平台(滴滴911)、根因定位(记录所有故障发生前所有系统变更事件)、放火平台等。

内部公共库,接入Odin Metrics和把脉几乎不要做额外工作(接入把脉要提日志采集工单,头疼),不要吝啬工具投入,用或参考开源框架

(3)预案

故障时通知:团队内其他成员、Leader(寻求帮助)和客服、上游业务开发等可能影响方

选出协调者,什么情况选

协调者职责:排查和止损,避免介入同学重复工作,持续和影响方沟通。

操作开关谁决策:对于排查问题和止损同学来说,查代码看开关名,关掉一个功能需多个开关,什么条件能操作

止损方式、原则善后方案谁拍板

(4)目标

星辰花将故障分成P0至P5六个等级,P0、P1、P2属重大:

二、稳定性建设四个方向

(1)根基牢(45%)

CR:闭环搞定,时间长容易懈怠,大于4人日项目进小黑屋CR

设计:讲最终和淘汰方案!

提测:补单测、自测、联调、通过用例

上线流程:小流量集群灰度(单量少城市做小流量集群),再线上灰度,观察线上大盘和日志,有问题快回滚

(2)日常工作在(30%)

监控告警、及时消灭线上小隐患、跨团队沟通、复盘、定期会议来总结

(3)预案(15%)

去定位和止损复杂的线上问题时。紧急预案重要,动态预案才有效

1)分场和完善:分场景整理如MySQL、MQ、发单接口故障。如有损,副作描述清楚。

2)验证预案:借助放火平台和降级系统,给主流程非核心依赖注入故障

(4)容量(10%)

老板问你明年单量要Double要预算,要规划你凭什么给?压测容量来预估。摸到分布式系统中“短木板”才知道系统吞吐量(容量)

投入10%的精力来摸容量、扩容量、水位预警等。线上有大约10%故障和容量有关,扩容三点:

1)全链路压测:老瓶颈可能消失,新的出现,之前结果失效,定期去摸这个阈值。

2)扩容演练:紧急时候,弹性云扩容比修改阈值重新上线更快

3)多活建设


https://blog.csdn.net/manzhizhen/article/details/103642565

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容