《运维体系管理课-赵成》故障管理

27故障管理:对故障的理解

  • 系统正常,只是该系统无数异常情况下的一种特例
  • Design for Failure 理念:我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因

  • 技术和管理上的问题,积累到一定量通过故障的形式爆发出来,所以故障是现象,是在给我们严重提醒
  • 理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行
  • 作为管理者,需要时常问自己:下次出现类似问题,怎么才能更快地发现问题,更快地恢复业务?即使这一次的故障应对已经做得非常好了,下次是否可以有更进一步的改进?

反省

  • 出问题,管理者要先自我反省
  • 强调技术解决问题,而不是单纯地靠增加流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助
  • 必须尽快将人为动作转化到技术平台中去。(随着系统复杂度越来越高,迟早有一天会超出单纯人力的认知范围和掌控能力,各种人力的管理成本也会随之上升)

28故障定级和定责

故障的定级标准

  • 相关参与人员:技术支持团队,HRBP,人力
  • 制定标准相关相关要素:
    • 等级 p1~p5
    • 业务线:不同的业务线有不同的业务定级标准
    • 参考指标:影响时间,交易量,
  • 制度:技术支持团队与业务研发团队,细分标准;按需修订与完善

故障定责的标准

  • 定责主要目的是判定责任方,避免扯皮推诿;正视问题严肃对待
  • 定责判定维度(故障类型):变更执行,服务依赖,第三方责任

39 故障管理:鼓励做事,而不是处罚

关于定责和处罚

  • 定责的过程,是找出根因,针对不足找出改进措施,落实责任人。定责的目的,是责任到人,并且责任人能够真真切切地认识到自己的不足之处,能够主导改进措施的落地。同时,也让整个团队认识到,我们对于故障的态度一定是严肃严格的
  • 定责:对事不对人
  • 处罚:对人不对事
    • 对于有明确底线,坚决不允许触碰的规则,如果因不遵守规则,故意触犯,导致了严重故障的出现,这种情况是要处罚的。
    • 高压线原则:
      • 未经发布系统,私自变更线上代码和配置;
      • 未经授权,私自在业务高峰期进行硬件和网络设备变更;
      • 未经严格的方案准备和评审,直接进行线上高危设备操作,如交换机、路由器防火墙等;
      • 未经授权,私自在生产环境进行调测性质的操作;
      • 未经授权,私自变更生产环境数据信息。

鼓励做事,而不是处罚错误

  • 故障的发生、处理、复盘和改进有助于团队能力提升,对于故障要保持容忍度和耐心
    • 发现不足
    • 未来改进方向
    • 团队和个人综合能力提升
    • 技术依赖员工的创新和创造
    • 员工积极性
  • 作为管理者:
    • 将规则和标准定义清楚,在执行时才能够做到公平公正
    • 故障发生,要关注更全面的内容,关注人(状态,情绪),事情背景和前因后果

处罚的负作用

  • 不能将定责与绩效强挂钩,会出现
    • 团队互不信任
    • 宁可少做,不愿多做多错,团队沟通成本上升,运作效率下降
  • 更好的方式:专门系统记录,将评估放到一季度,半年,或一年表现中进行判断

30故障管理:故障应急和故障复盘

故障应急

  • 业务恢复预案:
    • 第一原则:优先恢复业务,而不是定位问题
    • 业务应急预案:
      • 凡是没有演练过的预案,都是耍流氓:日常没演练过的,都没执行,应急情况下执行更容易出错,导致次级故障。
    • 故障模拟类型:
      • IDC层面:ups切换,电力切换,交换机,路由器
      • 系统层面:cpu,io,disk
      • 应用层面:RT,499,5xx
  • 有效组织协调;故障发生后关键事项:
    • 故障通告
    • 组织应急小组
    • 恢复业务
    • 信息汇报
  • 总结:故障应急过程就是功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景

故障复盘

  • 复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进
  • 切忌将复盘过程和目的搞成追究责任或实施惩罚,这对于团队氛围和员工积极性的打击是非常大的
  • 复盘过程:
    • 召集复盘会议:准备要讨论的问题,邀请相关人员
    • 组织复盘会议
    • 故障简单回顾
    • 故障处理时间线回顾:尽可能细
    • 针对处理时间线讨论:对事不对人,针对性提问
    • 确定故障根本原因:就事论事
    • 故障定级与定责:依据规范定级与定责
    • 发出故障报告:详细的故障信息,故障原因,后续改进措施,总结问题与建议。跟进后续的改进措施
  • 定期总结故障案例:从更高层面分析故障,发现自身架构与业务层面的问题
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容