01.目的
复盘是项目管理过程中非常重要的一个环节,能够为组织留下有价值的经验教训,即组织过程资产。其中故障复盘也是类似的,主要目的就是通过对线上问题的根本原因、解决过程、影响范围的分析,提出改进措施,同时在复盘过程中将经验分享给其他人,警醒当事人,也提醒身边的人,避免犯同样的错误。也同时可以暴露出团队质量问题,推动团队提高质量。
02.记录元素
【故障标题】
用简单的文字描述是什么故障
【故障描述】
阐述故障发生的过程,故障出现的场景。
故障解决过程中的时间线,发生时间,发现时间,初步定位问题时间,故障恢复时间等。
故障的影响范围,根据现场实际调研情况描述影响的用户数量,舆情反映情况。
【故障分类】
是哪一类问题,是属于测试漏测,代码问题,发布问题,需求问题,线上运维等。
【故障等级】
根据故障发生的严重程度描述故障的等级,等级越高,团队对该类故障的重视程度越高,影响面越大。
【根本原因分析】
问题的发生会有很多原因,但是层层递推下去,一定可以找到一个导致问题的最核心的问题,分析并定位。也是我们复盘最核心的工作。分析工具有非常常见的鱼骨图,也叫石川图。
【故障责任人】
根本原因分析之后确定最终问题定位的责任人
【改进/避免措施】
具体的解决方案,这是分析的最终目的。可以彻底决绝或者避免将来类似的问题不再发生。