在日常事故中,发现很多开发人员写故障总结就是走个过场,不清不楚,还会漏掉一些实际问题。其实一份好的事故总结能够加强自身对错误的反思和解决,并且能够帮助团队内其他人避免类似错误重犯,降低犯错几率,从而保障服务稳定性。
一般一个好的故障总结都会有如下几个重要特点:
看得懂,即便是一个非专业人员也能看懂来龙去脉;
有数据,通过数据说清楚故障真实原因、造成损失;
免指责,不要指责个人,以团队的名义说清楚解决方案和后续避免措施。
分享一份我在工作过程中经常使用的事故总结模版,以加快事故总结效率。

image.png