故障定义故障定级=业务影响=bug影响内容的重要性(是否主流程、关键功能等)*业务流量(高峰、低谷等)*持续时间持续时间=发生问题+发现问题+定位原因+应急处理+故障恢复action保证主流程的健壮性避开高峰发布、改造减少持续时间测试质量监控完备问题可排查应急方案可回滚