稳定性保障体系

概览

image.png

详细流程

预防(规范流程)->发现(监控覆盖率95%,准确率90%,新鲜度)->定位(监控大盘,链路追踪)->止损(5分钟内止损,预案执行,降级,兜底)->复盘(故障管理,改进项管理)


image.png

一、事前

(一)流程规范

● 编码规范 :明确编码过程中的规则,减少因代码质量引发的风险。
● 变更规范 :规范变更流程,对变更进行严格评估和管理,避免因随意变更导致风险。
● 资源规范 :合理规划和管理资源,确保资源的可用性和稳定性,降低资源相关风险。
● 代码质量管理 :通过代码审查、测试等手段,保证代码质量,及时发现和修复潜在问题。

(二)功能梳理

● 核心功能梳理 :梳理系统的核心功能模块,明确其重要性和依赖关系,以便在风险评估和应对时重点关注。
● 核心依赖梳理 :识别系统的关键依赖组件或服务,分析其对系统的影响,提前做好应对措施。
● 技术架构梳理 :了解系统的整体技术架构,包括各层次的组成和交互关系,为风险识别和应对提供基础。
● 系统容量评估 :评估系统在不同负载下的容量情况,预测可能的性能瓶颈和风险点,提前进行优化和扩容规划。
● 系统风险项评估 :对系统进行全面的风险评估,识别潜在的风险因素,如安全漏洞、故障点等。
● 服务可用性梳理 :梳理服务的可用性要求和现状,分析可能导致服务不可用的原因,制定相应的保障措施。

(三)风险控制

● 灰度策略 :采用灰度发布的方式,逐步将新版本或新功能推送给部分用户,观察其稳定性和影响,降低大规模上线带来的风险。
● 限流策略 :设置合理的限流规则,防止系统因流量过大而崩溃,保障系统的稳定运行。
● 容灾策略 :制定完善的容灾方案,包括数据备份、同城灾备、异地灾备等,确保在发生灾难时能够快速恢复系统和数据。
● 压力测试 :定期进行压力测试,模拟高并发等场景,检验系统的性能和承载能力,提前发现和解决问题。
● 故障注入 :主动注入故障,测试系统的故障恢复能力和应急响应机制,提高系统的可靠性和稳定性。


二、事中

(一)风险监控

● 风险预警
○ 可视化监控大屏 :通过直观的可视化界面,实时展示系统的各项指标和状态,方便及时发现异常情况。
○ 中间件监控 :对中间件(如消息队列、缓存等)进行实时监控,确保其正常运行,及时发现和处理中间件相关的故障和风险。
○ 基础设施监控 :监控服务器、网络设备等基础设施的运行状态,包括 CPU、内存、磁盘、带宽等指标,保障基础设施的稳定可靠。
○ 业务功能监控 :针对业务功能进行监控,确保业务流程的正常执行,及时发现业务相关的故障和问题。
○ 应用系统监控 :对应用系统的整体性能、可用性、错误率等进行监控,及时掌握应用系统的运行状态。

(二)应急处理

○ 容灾预案 :当发生灾难事件时,按照容灾预案进行切换和恢复操作,保障系统的连续性。
○ 降级预案 :在系统出现性能问题或故障时,根据降级预案对非核心功能进行降级处理,确保核心业务的正常运行。
○ 扩容预案 :当系统资源不足时,按照扩容预案进行快速扩容操作,满足业务增长的需求。
○ 限流预案 :根据系统负载情况,及时启动限流预案,限制流量进入,防止系统崩溃。
○ 回滚预案 :在发布新版本或进行变更后出现问题时,按照回滚预案将系统恢复到之前的稳定状态。
○ 重启预案 :当系统出现部分组件或服务故障时,按照重启预案进行重启操作,恢复系统的正常运行。

(三)应急机制

● 风险通报 :及时将发现的风险和问题通报给相关人员和团队,确保信息共享和协同处理。
● 预案开关 :根据实际情况,及时启停相关应急预案,保障应急处理的有序进行。
● 应急决策 :在应急处理过程中,由相关负责人进行快速决策,制定合理的应急策略和措施。
● 应急协同 :各团队和人员之间密切协作,共同应对风险和故障,提高应急处理的效率和效果。
● 问题升级 :当问题超出当前团队或人员的处理能力时,及时进行问题升级,寻求更高级别的支持和资源。


image.png

(四)值班机制

● 日常值班 :安排专人进行日常值班,实时监控系统运行状态,及时处理突发问题。
● 节假日 & 运营活动 :在节假日和重要运营活动期间,加强值班力量,确保系统的稳定运行和活动的顺利进行。

(五)应急演练

● 预案演练 :定期组织应急预案演练,检验预案的有效性和可操作性,提高团队的应急处理能力和协同配合能力。
● 扩容演练 :进行扩容演练,模拟系统资源不足时的扩容过程,提高扩容操作的熟练度和可靠性。


三、事后

(一)故障复盘

● 故障复盘 :对发生的故障进行详细复盘,分析故障原因、影响范围、处理过程等,总结经验教训。
● 故障定级 :根据故障的严重程度、影响范围等因素,对故障进行定级,为后续的改进和优化提供依据。

(二)总结 & 优化

● 产出 Action :根据复盘结果,制定具体的改进措施和行动计划,明确责任人和时间节点。
● 系统优化 :针对发现的问题和不足,对系统进行优化和改进,提高系统的稳定性和可靠性。
● 沉淀总结 :将复盘的经验教训和优化措施进行沉淀和总结,形成文档和知识库,为今后的工作提供参考和借鉴。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。