简单介绍
slo提供了一个定义和达到可靠性目标,对齐技术努力和客户需求,为业务带来有意义的成功的框架
为什么需要slo
提高客户体验需求
关注影响客户体验的指标(如red)
减少噪音告警和告警疲劳
关注影响客户体验的指标而非原始指标(如cpu使用率等)
有助于确定优先级
关注影响关键客户旅程的指标
业务特性迭代的控制
使用错误预算控制在一段时间内可以容忍的不稳定性
超出则需要进行稳定性治理
未超出可以业务特性迭代
跨职能对齐
构建了一套技术部门和业务部门的共享语言用于表述稳定性目标
如何建立slo
识别关键用户旅程或服务
设置现实和有意义的目标
使用正确的工具
建立错误预算
建立文化
从小处开始
选择一个试点项目(有明确的客户影响),逐步扩大
使用这个试点项目来优化定义,度量和迭代slo的过程
把试点项目的结果和经验在团队内分享,为广泛采用提供动力和支持
教育和对齐团队
强调slo是对齐技术努力和业务目标的工具,用于提升客户体验
可视化
使用grafana等工具可视化slo
slo review
在如回顾会议,spintr等会议中进行slo review,发现问题并调整错误预算
发生问题时候把它当成一次提升稳定性的机会而不是失败