一、SRE组织信息
- 2003年开始组建,7名软件工程师组成。到2016年,约1000余人。
- 招聘:50%-60%是标准的软件工程师;40%-50%是满足软件工程师85%-99%技能,同时具备一定程度其他技术能力的工程师。如:Google是熟悉UNIX系统内部细节和1-3层网络知识。
- 工作配比:传统运维工作上限50%,如:工单处理、手工操作;必须将50%的精力花在真实的开发工作上。必须不断度量每个团队的工作时间分配。
二、SRE方法论——主要是前2项
1、确保长期关注研发工作
- 确保50%传统运维工作上限落实。超出部分可暂时转移给开发团队分担。
- 8-12小时on-call期间最多只处理2个紧急事件,确保紧急事件跟进投入和事后报告质量。
2、在保障服务SLO的前提下最大化迭代速度
- 错误预算:1-可靠性目标。如:一个产品可靠性目标是4个9,那么错误预算就是0.01%。
- SRE团队可以与开发团队通过错误预算形成目标一致,都是在保障业务服务可靠性需求的同时尽可能地加快功能上线速度。
3、监控系统
- 这部分书里讲得非常传统。主要就是讲输出Alert、Ticket、Log。其实这里是很大一部分运维自动化工作的起点。
4、应急事件处理
- 重温几个名词:可靠性、MTTF(平均失败时间)、MTTR(平均恢复时间)。评价一个团队将系统恢复到正常情况最有效指标是MTTR。
- 承载手段和优先级:自动恢复工具>playbook>船到桥头自然直。
- 运维手册是人工处理的关键手段,同时要通过灾难恢复演习培训团队成员。
5、变更管理
- 70%的生产事故由变更触发。
- 变更管理的最佳实践是自动化。
- 自动化要完成:1)渐进式发布;2)迅速准确检测问题发生;3)安全迅速回退。
6、需求预测和容量规划
- 自然增长需求预测模型,类似于配置手册,说明不同容量规模下,应该提供的资源配置,以及对应的计算方法;
- 非自然增长的需求来源的统计。这一点通常系统化考虑得较少。例如:新功能上线、商业推广等特殊活动;
- 周期性压力测试。主要目的是为了基线校准和检验。通常大伙懒癌发作,默默地无视了。
7、资源部署
8、效率和性能
最后这两章实在看不出要说什么,其实都是第6点衍生出来要做的2件重要的事,可能是想重点提一下吧。
思考
这章的理念拿到电信行业的运维上,关键障碍还是运维人员能力转型的问题。不同于互联网产业,运营商本身积累了大量的传统运维能力模型的员工。哪怕外包给第三方的运营商,这些提供管理服务的厂商也同样是以传统运维能力模型为主。运营商外包只是降低风险和改良成本的有限优化手段。根本上的运维组织能力模型决定了运营商做devops,在能力基础上存在巨大的GAP。既没有软件产品研发经验,也没有对应的人员和管理团队,有的是传统运维人员存量(对于有着完善员工保障体系的国家来说,甚至是包袱)。那么,如果devops是业务敏捷的必经之路,运营商应该怎么办?后面咱们跟着这本书一点点来讨论。