SRE(Site Reliability Engineering)站点可靠性工程,它是一种由 Google 提出的DevOps实践的一种运维理念和方法论,旨在通过结合软件工程的实践来提高大型互联网服务的可靠性、稳定性和可维护性。
SRE的原则和实践(核心理念):
1. 运维也是软件工程,用软件工程的方法解决运维的问题。
2. 关注SLOs(Service Level Objectives):出于商业目的,需要和业务部门达成一致的目标。
3. 减少劳累:更多地时间用在规划和构建改进,减少日常临时事务处理的时间。
4. 自动化:尽可能地自动化,如果流程不对应该先调整流程再自动化。
5. 减少错误修复时间:尽早发现问题,尽快修复问题,降低错误成本,错误也是成长改进的机会。
6. 共担责任:减少运维和开发之间的壁垒(信息壁垒,技术壁垒),共担责任,达成SLOs.