服务级别协议(英语:service-level agreement,缩写SLA)也称服务等级协议、服务水平协议,是服务提供商与客户之间定义的正式承诺。
服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性,责任。SLA最常见的组成部分是以合同约定向客户提供的服务。
例如,互联网服务供应商(ISP)和电信公司通常在与客户的合同条款内包含简单定义的服务级别协议。在此事例下,SLA通常定义有平均故障间隔(MTBF)或平均修复时间(MTTR);哪一方负责报告错误与支付费用;吞吐量;抖动;或类似的可衡量细节。
SLA的定义来源百度,这到底是什么意思呢?
我们平常经常看到互联网公司喊口号,我们今年一定要做到3个9、4个9,即99.9%、99.99%,甚至还有5个9,即99.999%。
这么多9代表什么意思呢?
首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。
9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。
这么多9是怎么计算的呢?
全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!
1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟
从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。
依此类推,要达到6个9及更多9,可说是非常难了!
如,要求SLA达到99.95%,停服窗口最多能是多少?
怎么做到更多的9?
每个公司对几个9的定义都不一样,互联网公司至少都是99.99吧。像一些政府网站,如社保公积金等,经常故障服务不可用,能做到99.9就不错了。
如果我们提供的服务可用性越低,意味着造成的损失也越大,别的不说,如果是特别重要的时刻,或许就在某一分钟,你可能就会因服务不可用而丢掉一笔大的订单,这都是始料未及的。所以,只要尽可能的提升SLA可用性才能最大化的提高企业生产力。
要做到更多的9,就要不断的监控自己的服务,服务挂掉能及时恢复服务。就像开车出远门,首先得检查轮胎,同时还得准备一个备胎一样的道理。
参考
服务级别协议
https://zh.wikipedia.org/wiki/%E6%9C%8D%E5%8A%A1%E7%BA%A7%E5%88%AB%E5%8D%8F%E8%AE%AE
https://en.wikipedia.org/wiki/Service-level_agreement
SLA(服务等级协议)
https://www.cnblogs.com/Alanf/p/8288002.html
华为云服务等级协议
https://www.huaweicloud.com/declaration/sla.html
服务级别管理:最佳实践白皮书
https://www.cisco.com/c/zh_cn/support/docs/availability/high-availability/15117-sla.html
你真的了解性能压测中的SLA吗?
https://www.sohu.com/a/337001675_268033
QPS,TPS,IOPS性能测试参数
https://www.jianshu.com/p/ecf4c9ec5371
What is an SLA? Best practices for service-level agreements
https://www.cio.com/article/2438284/outsourcing-sla-definitions-and-solutions.html