这里是作者自己思考的监控水平评定表,仅供参考:
L0:通过人工分析日志和服务器应用进程状态,发现环境问题
L1:能够通过日志或者链路跟踪技术发现环境问题,需要人工盯看
L2:能够通过日志或者链路跟踪技术发现环境问题,近实时的自动报警,人工根据应急方案运维解决
L3:能够通过日志或者链路跟踪技术发现环境问题,近实时的自动报警,并对已知问题能够根据应急方案自动解决
L4:通过CI和监控技术相互辅助运用,消灭环境问题
L2到L3是监控水平提升的关键(不能监而不控)
其中L3到L4是一个量变到质变的过程