监控分类
- 系统
- 业务
监控方法
- 探针(probing)
- 内省(introspection)
监控指标
指标设计方法
- 从上到下,层层细分
- 从重要到次要,
- 业务指标不好确定,可以从用户感受深的接口开始
指标使用方法
- 平均数
- 中间值
- 百分位
- 标准差
- 聚合多个指标:当天、昨天;单机和集群
常用监控指标类型
- 系统监控:USEmethod
- 指标类型:
- 利用率
- 饱和度:排队数量,如内存、io,以及磁盘剩余容量
- 错误
- 监控对象
- cpu
- 内存
- io
- 虚拟内存
- 网卡
- 指标类型:
- 业务系统监控: 参照google的四个黄金指标(Site Reliability Engineering)
- 指标类型:
- 延迟
- 流量
- 饱和度
- 错误数
- 指标类型:
报警和通知
- 消息内容
- 清晰、准确、可操作性
- 包括其他上下文
- 通知策略
- 确定需要通知的问题
- 确定通知谁
- 确定通知方式
- 确定通知频率
- 确定报警升级策略
参照资料
- prometheus监控实战