配置告警runbook
也就是告警触发后如何处理
告警多渠道分级
告警需要多渠道保证消息的触达但是渠道错配会有很大的干扰性
如Critical的电话/短信/消息/邮件通知
Warn的短信/消息/邮件通知
Info的消息/邮件通知
告警排班
避免部分人长时间处理告警产生疲劳
告警升级
当告警第一处理人未响应时通知第二处理人,如升级通知到领导
告警认领
告警认领后告警就不会升级了
告警收敛
如同样的告警(如prometheus alertmanager的指纹)短时间内不重复发出
告警协同
告警处理人无法处理某个告警时需要团队内其他人或其他团队协助,升级为故障
告警自动处理
结合自愈系统针对告警自动处理
告警静默
如需要重启某个服务或者机器,在这操作前可以进行告警静默
告警抑制
如某个7层lb无法正常工作,则抑制通过该7层lb的请求的告警