告警管理

将CMDB系统与Prometheus连接,实现批量部署配置文件,批量管理告警信息等

架构

用户操作场景

实例属主

关注点:出问题了么?哪里出问题了?是什么问题?

1.收到告警后,能通过页面针对不合理的阈值进行单个
批量修改,在告警消息上能针对
单个阈值进行修改。
2.对应用进行分组,并针对该组制定告警规则。
3.告警发送通道的自助式配置。
4.维护窗口进行告警的单个
批量静默。

监控人员

关注点:直观知道出问题了么?哪里出问题了?通知给谁?是否已解决?

1.告警大屏上展示告警的关键信息,如应用、IP、维护者、重要性。
2.告警数据的分析,哪些应用或实例告警频率高。
3.告警的个例、批量修改,修改的记录有留痕。

管理人员

关注点:监控点是否全覆盖、告警阈值是否设置合理、是否有告警、告警有无及时处理;

哪里问题多?什么问题?。

平台建设者

关注点:告警平台稳定性,操作简易性,不漏发消息,消息准时发出。

1.平台下发数据是否正常,涉及规则、应用实例是否按既定规则推送。
2.规则变更后的生效时间,目前15分钟。
3.告警发生差异,触发阈值的告警数及送达告警数。
4.告警消息轨迹及时延,从产生告警及送达对应的通道。

功能

1.针对硬件、网络、系统、应用(部分业务)四类采集器进行自助式告警规则、告警模板、应用分组配置。
2.自助式进行告警规则启用、禁用、静默。
3.告警大盘展现,不同级别不同颜色。
4.告警通知:钉钉@到人,接入电话、短信告警。
5.简化告警模板。
6.告警渠道管理。
7.支持用户订阅告警消息。
8.支持延迟通知设置。
9.行为日志记录:规则变更、阈值变更、静默变更。
10.告警消息上点击操作数据能同步到后端并处理。

告警流程

告警模块.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • AIOps人工智能和IT运营支撑 Ops 之间的故事,愈演愈烈,已经成为当今运维圈的热门话题,我打算从2篇文档分享...
    OneAPM_Official阅读 4,755评论 0 3
  • 当下IT运维人员的一大问题,就是对于大量的告警难以进行精准的通知,以及无法在大批量的告警中快速的定位到问题的所在,...
    lambda2019阅读 1,462评论 0 0
  • 当下运维人员的一大头疼事,便是复杂而凌乱的告警,无法将告警信息进行灵活分类,通知给不同的人,这样就加大了IT运维人...
    lambda2019阅读 2,649评论 0 0
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,195评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 5,851评论 4 1