监控告警系统(一)

什么是监控告警系统
监控告警系统是一个软件系统,给用户提供监控、告警、通知的功能。可以用下图简单的描述


image.png

监控
监控系统采集并存储监控对象的一个或者多个指标。这里提到了几个名词,稍加解释:
监控系统:对下采集一个或者多个监控对象的指标数据并存储,对上暴露接口供上层做应用图形化展示、告警评估、报表;
监控对象:在互联网和软件行业,可能是服务器、虚拟机等基础设施,也可能是apiserver、消息队列、数据库等软件;
监控指标:监控对象的某一特征,例如服务器的CPU利用率、apiserver的RPS等。一般会周期性的采集,采集方式包括但不限于:Agent主动推送到Server、Server从Agent拉取、Agent发布Server订阅等方式,其值跟时间相关,类似下面的数据:


image.png

告警
告警系统根据设定的规则,周期性评估所有规则是否满足条件,并输出评估结果。这里解释一下几个概念:

告警规则:告警规则是一个或者多个监控指标运算表达式。例如:以一分钟为评估周期,内存使用率峰值大于60%;
评估:对所有的告警规则进行计算;
评估结果:评估的结果有三种情况:
满足:表达式成立。例如:内存使用率峰值>60%;
不满足:表达式不成立。例如:内存使用率峰值<=60%;
数据不足:采集的数据无法支撑表达式的计算。例如最近一分钟内没有采集到内存使用率的数据
通知
大多数监控告警系统,会把告警评估后的动作并入告警的范畴,动作可以是执行某个操作,但更多的情况是通知某对象,由某对象来执行具体的操作。通知模块负责将告警评估的结果发布出去,涉及到几个关键部分:
发布方式:以何种方式发布?例如:电视墙、大屏、短信、企业微信、邮件、电话、报警铃声等等
发布范围:发布的范围?例如:手机或者邮件的收件人列表
为什么需要监控告警系统
监控告警的作用:


监控告警系统2.png

图中监控告警系统的使用者包括:
运维人员:人力时代主要的用户。接受到监控告警系统的通知后处理告警,根据需要查看监控数据,并恢复监控对象的故障;
研发人员:根据告警、监控报表分析系统问题,指定优化方案,提升监控对象的可用性;
智能运维系统:根据告警信息调整监控对象,调整的方法可能有:
根据负载弹性伸缩
故障隔离
故障恢复等
总结起来包括以下两个方面:
提升系统可用性
改善用户体验
提升系统可用性
从上述公式可以看出,想要提升系统可用性,无外乎两个办法:
提升MTBF,即提升系统可靠性,让系统尽可能长时间稳定运行不出故障。监控告警系统的报表可以帮助研发人员分析系统存在的问题,不断改进,以提升可靠性;
降低MTTR,即减少故障修复时间,让故障快速恢复。监控告警系统从两个方面助力:
发现故障并告知智能运维系统自动扩容、自动恢复以应对过载、故障等情况;
对于没有智能运维系统或者智能运维系统无法处理的情况及时发现故障并知会相关人修复。
改善用户体验


监控告警系统3.png

从上图可以看出,对于产品的用户来讲,一般包含三种角色:
运维人员,负责所购买产品的运行维护,跟产品研发团队的运维人员类似,但关注的指标不同;
资源管理员,负责资源的规划、采购等。需要根据告警、监控的报表调整资源的规划和布局,例如某地资源利用率过低则减少该地的资源投入,某地负载过高则增加资源投入;
智能运维/调度系统,根据资源使用情况智能调整资源布局,例如:根据负载弹性伸缩,根据特征将流量调度到最合适的接入点等。
作为一个用户,对什么样的产品是更为满意呢?监控告警系统在提升用户满意度上又有什么作用?
用户对什么样的产品是更为满意。我觉得能让用户满意的产品至少有以下特点:
稳定、安全。这是基本要求;
透明。用户对产品的知情权,使用该产品能够给用户带来哪些收益,需要用户付出什么,有哪些限制等;
可操控。用户可以根据自身需要进行调整产品的规格和期限。
监控告警系统在提升用户满意度上的作用有:
可以提升系统的可用性;
让用户清楚的了解所购买产品的真实运行情况;
将运行情况(告警、报表等)告知用户,由用户决定产品的规格、期限以及分布情况
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容