用于监控分布式系统的四个黄金信号

为客户提供高质量的应用程序或服务取决于幕后的高可用性基础架构。当您的服务不可用,速度慢或损坏时,客户可能会感到沮丧,减少支出或完全停止使用您的服务。您的运营团队需要快速地了解问题,以防止服务质量降低并影响您的业务。

目前流行的现代分布式系统以基础架构和主机指标(如CPU利用率,APM指标,如响应时间,数据库指标等)的形式发布数百个指标。不断监视所有这些指标是不切实际的,因此我们建议在监视分布式系统时选择一个用作应用程序关键性能指标的子集。

Google的网站可靠性工程师小组(SRE)定义了四个需要监控的关键指标。他们称之为“四个黄金信号”:延迟(Latency),流量(Traffic),错误(Errors)和饱和度(Saturation)。这些与微服务的RED度量密切相关:速率,错误和持续时间,以及关注利用率,饱和度和错误的USE方法。这四个信号应该是服务级别目标(SLO)的关键部分,因为它们对于提供高可用性的服务至关重要。

延迟 Latency

延迟是发送请求和接收响应所需的时间。延迟通常从服务器端测量,但也可以从客户端测量,以解决网络速度的差异。您的运营团队可以最大程度地控制服务器端延迟,但客户端延迟将与您的客户更相关。

您选择的目标阈值可能因应用程序类型而异。像API或广告服务器这样的自动化系统可能需要比手机上的人有更快的响应时间。您还应分别跟踪成功和失败请求的延迟,区分成功请求的延迟和失败请求的延迟是很重要的。例如,由于与数据库或其他关键后端的连接丢失而触发的HTTP 500错误可能很快得到处理;但是,由于处理超时而引起的HTTP 500错误,可能导致误导性判断。另一方面,一个慢的错误甚至比一个快速的错误更糟糕!因此,跟踪错误延迟是很重要的,而不是仅仅过滤掉错误。

流量 Traffic

流量是衡量流经网络的请求数量。这些可能是对Web服务器或API的HTTP请求,也可能是发送到处理队列的消息。高峰流量的时间可能会对您的基础架构造成额外压力,并可能将其推向极限,从而触发下游效应。这是一个关键信号,因为它可以帮助您区分容量问题和不正确的系统配置,即使在低流量时也可能导致问题。对于分布式系统,它还可以帮助您提前规划容量以满足即将到来的需求。

错误 Errors

错误可以告诉您基础结构中的错误配置,应用程序代码中的错误或依赖项损坏等。例如,错误率的峰值可能表示数据库或网络中断失败。在代码部署之后,它可以指示代码中的错误,这些错误以某种方式在测试中存活或仅在生产环境中浮出水面。错误消息将为您提供有关确切问题的更多信息。错误还可以通过人为降低延迟或重复重试来影响其他指标,最终导致分布式系统饱和。

饱和度 Saturation

饱和度定义网络和服务器资源的负载。每个资源都有一个限制,之后性能将降低或变得不可用。这适用于CPU利用率,内存使用率,磁盘容量和每秒操作等资源。了解您的分布式系统设计和通过经验来判断您的服务的哪些部分可能首先变得饱和。通常,这些指标是高级别指标,因此您可以在性能下降之前调整容量。

达到饱和度限制可能会以不同方式影响您的服务。例如,当CPU已满时,可能会导致响应延迟,填满的存储空间可能导致磁盘写入失败,并且网络饱和可能导致数据包丢失。通过仪表板和监控警报可以帮助您密切关注这些资源,并帮助您在容量达到饱和之前主动调整容量。

总结

这四个黄金信号是帮助提供良好客户体验的关键。可以帮助您在分布式系统监控中轻松跟踪每个信号。您可以使用它们报告服务级别目标,并通过向下探寻来快速解决问题以获取更多详细信息。您可以在问题影响客户之前主动解决问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,656评论 18 139
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,931评论 2 89
  • 引言leader送给我的礼物,两周时间每天一个番茄钟🍅,终于在这周末完成,可以进行归纳梳理。这也是我在“阅读进化时...
    夏花把时间当朋友阅读 2,565评论 0 18
  • git commit --amend --no-edit 场景: 目前我遇到的是当你merge你的hotfix分支...
    Fighting_rain阅读 13,764评论 1 1
  • 【0514我在悦读】凡楚 2018年第62次打卡,三期活动第14次 书名:别再为小事抓狂 作者:理查德.卡尔森 篇...
    凡楚_929d阅读 451评论 0 0