成为运维界的「福尔摩斯」,你还需要3个帮手!

夏洛克·福尔摩斯,一直以来柯南道尔笔下的福尔摩斯形象在人们的脑海中都栩栩如生。敏锐的观察力,缜密的推理思路,丰富的专业知识,一切扑朔迷离的刑事案件在他手中都能迎刃而解,一切的竞争对手在他面前都如此的黯然失色。他有一双能够看穿世界的眼睛,被他关注的人都好像身体上被安装了监控,所有的行动他都了如指掌。在福尔摩斯的领域中,任何的异动都掌握在他的手中,并且这些异动信息会第一时间到达他的手中。福尔摩斯教会了我们,善于使用工具,能够让工作事半功倍。

《血字的研究》一案中,一把直尺,一个放大镜等等都成为了破案的重要工具,一群野孩子提供的信息的效率远远高于警方所能提供的信息。再加上福尔摩斯全面的专业知识,最终将谜题解开。

如何利用简单实用的工具,再加上过硬的专业知识找到事实的真相呢?又如何成为运维界的福尔摩斯呢?运维的基本工作就是保障公司网站服务的可用性,服务器运行的稳定性。那么如何对网站可用性、对服务器的运行状态了如指掌?出现问题如何能够接收到精准的告警消息呢?

请 mark 下面三款工具:

Ct (Cloud Test) 主要是通过分布在全国各地的服务器对网站进行持续的监控,Ct 产品的价值在于网站管理员可以借此在终端用户或顾客发现问题之前发现问题,知道网站或 web 应用是否运行缓慢,甚至宕机。Ct 产品不涉及真实的网站流量,因此可以实现 7x24 小时的监控,或在正式发布 web 应用之前进行测试。通过 Ct 产品可以实时的了解网站在各个地域,运营商的性能表现,结合真实用户监控产品 Browser Insight,能深入了解应用的健康状况。

通过 Cloud Test,你可以:

成为运维界的「福尔摩斯」,你还需要3个帮手!

  • 单页面监控:分布全国的服务器对网页性能进行实时监控,提供网页可用性、响应时间、http 错误等具体信息,深入代码级了解错误详情,可用于监控网页、个人站点,实时监控网页性能。

  • Ping 监控:在运维人员的日常工作中,对物理服务器的监控十分重要。物理机的 CPU、内存、磁盘使用率,网卡流量,磁盘 IO 等都需要进行监控。通过 ICMP 协议的 ping 监控,可以判断物理服务器运行是否正常或者网站是否出现故障。网络不稳定或者服务器宕机, ping 就产生报警,让您在第一时间收到告警。这样大大提升了运维人员的工作效率。

  • API 监控:对于商务运算来说一个比较稳定的趋势在于对 API 日渐增长的依赖性,几乎每一个代码级交互过程都会调用 API 来收集数据或触发某些关键过程,这就带来一个问题,开发者怎么才能确定开发者的应用是由于开发者自己的问题还是由于第三方服务厂商的 API 问题,所以开发者需要API监控。

  • DNS 监控:监控 DNS 系统,防止网站 DNS 劫持(域名劫持)、域名过期或已被停止、域名 DNS 服务器未解析、域名解析记录为空或不正确等 DNS 服务器错误。


既然有了实时的网站可用性监控,那么对服务器的基础组件监控需求也是必不可少的。我推荐一些还在观望 Zabbix 和 Nagios 的初创团队,可以试一试 Cloud Insight

Ci(Cloud Insight) 集监控、管理、协作、计算、可视化于一身,减少在系统监控上的人力和时间成本投入,让运维工作变得更加高效、简单。使用 Cloud Insight 操作简单,40s完成安装,再配置上数据库中间件监控即可,其它的就直接在 Web 上查看,操作。

成为运维界的「福尔摩斯」,你还需要3个帮手!

通过 Cloud Insight,你可以:

  • 关注服务器内存,流量,CPU 等基本性能指标,每天都可以检测服务器性能,哪天数据有巨幅变化那就要赶紧查查是哪出问题了。
  • 高可视化,关注数据库增删减查操作,慢查询等条件,主从复制状态,将关注的数据制定一个自定义仪表盘,顺道再设置个报警,这样数据库有任何异常,都会第一时间得到通知,及时相应处理。
  • 集群管理与可视化,如果有多台服务器,这几台用作 webserver,这几台用做 database,那几台做 DNS,设置不同的 tag ,通过拓补图分开聚合展示,分分钟总览集群全貌。
  • 多人合作,对接简聊,BearyChat,瀑布等 ChatOps 工具,将操作事件流同步到多个即时通讯里面,汇集报警、探针启动和操作历史记录于一身。能够让运维人员、研发人员、管理人员,甚至运营人员都参与到 Cloud Insight 这个工具的使用中来,沟通与协作效率更高。
成为运维界的「福尔摩斯」,你还需要3个帮手!

有了强大的监控工具还不够,完善的报警通知体系也是至关重要的。OneAlert 作为国内首家云告警平台,能够轻松集成 Ct,Ci 产品,提供更合理的告警方式(当然 zabbix,nagios,阿里云等监控工具都可以集成)。

通过 OneAlert ,你可以:

合理的通知体系:

  • 不同的主机组告警消息发给特定的负责人,并且告警消息通过微信、短信、邮件、电话、App 的方式通知,通知必达。

  • 不同类型的告警消息发到不同角色负责人手中,比如 MySQL 类型的告警消息我们可以选择发给公司的 DBA 同事,而网络相关的告警消息我们可以选择发给网络工程师等。

  • 有效的告警升级机制能够保证告警不会被遗漏,告警在设置时间内不确认、不解决的时候,会升级到二线值班人员。


    成为运维界的「福尔摩斯」,你还需要3个帮手!

合适的时间选择合适的通知方式:

  • 当告警消息来了,选择一个好的通知方式是至关重要的。比如白天工作时间,告警消息的推送只需要通过微信、邮件的方式。而晚上下班时间休息时间,告警消息推送可以选择短信和电话两种方式进行通知,灵活的通知方式能够达到事半功倍的效果。

健全的告警分析体系:

  • 好的告警分析机制能够帮助管理者分析团队整体的工作情况,根据 MTTR 作为评判标准,通过告警分析能够分析出某一告警应用某段时间内处理情况。而且 OneAlert 的分析机制也可以根据应用、团队以及成员三个维度进行分析,让你真正认识你的工作团队。

从 Ct 对网站可用性的实时监控,再到 Ci 对服务器基础组件的实时监控,出现问题有 OneAlert 健全的报警机制,通知必达,网站服务有问题及时监控发现,告警消息多方式通知到位,服务器这点小事,你还怕什么?总有一款适合你。

本文系国内 ITOM 管理平台 OneAPM 工程师原创文章。我们致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多技术文章,请访问 OneAPM 官方技术博客

本文转自 OneAPM 官方博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,497评论 18 139
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,802评论 6 13
  • 运维 2.0 时代 运维 2.0 是指,从技术运维升级为服务运维,向公司提供可依赖的专业服务。运维 2.0 强调服...
    OneAPM阅读 513评论 0 3
  • 本文遵循「知识共享许可协议 CC-BY-NC-SA 4.0 International」,未经作者(laiwei)...
    laiwei阅读 6,460评论 3 19
  • 近日,阿妹在出席某企业年会上,她一身花色薄纱裙,腿上穿着侧面面有阴影的丝袜,使自己的肉腿一下子变成了竹竿腿! 接着...
    DrPepper阅读 1,126评论 2 4