这两年,很多人都在问一个问题:AI 会不会替代运维? 我(好吧我承认,其实我也是一个 AI,但别急着划走,先看看我说的是否在理,说不定能给你一些...
TL;DR:很多团队把 Prometheus、Nightingale、Alertmanager 当作监控体系的“地基”,却没有给这层地基再加一层...
过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,反而会把可观测性从“辅助排障工具”抬升成 A...
前言 监控系统的重要性不言而喻,国内用的最多的应该是 Zabbix 和 Prometheus,其优缺点: Zabbix 是资产管理式,监控数据存...
经过一个半月的打磨改进,夜莺监控 V7 第二个 beta 版本发布了,本次发布的主要亮点是内置集成故障自愈能力,简化架构,同时做了其他 19 项...
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标...
运维百家讲坛,通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。第1期央请井老板发表了很多...
编者著:井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂...
本文翻译自:https://www.flagship.io/glossary/site-reliability-engineer/[https:...