240 发简信
IP属地:山东
  • 从管控角度谈慢SQL治理

    一、什么是慢SQL 慢SQL是指那些执行效率低下、响应时间长,导致用户等待时间变长和服务器资源利用率下降的SQL查询。那么,如何定义一个SQL查...

    0.1 61 0 1
  • SRE方法论之监控设计

    监控的4个黄金指标 《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Er...

  • 故障治理:如何进行故障复盘

    故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从...

  • SRE方法论之减少琐事

    我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多...

    0.1 72 0 1
  • Resize,w 360,h 240
    SRE方法论之服务质量目标

    为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要...

    0.1 97 0 1
  • SRE方法论之拥抱风险

    一、系统不可能100%可靠 系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 10...

  • SRE是什么,与传统运维有什么不同?

    SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。将这个词语展开来说:首先,S...

  • 证书过期为何频频出现,该如何避免?

    近日公司内部多个App出现License证书过期导致App不可用事件。原因很简单,因为运维人员没有在用户报障之前发现证书过期并及时更换。其实像这...

个人介绍
围绕系统稳定性保障,分享SRE、AIOps、DevOps、故障治理等知识经验,希望和更多大咖交流学习