运维行为准则

围绕运维核心价值和工作四大方向:安全 稳定 高效 低成本,谈一谈运维人员应该具备的行为准则和专业意识。

稳定性(或者叫服务质量)准则

一,敬畏线上环境

未经授权,不得私自在生产环境进行调测性质的操作;

未经授权,不得私自在生产环境做任何变更操作。

99%以上的人为事故都源于以上两条,很多事故都往往发生在执行未经验证过的指令或者做了自认为不会导致线上故障的操作的情况下。

二,关于故障:

1,故障诊断第一原则:优先恢复业务,而不是定位问题。

2,不以发生故障为耻,以快速恢复为荣,以人为事故为耻。

三,关于如何进行故障casestudy :

1,回顾故障发生、发现、解决全过程。

2,故障根因分析。

3,ask why。需要反思并反问至少3个为什么并找到答案,通过周边迹象发现潜在问题和问题背后的问题。

4,故障整改计划。需要针对上面的why说明如何举一反三地从根本上解决所有问题。

四,关于变更:

SRE的经验告诉我们,70%以上的生产事故都是由变更引发,那么每一次变更操作如何避免出现变更事故,要从变更单说起,一个完整而且专业的变更单我认为需要五大要素:

1,遵循灰度发布原则。

2,事前做好数据备份和影响通告。

3,操作步骤命令或者工具化,是可执行的,而不是文字描述。

4,要有效果和回归验证。

5,要有回滚步骤,效果和回归验证不符合预期立即回滚。

五,关于轮值

1,在on-call轮值期间,保证7*24小时待命和报警的随时响应,电脑和网络随时可用,缺一不可。

2, 做好值班期间的问题处理记录,定时发送值班周报,用于定期总结和优化。

3, 做好跨值班的工作交接,值班期间未处理完的事务交接给下一周期的值班人跟进。

六,关于业务接手

1, 弄明白一个系统如何工作不能让你成为专家,能快速诊断问题和修复它才是。

2, 故障预案:凡是没有演练过的故障预案都不作数。


安全意识

安全是运维工作开展的前提和必要条件,有同行描述这是一种唇亡齿寒的关系,实为贴切。安全上出了问题,造成的影响以及后续的修复工作都将有运维来承担。公司到了一定规模都会将安全和运维划分为两个独立团队,这样做事更专注,也容易做好。

1,安全无小事。

2,运维应该主动与安全合作,共建安全体系而不是被动响应。

效率和成本意识

1,有效率优化意识。琐事不可避免,但要尽可能减少琐事。对重复性、手工性的操作有天然的排斥感。

2,平台或者体系建设要标准化先行,降低系统难度和复杂度。

3,要有成本意识。运维的一个核心价值在于,虽然决定不了产品营收多少,但可以通过资源整合、弹性伸缩、服务混部、架构优化等手段将有限资源最大化利用,节省基础设施资源成本。同时,通过效率的提升也可以优化人力资源成本。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容