关于运维工作的一些想法和思路 --- 提高系统运行稳定性,提升运维实施效率
一、 组织架构与分工
运维中心内部的组织架构分工与权限职责需进一步明确和清晰,每一个运维的工作项均需明确的落实到相关的部门或角色。
比如 服务器的用户密码管理、堡垒机的管理、跳板机的管理等等。
长期以来,运维各个部门独立承担与外部研发中心沟通或服务的窗口,没有形成统一的服务入口,各部门的工程师在日常工作中经常被研发中心的咨询类问题或系统故障类问题的电话打扰,建立运维统一服务台,对接所有研发中心的运维服务请求,通过工单方式(IM 事件处理群,一键转工单)流转,来实现统一服务的管理,统计分析运维服务数据(工单量、分布、耗时等),提升数据中心服务满意度。
二、 运维自动化工具
运维的工作多样化、细分复杂、互相关联,易出错,风险性大,意为着工具多样化,工具形态复杂,开发语言繁多,每个工具又面临架构演进、技术演进等来适应不断扩大的IT基础设施规模,每个工具类型的技术方向差别也很大,建议在工具开发方面加大人力投入,单独成立相关组织进行开发和维护,来满足数据中心对于网络、服务器、监控等各个层面的运维自动化能力的提升。
比如:
数据库运维、网络运维、硬件运维、虚拟化运维、中间件运维等。
但需要进行全局的管理和协调,平台设计及开发需要考虑重复建设问题。
每个平台明确其职责和范围,每个阶段的目标等,不断推进。运维管理平台提供统一的流程化服务和CMDB数据管理服务,加速工具的落地与实现。
三、 标准操作说明书
运维的事故与风险绝大多数来源于变更实施操作,虽然运维管理平台有变更管理流程进行实施流程的管控,但实施细节的管控仍需加强。
运维中心缺乏一套完整的文档平台,运维文档体系应包含 管理制度、流程规范、标准操作 三级,且这些文档需定期更新、评审,完成版本升级,而现有的文档,基本是写完就不会再更新了。
建议各个部门共同梳理出各个部门所有的运维工作项,每个工作项的工作流程是什么,每个工作项的标准操作说明书(SOP)内容,明确数据中心内的工程师角色(不同的角色负责不同的工作项)。
通过工作项的梳理,可以理顺现有不明确的职责,不明确的流程,空缺的标准操作说明书,哪些是不标准的,缺乏标准和管理,哪些是繁琐的、手工的、自动化程度差的、容易出错的,从而明确出自动化工作开展的优先级,与相关管理部门共同推进标准化工作的编制与落地。
四、 员工发展路径
建议成立IT基础运维一线团队(7X24,包含数据中心现场和非现场),一线团队负责IT基础设施的硬件层面的基础工作,系统运维层面的基础工作,比如监控报警的处理、应用发布&数据库手工发布的受理、发布过程中异常问题的处理、手工环境搭建工作等,共同受理网络、服务器、数据库、系统管理等方面运维需求,一线基础运维团队需全面接手基础工作,对于不能胜任完成或处理的工作及时转单至二线。
作为一线人员可接触从硬件设备到操作系统、中间件层面的工作内容,以晋升二线为目标,根据能力水平或发展方向,定期考核评估,晋升至不同的二线部门。通过二线部门的带教与培训,一线部门能得到成长,一线内部会形成晋升至二线竞争,形成人员发展路径和梯队。
二线团队采用目前默认的部门划分管理,二线更多的是解决一线不能解决的疑难问题,优化层面工作、标准的制定、对一线人员的培训与培养、运维工具开发与实现等。