运维左移的一些实践内容

从广发证券的网文里来的。

相发链接https://mp.weixin.qq.com/s/jM5kX-Kf_F1OyWhC_OmpUA

故障可恢复

  • 定义应用服务的可用性目标。制定评价系统容量的关键指标。
  • 在容灾、主机、服务层面实现系统应用的高可用性。
  • 确保系统应用依赖的服务、基础设施、应用平台的高可用性。
  • 对关键功能自身不可用或依赖服务不可用时的业务健康进行监控。
  • 在关键功能层面实施限流和降级措施。
  • 在技术架构层面实现隔离、熔断和冗余高可用。
  • 在软件设计层面采用解耦、并发、超时机制、重试、
  • 以及文件或数据可用性检测。在容灾层面实施BCM。
  • 发现异常并触发恢复策略的能力。

性能可扩展

  • 定义系统容量性能评价目标与指标。具备弹性伸缩能力的基础设施和依赖的技术平台。
  • 支撑并实现自动、半自动、手动的弹性伸缩能力,包括纵向资源扩容、横向集群节点新增或复制同类型节点,以及应用层面的降级与限流等。
  • 应用能够感知性能瓶颈,具备监控和压力测试能力,及时发现性能瓶颈并触发相应的扩展或缩减操作。
  • 制定性能扩展预案,并定期进行压力测试和演练,确保在故障发生时能够有信心执行预案。
  • 参与系统设计阶段,重点推动系统可扩展性的需求,采用模块化、微服务等架构设计,便于未来的扩展和维护。
  • 与研发团队紧密合作,确保系统设计时就考虑到性能扩展的需求,并在系统部署和运行过程中能够快速响应性能问题。
  • 与研发沟通容量评估指标,并在生产环境中设置监控点,使系统具备容量评估能力,准确评估当前系统的性能容量,并预测在不同负载下的表现,为资源扩展提供数据支持。

业务可监控

  • 明确不同业务类型信息系统的业务监控覆盖面要求;
  • 业务影响面监控,比如业务黄金指标、技术黄金指标、用户体验指标、安全与风控指标、废单数量等。
  • 性能容量监控,比如关键性能指标、同环比与基线分析、趋势分析、容量预期、行情及时性等。
  • 业务状态监控,比如上下场状态、订单状态异常、参数状态异常、内存加载异常等。
  • 业务拨测监控,比如终端拨测、站点拨测、登录拨测等。
  • 接口拨测监控,比如接口可用性、接口性能、接口正确性等。
  • 数据正确性监控,比如回库数据一致性、上下场数据一致性、清算数据一致性等。
  • 业务链路监控,比如上游依赖服务堵塞、依赖服务异常、下游系统请求过多、关键链路成功率与耗时等。

问题可观测

  • 明确面向业务及交易系统可观测要求。
  • 支持行业主流成熟的 OTLP v1 标准作为建设依据。
  • 制定相关可观测数据埋点的技术标准,确保从管理决策层到一线专家、从运维到研发岗位都能达成共识。
  • 支持一线运维专家与研发专家落地健康检测剖析的自动化编排能力。
  • 提供涉及数据采控的运维平台能力,以便在软件设计阶段进行数据埋点。
  • 围绕问题剖析,设计面向运维、研发、测试、供应商等多种视角的数据分析场景。
  • 在整合系列数据分析可视化之上,推进精准定位的能力建设。

变更可管控

  • 无论是稳态系统还是敏态系统的灰度发布,都应实施统一的变更计划管理,确保变更的协调性和一致性。
  • 变更申请需遵循严格的“仪式感”,即要求变更满足基本的准入条件,从源头上确保变更的合理性。
  • 严格管控变更评审过程,包括实施方案、变更风险、影响分析、资源准备、问题跟踪以及配套监控等,确保变更的可行性和安全性。
  • 提升变更实施的管控能力,包括但不限于实施手段、工具的选择、发布频率的把控,以及出现异常时的应对能力,确保变更过程的高效和稳定。
  • 变更场景自动化,以尽可能减少直接对IT资产对象进行临时性的操作为目标,实现变更操作场景自动化。
  • 变更影响风险分析,在变更前基于变更服务目录、上下游依赖等信息评估变更风险,为变更前的风险防范、资源调度、变更后保障等提供支撑。
  • 变更防御策略管控,对于危险的变更操作行为进行事中的防御管控,尽可能降低操作风险。
  • 严格落实变更后的验证工作,特别是重要变更项的当日技术验证,以及变更后到开业、首日保障、首笔业务等关键节点的验证,确保变更效果符合预期。
  • 加强变更行为过程事件的采集与控制,利用事件驱动机制,实时监控变更过程中的各项事件,确保变更的透明度和可追溯性。
  • 增强对变更对象变化的感知能力,通过实时监控和数据分析,及时发现并应对变更可能带来的潜在风险。
  • 故障的变更定位,基于上述的变更管控数据建模,在出现故障时能够辅助定位是哪个变更引发的故障。

部署可感知

  • 建立系统在交付生产前需要有一份面向应用系统的部署配置清单;
  • 推动CMDB向应用及业务配置的扩展,构建包括操作系统环境、应用配置、技术参数、业务参数、数据库结构、数据库参数、中间件配置、应用平台配置等在内的配置项模型;
  • 建立采集配置信息的能力,并以时间片为单位感知配置变化;
  • 支持从系统、集群、应用到主机等不同视角,随时获取相关配置的数字化信息;
  • 实现配置信息的实时更新和历史追溯,以支持快速的问题定位和系统恢复。

效能可评估

  • 建立IT资产台帐管理:以CMDB为中心,建立详细的IT资产清单,包括硬件、软件、许可证等,以便更好地规划和管理资源。
  • 研发设计阶段落地评价系统运营好坏的效能指标,并落地效能数据。
  • 对系统效能指标进行数字化评估,以挖掘低效的IT资源。
  • 从平台支撑角度建立硬件资源池、数据库及中间件平台,签订更优惠的许可协议,提升虚拟化与容器化比例,优化测试资源的利用。
  • 实施实时监控,以便及时发现性能瓶颈和资源使用情况,进行必要的优化,并根据业务增长和IT需求进行容量规划,确保软硬件资产的扩展性和灵活性。
  • 定期进行成本效益分析,评估IT资产的投资回报率,优化资源配置
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容