运维月报模板

总结

<1. 介绍本月报中需要重点关注的数据或事件。2. 是否存在一些建议或意见?如果存在的话,请一并指出。3. 其他需要同步告知我们的信息。>

<下面以一些示例进行说明:>

  • PV量增加明显,相比上个月接近翻倍,ACK集群剩余可用资源不足,建议升级xxG的内存或xx核的CPU。

  • 5xx错误较多,将安排开发人员排查。

  • xx模块在本月发生10次OOM,建议进行内存优化。

  • .

  • .

  • .

运维事件

<介绍本月实际发生的运维事件,包括但不限于发版、修复漏洞、云资源维护、数据迁移、配置调整等等,格式如下:>

  • [事件类型1]:[事件详情1xxx]

  • [事件类型2]:[事件详情2xxx]

  • [事件类型3]:[事件详情3xxx]

<下面以一些示例进行说明:>

  • 问题修复:测试并追踪小维商城支付异常的问题,最终发现是xxxx,目前状态为xxx,详情可参考<u data-slate-mark="true">问题记录</u>。

  • 版本迭代:本月计划发版xxx次,成功发版xxx次,详情可参考<u data-slate-mark="true">研发日志xxx</u>。

  • 维护计划:升级RDS内核版本,从xxx升级至xxx。

  • ...

  • ..

  • .

站点健康度

概览

<本章节内容可从K8s-Ingress概览中获取>

image

<图中数据存在异常的,需要调查原因并说明,下文中的内容同理,例如上图中的访问成功率为95%,低于协议中的99%。>

PV排名

站点

<内容可从K8s-Ingress概览中获取>

地址

<内容可从K8s-Ingress概览中获取>

访问延迟排名

站点

<内容可从K8s-Ingress概览中获取>

地址

<内容可从K8s-Ingress概览中获取,参考上面PV排名的地址截图>

5xx错误排名

站点

<内容可从K8s-Ingress概览中获取>

地址

<内容可从K8s-Ingress概览中获取,参考上面PV排名的地址截图>

404错误地址排名

<参考上面PV排名的地址截图>

K8s系统健康度

应用状态

<本章节数据可从K8s-事件中心获取>

image

事件中心

image

<同样,图中有明显异常的,需要备注说明,例如上图中的OOM、Pending、资源不足等情况>

集群资源

<本节数据可从Prometheus监控中获取>

image

节点资源

集群网络I/O

image

Pod内存使用率排名

安全

<本章节数据可从云安全中心获取>

image
image

其他云资源利用率

<本章节的数据需要从各云资源的详情+监控页面获取,如果有需要关注的事情,请填在备注栏。>

系统故障

<如果存在系统故障,请参考下面的格式进行说明;如果不存在,写无>

故障A:xxx导致xxx异常

故障现象

<什么时间出现了什么故障,具体表现是什么,如何能够复现?>

根本原因

<目前已知的原因是什么?>

解决方案

<如何解决此故障的详细步骤>

确认签字

<这里写一些描述内容>

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 14,483评论 2 59
  • 1.kubernetes介绍 Kubernetes容器集群管理系统,是Google开源的一个项目,目标是管理跨多个...
    Rami阅读 4,768评论 0 3
  • KubeOperator 支持两种 Kubernetes 集群部署方式,一种是手动模式,另外一种是自动模式。手动模...
    do_young阅读 5,511评论 0 10
  • feisky云计算、虚拟化与Linux技术笔记posts - 1014, comments - 298, trac...
    不排版阅读 9,350评论 0 5
  • 文章是基于“Kubernetes权威指南”和博客[https://kuboard.cn/learning/]的学习...
    彦帧阅读 4,788评论 0 1