xx省xx业务性能优化总结
问题排查
慢 SQL 排查:通过现场 log4x 平台排查,未发现慢 SQL 导致业务阻塞问题。
调用链分析:查看阻塞时段 log4x 调用链,协同现场产品架构师和业务线人员分析异常和耗时长的调用链业务逻辑。
资源瓶颈检查:通过 foot 平台查看业务容器历史资源使用率,判断是否因 CPU 资源瓶颈致使业务迟缓,评估是否需调整资源配额。
容器分布优化:检查 CRM 各中心容器分布,运用 foot 平台的亲和性与反亲和性功能,合理调整容器资源,将 Pod 调度至更合适节点,防止节点资源不均引发性能问题。
Pod 调度审查:后台检查 CRM Pod 情况,查看调度信息,确认有无调度失败或资源不足导致的 Pending 状态。
网络服务检查:检查 k8s 集群的 CoreDNS 和 calico 服务,确保 CRM 业务容器网络配置正确,避免网络问题拖慢业务处理。
优化措施
数据库连接池调整:鉴于数据库在高峰期承压过大,调整单个容器的连接池大小、连接超时时间等参数,防止连接池配置不合理造成数据库连接过多。
Pod 快速扩容建议:若业务处理能力出现瓶颈,可依实际情况快速扩容 Pod 数量,提升业务处理效率。
-
log4x 平台升级建议:目前湖南现场部署的 log4x 日志平台为旧版本,在问题排查中存在诸多不便与局限。建议升级至最新版本,其优势如下:
- 全链路数据采集与整合:实现从前端用户操作到后端服务调用及基础设施的全链路数据采集,整合日志、调用链、指标、事件等数据,形成完整业务链路视图,提升排查效率。
- 全局拓扑与依赖分析:智能绘制系统全局拓扑图,清晰展示各层面实体间依赖关系,助运维人员直观了解故障影响范围,制定合理排查方案。
- 多维度数据查询与可视化:提供灵活的数据查询和可视化功能,支持多维度下钻分析,配合自定义仪表盘、多样化图表及自然语言交互,简化数据查询与分析流程,助力运维人员快速决策。