近年来,各商业银行业务规模迅速增长,作为底层的技术支撑,生产系统的集群规模也越来越大,运维难度也逐步增加。
银行应用运维现状
经过大量调研发现大部分商业银行尽管已实现了各业务系统软硬件方面的全网监控,也实现了统一运维管理,但还是处于被动运维管理模式,对信息系统的健康程度了解不够深入,也不能快速排查应用系统处理交易异常。
应用运维问题体现在以下三个方面
缺少对各业务应用交易的运行情况(交易量、成功率、平均响应时间)的监控,难以全面、准确、及时地掌握业务应用系统的运行情况;
无法自动发现应用拓扑关系和交易访问路径,并以此为基础实现故障应用系统的自动定位;
无法将操作系统、中间件、数据库、存储、网络、环境动力等IT基础设施专业事件与各应用系统的业务交易或系统交易事件关联起来进行自动故障树分析。
上述问题直接导致IT运维中出现专业事件处理量大、业务影响分析困难、故障根源定位慢、故障节点难以自动隔离恢复等问题。
因此,商业银行需要以业务应用交易为核心,升级整合传统的IT运维监控系统,建立以全局监控、自助化查询、快速处置为一体的整体解决方案。而其中,将生产系统所产生的日志进行集中归集,并利用日志进行监控和深度挖掘是最核心的环节。日志并非只是单纯的文本信息, 更是一笔数据财富,日志中会写入全局事件跟踪号、事件性能数据、诊断信息、交易唯一标识、交易响应时间以及错误代码等关键信息。通过实时、全面的采集和关联日志可以实现应用系统拓扑关系发现、交易事件关联分析、异常监测诊断以及数据报告展示,让运维管理人员直观方便的掌握业务系统的性能和健康度。
应用日志分析问题严峻
目前大部分中型以下商业银行还停留在人工处理日志层面,日志分析时需要逐台登录服务器搜索相关日志文件才能定位问题,工作量大,效率低,安全性差。
普遍存在以下几个痛点:
1. 日志数据量大,产生速度很快
通常日增量都在GB甚至TB级别以上,给备份、存储、审计、分析带来巨大的挑战。
2. 日志分散繁杂
通常散落在基础设施各处,且格式众多、复杂度高,给分析定位带来很大困难,只有经验丰富的管理员才能够熟练掌握,局限性大。
3. 缺少关联分析手段
只做事后分析利用,无法对问题进行更深层次的挖掘和分析。
4. 日志分析时效性低
面对海量日志,银行内部系统无法满足实时分析要求,且自建能力有限。
我们的解决方案
针对以上问题,东软SaCa DataInsight日志大数据平台产品提供了日志采集、预处理、存储、查询、分析、告警及可视化展现等一系列功能服务,支持系统全局监控、业务拓扑展现、交易日志关联、智能告警以及故障自愈等功能。需要特别说明的是,产品为了满足对海量日志的实时采集、查询及分析需求采用了分布式部署架构,在技术实现上可以支持灵活地按需部署。数据预处理、查询分析以及控制模块可以按需的分布在相同或者不同的服务器中,并且各模块内也可以根据数据处理规模来横向伸缩扩展。
根据案例实践
在日增量2-3TB数据量级下为满足秒级查询分析需求
给出如下部署架构建议
在海量日志查询分析方面,首先产品支持收集各类系统的日志数据按照统一的标准进行加工处理,存储。其次,通过平台自定义开发的关联引擎可以自动发现业务应用系统拓扑关系和交易访问路径,进行故障应用系统或故障应用节点的自动定位处理,更直观的展现各系统的交易量、成功率、响应时间等交易指标。最后,通过业务流程查询引擎,对比交易路径或应用拓扑图上不同应用系统的总量/分量交易指标的变化情况,将故障自动定位到某个应用系统甚至服务器节点,减少排除故障时间。
方案应用价值
SaCa DataInsight通过分析日志提供以下功能服务,完成对生产系统进行各维度的全天监控;同时,通过对历史日志的深度挖掘,可以帮助业务部门管理业务流向及配置、可以帮助商业银行客户自助解决日常工作中的问题、还可以帮助运维部门了解系统健康程度和故障原因,大大提高生产系统的整体运维效率。
日志自助查询
自助查询功能提供给各分支机构远程自助查询,减少自己工作量,数据权限控制不同分支机构对数据的可见性。
业务拓扑展现
通过提前对错误日志设定规则,大量报错会告警,并迅速定位问题。
交易关联瀑布图
通过日志关联与自动计算,可以把分散的日志按照交易为单位进行自动串联,并计算每个平台的交易耗时,直观展现业务处理时延。
主机远程控制
远程控制模块可以通过页面,去选择执行的远程命令,并直接查看执行结果;不需要值班人员熟悉命令执行的细节。
应用业务监控
通过对所有日志的左右键进行提取,并进行业务关联,可以自动监控不同平台、节点、服务状态,形成结果展现。
运维知识库
把每次问题的解决方案沉淀到知识库,在告警触发时,直接提供相关知识库链接,降低学习成本。
相关产品