人工智能和机器学习技术的发展,推动大量依赖人脑决策和手工操作的IT 运维向着AIOps智能运维的方向快速前进。特别是当机器学习算法与基于大数据的业务运维管理平台整合,在告警过滤、异常监测、自动修复等环节发挥效用,就能把CIO和IT部门从繁复耗时、容易出错的基础运维工作中彻底解放出来,专注于更有价值的业务运维。
过去需要花费数个小时、数天甚至数周才能完成的故障诊断和修复工作,AIOps智能运维平台可能只需要几秒钟就能搞定,而且更加精准、更少误判。AIOps的问世不仅得益于人工智能技术的发展,同时也是企业数字化转型的必然结果,企业的数字化程度越高,IT规模越大也越复杂,就越需要快捷、高效、精准的运维管理平台作为业务的有效支撑。
AIOps的来历
对于传统企业来说,AIOps并不是一个全新的理念,而是IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。AIOps智能运维以ITOA/ITOM系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
市面上流行的传统运维管理平台,其核心组件缺少大数据采集、分析和本地机器学习的能力,需要业务运维和AIOps平台予以完善。AIOps智能运维平台能够接入不同业务系统、监控系统、管理系统的海量IT数据,并运用各种算法进行高速分析、学习甚至预测。立足于AIOps,IT部门可以获得强大的自动化IT决策和运营管理能力,并能对业务质量和用户体验进行准确检测和持续优化。
AIOps的价值
“AIOps正在广泛应用于IT大数据和业务大数据分析领域,为企业提供极具价值的业务洞察能力”。据Gartner分析师最新预测,到了2022年,部署AIOps平台的大型企业数量将从如今的不足5%,迅速提升到40%左右,而这些企业会把AIOps用于业务运营和IT运维,以取代如今的运维监控、管理工具和自动化运维产品。
当企业的数字化程度越来越高, IT系统的复杂度和规模越来越大,摆在CIO面前的这道双选题:是不断增加业务流程?还是采用AIO平台?似乎不难抉择!
AIOps的组成结构
Gartner定义的AIOps平台拥有11项能力,包括历史数据管理(Historical data management)、流数据管理(Streaming data management)、日志数据提取(Log data ingestion)、网络数据提取(Wire data ingestion)、算法数据提取(Metric data ingestion)、文本和NLP文档提取(Document text ingestion)、自动化模型的发现和预测(Automated pattern discovery and prediction)、异常检测(Anomaly detection)、根因分析(Root cause determination)、按需交付(On-premises delivery)和软件服务交付(Software as a service)等。
云智慧智能业务运维大数据平台,将前9项能力分别纳入数据接入层、大数据管理层、大数据分析层、应用模块层和可视化展现层这五层逻辑架构中,便于企业和CIO们更好的理解和落地AIOps理念和相关解决方案。
数据接入层:通过开放的API接口,广泛接入企业IT系统的历史数据、流数据、日志数据、网络数据、算法数据、文本和NLP文档数据,以及APP数据、浏览器数据、业务系统运营指标数据等不同数据源的数据。
大数据管理层:对业务系统和IT支撑系统产生的结构化和非结构化数据进行统一、高效的存储、管理和调度。
大数据分析层:聚合数据建模、大数据分析能力,实现业务和IT数据的关联分析,通过人工智能对业务波动、故障判断、修复操作等依靠人力决策的环节进行持续学习和自动化响应。
应用模块层:针对基础设施、应用和业务系统之间的逻辑拓扑,提供覆盖全部技术栈的基础设施监控、应用性能管理、业务决策分析以及异常检测、根因分析和统一告警服务。
可视化展现层:以可视化大屏或页面的形式实时展现业务系统运行状态、IT资源利用率等智能运维的关键指标,第一时间发现IT对业务的影响,辅助商业决策。
AIOps是IT走向运营的点金手
未来几年,数字化系统的运行效能对企业核心竞争力的影响越来越大,CIO所领导的IT部门在运营中所扮演的角色也越来越重要。然而,随着系统规模和复杂度呈指数级增长, IT人员解决问题的能力不会有太大的变化。要让IT摆脱传统运维工作的束缚,就需要运用AIOps智能运维平台来有效承担基础运维的种种责任。
在AIOps的帮助之下,IT人员可以从繁琐的常规工作中得到彻底的释放,专注于对企业发展更有价值的工作 – 业务和用户体验,让IT真正走向运营。