随着本土化APM的逐渐推进,AIOps也逐步走进了大家的视野。通过AI技术的加持,对运维工作赋予了更多的智能化、数据化标准,那么下面我们一起走进文章,来聊一聊AIOps的重要性。
随着企业业务扩大、IT资源丰富、业务模式多元化,IT运维系统的落后开始逐渐体现出来。独立的IT监控系统发生故障后,查找故障根因困难,导致MTTR时间周期长,面对监控系统大量告警信息,运维部希望精简告警量并随时随地了解最新故障状态,从而实现及时介入,精确修复故障。
国际最具权威的IT研究顾问咨询机构Gartner在2017年发布了关于AIOps的定义:
翻译为:
AIOps平台结合了大数据和机器学习功能,通过可扩展的提取和分析IT相关数据,不断增加的数据量,种类和速度来支持所有主要IT操作功能。该平台支持同时使用多个数据源,数据收集方法以及分析和演示技术。
对于市场描述方面:AIOps可以增强广泛的IT运营流程和任务,包括性能分析,异常检测,事件关联和分析,IT服务管理和自动化。
那么AIOps平台利用大数据、现代的机器学习技术和其他高级分析技术,通过主动、个性化和动态的洞察力直接或间接地,持续增强 IT 操作(监控,自动化和服务台)功能。AIOps平台可以同时使用多个数据源,多种数据收集方法,实时分析技术,深层分析技术以及展示技术。
随着AIOps对本土化行业的深入,越来越多的商业化场景开始通过AIOps的方式管理自己的IT运维工作,比如:互联网、金融、航空、政企、运营商、制造业、新零售……
进入AIOps赛道比较早的LinkedSee灵犀对于智能运维也有自己的一些看法:
LinkedAIOps是LinkedSee灵犀在AIOps领域的核心产品,基于运维大数据和人工智能技术,运用多种机器学习算法,在故障产生时通过指标异常检测、日志异常检测等算法及时感知故障,同时通过告警聚类、根因推荐、关联数据排查等快速定位故障,帮助企业解决运维故障管理中耗时较长(发现-定位)的问题,从而降低MTTR提升SLA。
而LinkedAIOps在众多行业中也有自己的解决方案:
结合企业多元化业务及IT资源,梳理企业业务流程,建设完整的IT运维流程。
将独立的监控系统进行整合,部署LinkedAIOps智能运维监控系统,实现Dashboard界面统一,通过实时监控和缩短MTTR周期。
部署LinkedAIOps智能运维监控系统,实现告警信息通过电话、短信、邮件、微信等方式通知运维人员,避免“人盯监控系统”的管理模式。
LinkedAIOps智能运维监控系统,可以实现90%以上的告警降噪,极大降低了无效告警的干扰,提高故障响应效率,并能根据故障模式及关联消息持续自我学习,实现快速发现和定位故障。
Gartner预测,到2019年底,全球四分之一的企业将策略性地实施AIOps,支持两个或更多的IT运营功能。而到2022年,40%的大型企业将结合大数据和机器学习功能,支持和部分替代监测、服务台和自动化流程和任务。
在此大环境下,LinkedAIOps也在持续不断的发力,在主要核心价值方面,定义了八个重要的方向:
LinkedAIOps核心价值:
数据统一接入和治理。将分散孤立的运维数据集中管理和分析。
90%告警降噪率。告警去重一级降噪,告警聚类二级降噪,极大降低无效告警的干扰。
日志异常检测。从海量日志中实时分析日志模式的变化趋势,及时发现日志异常,并发出告警。
指标异常检测。实时接入运维监控指标,通过异常检测算法得出指标的异常点,及时发出告警。
智能根因分析。基于故障模式及关联消息的持续自我学习,进行自主机器学习后,根因推荐准确率可大于90%。
多重根因定位。告警中找不到根因时,可以通过关联日志模式、关联指标等辅助排障工具,快速发现和定位故障。
一键故障排查。在没有监控或系统未接入对应主机的告警时,与主机相关的模块或业务出现故障,可通过一键排障功能,实现简单快速故障排查的目标,降低MTTR提升SLA。
数据可视化。多维度运维数据统计展示,灵活运维KPI报表。