人工智能运维(AIOps)是指利用大数据、机器学习和其他分析技术,通过动态分析、预测、优化等方式,直接和间接地增强IT 系统运维能力的一种新型运维技术。人工智能在IT 系统运维领域的应用有其独特的优势。人工智能具备超强的学习能力,能对大量的输入信息进行分析和学习,并通过不断的学习加强模型,掌握专家经验,提升解决问题的准确性,同时能处理和发掘人类不容易注意的问题与不确定的信息,能模拟人类的方式进行大量重复的工作,提升运维生产效率。
1.目标
AIOps 主要在以下三个方面提升运维能力:质量保障、效率提升和成本管理。
① 质量保障是运维的基本目标之一。随着企业IT 业务的不断发展,运维系统也在持续的演进。尤其是伴随着企业上云及各种生产系统等的不断升级改造,企业业务软件的规模变大、调用关系变复杂、更新频率变快,运维系统的规模、复杂程度不断加大。在这样背景下,AIOps 能够提供精准的业务质量感知、异常检测、故障预测功能,支撑用户体验优化,提升故障诊断、自愈能力,全面保障运维质量。
② 效率提升也是IT 系统运维需要面对的一大难题。随着企业业务软件的不断发展,运维效率的提升就成为运维体系中非常重要的一环。通过智能预测、智能决策等,AIOps能够提供自动化的运维服务,成为效率提升的重要工具。
③ 成本管理是每个企业都很关注的问题。当前企业的IT 系统普遍存在着资源利用率偏低的问题。有关统计表明,平均资源利用率能做到20%以上的企业非常少。AIOps通过智能化的资源监控手段,实现对设备、带宽等资源的优化,并根据使用量预测未来需求,统筹未来容量规划,优化综合服务器性能等,实现IT 系统成本的态势感知,提升成本管理效率。
将基于人工智能的运维引入通信网络是网络智能化的一大趋势,可以有效地提高网络运维效率、降低运营成本、提升业务质量。5G 网络采用了众多新型网络技术,尤其是云化部署后的核心网较以往更为复杂化、动态化;同时,当前的运营商网络中2G、3G、4G、5G 网络并存,网络组成异构化;网络服务也跟随时代的发展和用户的需求变化呈现出多元化和个性化;用户网络行为和网络性能也比以往更动态化而难以预测。这些都给网络运维带来更大的压力和挑战。