大家好,我是袁庭新。
没有不出问题的系统,出问题了能否避免业务不受影响是关键。那么系统的可观测性,对企业而言,是至关重要的。随着AI模型的深入发展,导致数据处理方式与技术架构发生了深刻的变化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增。这个时候,一套AI 原生全栈可观测平台就显得非常重要。

应用程序上云后,运维工作也逐渐从监控演进到可观测。什么是系统的可观测呢?类比理解下,汽车行驶中的仪表盘,建筑师的设计图纸,这就是可观测的一种体现。而我们这里的可观测指的是应用程序运行中的全链路实时观测、告警与诊断,构建一套可观测体系,更高效地管理与观测IT资源与服务。

云原生可观测工具在AI的加持下,正引领着可观测加速迈向智能化。企业用户可以像“搭积木”一样轻松、灵活地构建可观测体系。

我们来看在企业中,一个典型云原生架构应用的可观测性诉求。多语言、前后端分离,一套可观测体系如何覆盖全?应用复杂度高,如何快速定界定因?AI浪潮下,如何借助智能化提升运维效率?这是企业真实所面临的一些问题。

全栈智能可观测平台,有哪些核心功能?第一个是可观测平台能力,具有数据接入、数据处理、AI引擎、智能告警和可视化大盘等能力。第二个是可观测数据存储,日志、时序指标、事件和观测对象,都可以进行相应的存储。

2024年9月份,阿里云宣布日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 等可观测产品家族重磅更新,面向模型训练、推理及应用提供全链路的可观测服务。

阿里云的这套AI Stack可观测解决方案,可以做到AI应用的全方位可观测。一个AI应用程序通常可划分为5层架构,从底层到上层分别是:智算服务PAI-灵骏(IaaS)、容器服务Kubernetes版(CaaS)、人工智能平台PAI(PaaS)、大模型服务平台百炼(MaaS)、AI应用。阿里云AI Stack可观测解决方案可以做到,云资源监控、容器可观测、模型推理可观测、模型训练可观测。

2024年巴黎奥运会,阿里云为奥运会14个场馆提供AI增强的多镜头回放系统MUCAR。把多个镜头采集到的图像发送到云端,由构建在“ACK Pro集群+GPU节点”的AI算力,作实时空间重建和3D渲染,只需数秒即可在云端生成,并无缝融入赛事直播,分发至全世界。保障奥运会多个业务系统稳定运行,保障超大流量访问顺滑。

以一个在线业务线上故障的排查路径为例,ACK可观测体系提供链路各层观测能力覆盖,并最终定位问题。业务异常诊断大致可分为6个步骤:收到报警、网关业务流量监控、多维指标分析、业务日志、分布式追踪&Profiling(定位根因与诊断)、Fix(终态修复异常)。

还提供有容器场景的GPU观测的能力。提供有:开箱即用的容器GPU监控能力、成本套件对Pod的GPU资源成本分析、GPU坏卡状态检测&任务自愈、GPU资源使用Profiling等。

可观测的应用场景是非常丰富多样,比如,基础设施可观测、容器可观测、云产品可观测、应用可观测和用户体验可观测等。总之,未来可观测与智能化紧密结合是大势所趋。
