报告日期: 2026年3月14日
研究主题: LLM与AI Agent在IT运维领域的应用
执行摘要
随着大语言模型(LLM)技术的快速发展,IT运维领域正经历从传统AIOps向AgentOps的范式转变。本报告系统研究了LLM在运维中的核心技术能力、AI Agent的架构设计与演进、LLM+Agent融合技术架构、典型应用场景、主流框架与工具生态、实践案例与效果评估,以及面临的挑战与未来发展方向。
研究发现,LLM通过自然语言理解、代码生成、推理规划等独特能力,为运维领域带来了革命性变化。AI Agent架构通过感知、记忆、规划、工具使用和执行五大核心组件,实现了从"工具"到"智能体"的转变。ReAct、CoT、Multi-Agent等融合技术进一步增强了Agent的自主决策和协作能力。开源项目如HolmesGPT、Keep以及商业产品如GitHub Copilot for Ops等,已在实际生产环境中展现出显著价值。
然而,幻觉问题、安全与权限控制、成本与延迟等挑战仍需解决。从AIOps到AgentOps的演进代表着运维智能化的新阶段,企业需要在技术能力与风险控制之间找到平衡。
1. LLM在运维领域的技术基础与独特优势
1.1 LLM的核心技术能力
大语言模型(LLM)在IT运维领域展现出多项独特技术能力,这些能力使其成为运维智能化的理想基础[1][2]:
自然语言理解与交互能力
LLM能够理解人类自然语言指令,将运维人员的口语化描述转换为结构化操作。这种能力使得运维人员可以用日常语言与系统交互,无需记忆复杂的命令语法。研究表明,LLM在理解运维文档、日志分析和问题描述方面表现出色,能够提取关键信息并生成结构化响应[3]。
代码理解与生成能力
LLM具备强大的代码理解能力,可以分析配置文件、脚本代码和应用程序逻辑。在运维场景中,这一能力被用于代码审查、配置生成、自动化脚本编写等任务。通过微调或提示工程,LLM能够生成符合特定环境要求的运维脚本和配置模板[4]。
推理与规划能力
LLM展现出显著的推理能力,能够进行多步骤的逻辑推导。在故障排查场景中,LLM可以基于症状描述进行推理,逐步缩小问题范围,最终定位根因。这种"思维链"(Chain of Thought, CoT)能力使得复杂问题的分析成为可能[5]。
知识整合与迁移能力
LLM在预训练阶段学习了大量技术文档、代码库和运维知识,具备跨领域的知识整合能力。当遇到新问题时,LLM能够将已学习的通用知识迁移到特定运维场景中,提供有价值的参考建议。
1.2 运维领域专用技术实现
检索增强生成(RAG)
RAG技术通过将LLM与外部知识库连接,解决了模型知识时效性和领域专业性的问题。在运维场景中,RAG架构通常包含以下组件[6][7]:
- 向量数据库:存储运维文档、故障案例、解决方案等知识的向量化表示
- 检索模块:根据用户查询从向量数据库中检索相关文档片段
- 重排序模块:对检索结果进行相关性排序,筛选最相关的信息
- 生成模块:将检索到的上下文与原始查询结合,生成准确回答
RAG的优势在于能够实时访问最新知识,并提供可追溯的信息来源,有效缓解LLM的幻觉问题。
微调(Fine-tuning)
针对运维领域的特殊需求,可以对基础LLM进行领域微调。微调策略包括[8][9]:
- 全量微调:在运维领域语料上继续训练模型参数,使模型深度适应运维场景
- 参数高效微调(PEFT):使用LoRA、Adapter等技术,仅微调少量参数,降低计算成本
- 指令微调:使用格式化的指令-响应对进行训练,提升模型遵循指令的能力
提示工程(Prompt Engineering)
提示工程是优化LLM输出的关键技术,在运维场景中常用的技术包括[10]:
- 少样本学习(Few-shot Learning):在提示中提供示例,引导模型生成期望格式的输出
- 思维链提示(Chain-of-Thought Prompting):引导模型展示推理过程,提高复杂问题的解决准确率
- 角色设定:为模型设定运维专家角色,增强回答的专业性和针对性
1.3 LLM在运维中的独特价值
相比传统机器学习方法,LLM在运维领域具有以下独特优势[11][12]:
| 能力维度 | 传统ML | LLM |
|---|---|---|
| 数据处理 | 需要结构化特征工程 | 可直接处理原始文本和日志 |
| 知识获取 | 依赖标注数据训练 | 预训练知识+检索增强 |
| 交互方式 | API调用或规则匹配 | 自然语言对话 |
| 泛化能力 | 特定场景训练 | 跨领域知识迁移 |
| 可解释性 | 黑盒模型 | 可生成推理过程说明 |
2. AI Agent架构设计与核心能力
2.1 从"工具"到"智能体"的转变
AI Agent代表了人工智能从被动工具向主动智能体的演进。传统运维工具需要人工明确指令才能执行操作,而Agent具备自主感知环境、做出决策并执行行动的能力[13][14]。
这种转变体现在以下方面:
- 主动性:Agent能够主动监控环境变化,在检测到异常时自动启动诊断流程
- 目标导向:Agent以完成特定目标为导向,能够自主规划实现路径
- 适应性:Agent能够根据环境反馈调整策略,具备学习和进化能力
- 协作性:多个Agent可以协同工作,分工完成复杂任务
2.2 Agent核心架构组件
一个完整的AI Agent架构通常包含以下核心组件[15][16]:
感知模块(Perception)
感知模块负责从环境中收集信息,是Agent与外部世界交互的接口。在运维场景中,感知模块需要集成多种数据源:
- 监控系统:Prometheus、Grafana、Datadog等监控平台的API
- 日志系统:ELK Stack、Splunk等日志平台的查询接口
- 告警系统:PagerDuty、OpsGenie等告警管理系统的Webhook
- CMDB:配置管理数据库,提供系统拓扑和依赖关系信息
记忆模块(Memory)
记忆模块使Agent能够存储和检索历史信息,是实现持续学习和上下文感知的基础。记忆通常分为两类[17][18]:
- 短期记忆(工作记忆):存储当前会话的上下文信息,支持多轮对话和任务跟踪
- 长期记忆:存储历史交互、学习到的知识和经验,通常使用向量数据库实现
记忆管理的关键决策包括:存储什么信息、如何存储、如何检索以及何时遗忘。
规划模块(Planning)
规划模块负责将高层目标分解为可执行的具体步骤。主流规划方法包括[19]:
- 单步规划:基于当前状态直接选择下一步行动
- 多步规划:预先规划完整的行动序列,然后逐步执行
- 层次化规划:将复杂任务分解为子任务,递归规划
- 自适应规划:根据执行反馈动态调整计划
工具使用模块(Tool Use)
工具使用模块使Agent能够调用外部工具扩展能力。运维Agent通常需要集成的工具包括[20]:
- 查询工具:执行PromQL查询、日志检索、数据库查询等
- 执行工具:执行Shell命令、Kubernetes操作、API调用等
- 分析工具:调用数据分析、异常检测等专用服务
执行模块(Execution)
执行模块负责实际执行规划好的行动,并处理执行过程中的异常和错误。在运维场景中,执行模块需要特别关注安全性和可控性。
2.3 自主决策与人机协作模式
自主决策模式
在自主决策模式下,Agent独立完成任务的全部流程,无需人工干预。这种模式适用于[21]:
- 低风险、可逆的操作(如只读查询、状态检查)
- 标准化的例行任务(如日志轮转、备份检查)
- 紧急情况下的快速响应(如自动扩容、故障切换)
人机协作模式
人机协作模式强调Agent与运维人员的协同工作,Agent提供建议和执行支持,最终决策权保留在人类手中。协作模式包括[22]:
- 人在回路(Human-in-the-loop):关键操作需要人工确认
- 人在环上(Human-on-the-loop):Agent自主执行,人类监督并可在必要时介入
- 人在环外(Human-out-of-the-loop):完全自主执行,事后审计
实践中,运维Agent通常采用分级授权策略,根据操作风险等级决定人机协作模式[23]。
3. LLM+Agent融合技术架构
3.1 ReAct架构:推理与行动的协同
ReAct(Reasoning + Acting)是一种将推理和行动相结合的Agent架构,由Yao等人于2023年提出[24]。ReAct的核心思想是让Agent交替进行推理步骤和行动步骤:
ReAct的工作原理
- 推理(Thought):Agent分析当前情况,思考下一步应该做什么
- 行动(Action):基于推理结果,选择并执行具体工具调用
- 观察(Observation):收集行动执行后的反馈信息
- 循环:重复上述过程,直到任务完成
- 可解释性:推理过程透明,便于理解和调试
- 灵活性:能够处理需要多步推理的复杂任务
- 纠错能力:通过观察反馈,可以及时调整策略
在运维场景中,ReAct架构被广泛应用于故障排查流程,Agent可以逐步收集信息、分析数据、定位问题。
3.2 思维链(CoT)与思维树(ToT)
思维链(Chain of Thought, CoT)
CoT技术通过引导LLM展示中间推理步骤,显著提升复杂问题的解决能力。在运维Agent中,CoT被用于[27]:
- 故障根因分析:逐步推理可能的故障原因
- 影响评估:分析故障对系统各组件的影响路径
- 解决方案生成:基于根因推导修复步骤
思维树(Tree of Thought, ToT)
ToT扩展了CoT的思想,允许多路径并行探索。Agent在每一步生成多个候选思考方向,形成树状搜索空间,然后评估各路径的潜力,选择最优路径继续深入[28]。
ToT特别适用于需要探索多种可能性的运维场景,如:
- 多因素故障分析:同时考虑多种可能的故障原因组合
- 修复方案评估:比较不同修复策略的优劣
- 容量规划:评估不同扩容方案的效果
3.3 Multi-Agent协作运维系统
Multi-Agent架构设计
复杂运维任务往往需要多个专业Agent协同完成。Multi-Agent系统通常采用以下架构模式[29][30]:
- 主从架构:一个协调Agent负责任务分配和结果汇总,多个执行Agent负责具体子任务
- 对等架构:Agent之间平等协商,通过消息传递协调工作
- 层次架构:多层Agent组织,上层Agent协调下层Agent
Multi-Agent协作机制
主流Multi-Agent框架提供了丰富的协作机制[31][32]:
- AutoGen:基于对话的协作模式,Agent通过自然语言消息交流
- LangGraph:基于状态机的协作模式,明确定义Agent间的流转规则
- CrewAI:基于角色的协作模式,为Agent分配特定角色和职责
运维场景中的Multi-Agent应用
在运维实践中,Multi-Agent系统通常按专业领域划分Agent职责[33]:
- 监控Agent:负责收集和分析监控数据
- 日志Agent:负责日志检索和分析
- 网络Agent:负责网络诊断和配置检查
- 应用Agent:负责应用层面的故障排查
- 协调Agent:统筹各Agent的工作,整合分析结果
3.4 Agent工作流编排框架
LangChain框架
LangChain是构建LLM应用的主流框架,提供了完整的Agent开发工具链[34][35]:
- Chains:将多个组件组合成可复用的工作流
- Agents:支持ReAct、Plan-and-Execute等多种Agent类型
- Tools:标准化的工具定义和调用接口
- Memory:多种记忆实现,支持上下文管理
LangGraph框架
LangGraph是LangChain的扩展,专注于构建复杂的多Agent系统[36]:
- 图结构:使用有向图定义Agent工作流,支持循环和条件分支
- 状态管理:维护全局状态,支持Agent间的状态共享
- 持久化:支持工作流的持久化和恢复
AutoGen框架
AutoGen由微软研究院开发,专注于对话式Multi-Agent系统[37][38]:
- 对话编程:通过定义Agent间的对话模式构建应用
- 人机协作:内置支持人在回路的交互模式
- 代码生成:Agent可以生成和执行代码,实现复杂任务
4. 典型应用场景深度分析
4.1 智能运维助手与聊天机器人
智能运维助手是LLM+Agent在运维领域最直接的应用形式,为运维人员提供7x24小时的智能问答服务[39][40]。
核心功能
- 知识问答:回答关于系统架构、配置参数、操作手册等问题
- 故障咨询:根据症状描述提供故障排查建议
- 操作指导:指导运维人员执行特定操作步骤
- 文档检索:快速定位相关文档和知识库条目
技术实现
智能运维助手通常采用RAG架构,结合企业私有知识库和通用运维知识。关键技术点包括[^41]:
- 知识库构建:将运维文档、FAQ、历史案例等转换为向量存储
- 查询理解:准确理解用户意图,识别技术术语和上下文
- 答案生成:基于检索结果生成准确、完整的回答
- 多轮对话:维护对话上下文,支持追问和澄清
4.2 自动化故障排查与修复Agent
自动化故障排查Agent是运维智能化的核心应用场景,旨在缩短MTTR(平均修复时间)[42][43]。
故障排查流程
一个典型的自动化故障排查流程包括以下步骤[^44]:
- 告警接收:接收来自监控系统的告警通知
- 信息收集:自动查询相关监控指标、日志、事件
- 根因分析:基于收集的信息进行推理分析,定位根因
- 影响评估:评估故障影响范围和严重程度
- 方案生成:推荐修复方案或自动执行修复操作
- 结果验证:验证修复效果,确认故障恢复
开源项目:HolmesGPT
HolmesGPT是一个开源的SRE Agent项目,已加入CNCF Sandbox[45][46]。其核心特性包括:
- 多数据源集成:支持Prometheus、Grafana、Datadog、Kubernetes等
- LLM驱动调查:使用LLM智能选择和调用查询工具
- 结构化输出:生成清晰的调查结果和修复建议
- 安全执行:支持只读模式和安全控制
HolmesGPT采用工具调用模式,Agent根据当前问题状态动态选择下一步查询,逐步缩小问题范围。
4.3 代码审查与配置生成
代码审查Agent
LLM Agent可以辅助进行基础设施代码审查,包括[^47]:
- 配置检查:检查配置文件语法、最佳实践遵循情况
- 安全扫描:识别潜在的安全风险和漏洞
- 合规检查:验证是否符合企业标准和行业规范
- 优化建议:提供性能优化和成本优化建议
配置生成Agent
配置生成Agent能够根据需求描述自动生成配置文件[^48]:
- 自然语言到配置:将口语化需求转换为结构化配置
- 模板填充:基于预定义模板填充具体参数
- 多平台支持:生成适用于不同平台(AWS、Azure、Kubernetes等)的配置
4.4 运维知识库智能问答
运维知识库智能问答系统解决了传统知识库检索效率低的问题[^49]。
技术架构
- 文档向量化:将知识库文档切分并向量化存储
- 混合检索:结合关键词检索和语义检索,提高召回率
- 重排序优化:使用交叉编码器对检索结果重排序
- 答案溯源:提供答案来源链接,便于验证
应用场景
- 故障案例查询:根据故障现象查找相似历史案例
- 解决方案推荐:基于问题描述推荐已验证的解决方案
- 知识发现:发现知识库中的关联知识和潜在模式
4.5 复杂任务自动化
发布自动化Agent
发布自动化Agent能够协调复杂的应用发布流程[^50]:
- 依赖检查:验证前置条件是否满足
- 灰度发布:逐步将流量切换到新版本
- 健康检查:监控发布过程中的关键指标
- 自动回滚:检测到异常时自动回滚到稳定版本
扩缩容自动化Agent
基于负载自动调整资源容量[^51]:
- 容量预测:基于历史数据和趋势预测未来负载
- 扩容决策:综合考虑成本、性能、SLA等因素做出扩容决策
- 执行协调:协调多个系统的扩容操作
迁移自动化Agent
迁移自动化Agent协助完成系统迁移任务:
- 兼容性检查:评估源系统与目标环境的兼容性
- 数据迁移:协调数据迁移过程,确保数据完整性
- 配置转换:自动转换配置以适应新环境
- 验证测试:执行迁移后的验证测试
5. 主流框架与工具生态
5.1 开源运维Agent项目
HolmesGPT
HolmesGPT是CNCF Sandbox项目,专为云原生环境设计的SRE Agent[52][53]。
核心能力:
- 多数据源集成(Prometheus、Grafana、Datadog、Kubernetes等)
- LLM驱动的智能调查
- 结构化根因分析报告
- 安全执行模式(只读/受限执行)
技术特点:
- 采用工具调用模式,Agent动态选择查询工具
- 支持服务端过滤,处理PB级数据
- 内存安全执行,防止上下文溢出
Keep
Keep是一个开源的AIOps平台,集成了LLM能力用于告警管理和故障响应[^54]。
5.2 商业产品与云厂商方案
GitHub Copilot for Ops
GitHub Copilot正在向运维领域扩展,提供以下能力[55][56]:
- Copilot Skills:可复用的AI工作流,支持DevOps和SRE场景
- Copilot CLI:命令行Agent,直接在终端执行运维任务
- MCP支持:通过Model Context Protocol集成外部工具
PagerDuty Copilot
PagerDuty推出的运维助手,实现以下功能[^57]:
- 告警智能分类和优先级排序
- 自动化脚本生成
- 故障处理流程指导
云厂商LLM运维产品
主要云厂商纷纷推出LLM驱动的运维产品[58][59]:
- AWS:Amazon Q for DevOps和运维场景
- Azure:Azure Copilot和AI-powered运维工具
- Google Cloud:Duet AI for Cloud Operations
- 阿里云:智能运维助手和故障诊断Agent
5.3 开发框架与工具链
LangChain/LangGraph生态系统
LangChain提供了最完整的Agent开发工具链[60][61]:
- LangChain Core:基础组件和抽象
- LangChain Community:社区贡献的集成和工具
- LangGraph:复杂工作流和多Agent编排
- LangServe:Agent服务化部署
LlamaIndex
专注于RAG和知识检索的框架[^62]:
- 多种索引类型(向量、树、图等)
- 高级检索策略(混合检索、重排序等)
- Agent集成支持
AgentOps平台
AgentOps是管理LLM Agent生命周期的框架[63][64]:
- Agent监控和可观测性
- 成本追踪和优化
- 性能评估和改进
6. 实践案例与效果评估
6.1 企业落地案例
案例一:某大型互联网公司智能运维助手
某头部互联网公司构建了基于LLM的智能运维助手系统[^65]:
实施内容:
- 集成内部知识库和运维文档
- 构建RAG架构的智能问答系统
- 开发故障诊断Agent辅助根因分析
效果数据:
- 运维问题首次解决率提升40%
- 平均故障排查时间缩短50%
- 知识库利用率提升3倍
案例二:金融企业Multi-Agent故障排查系统
某金融企业构建了多Agent协作的故障排查系统[^66]:
架构设计:
- 协调Agent负责任务分发
- 专业Agent分别处理网络、数据库、应用层问题
- 结果汇总生成综合诊断报告
实施效果:
- 复杂故障定位时间从小时级降至分钟级
- 误报率降低60%
- 运维人员满意度提升显著
6.2 效果评估指标
效率指标
- MTTR(平均修复时间):故障从发生到解决的时间
- MTTD(平均检测时间):问题发生到被检测的时间
- 首次解决率:首次交互解决问题的比例
- 自动化率:无需人工干预自动完成的任务比例
质量指标
- 准确率:Agent诊断或建议的正确率
- 召回率:成功识别问题的比例
- 误报率:错误告警的比例
- 用户满意度:运维人员对Agent的满意度评分
成本指标
- Token消耗:LLM API调用成本
- 计算资源:Agent运行所需的计算资源
- 人力节省:减少的运维人力投入
- ROI:投资回报率
6.3 关键成功因素
数据质量
高质量的数据是Agent成功的基础:
- 知识库的完整性和准确性
- 历史案例的标注质量
- 实时监控数据的可靠性
人机协作设计
合理的人机协作模式至关重要:
- 明确Agent和人的职责边界
- 设计有效的人机交互界面
- 建立完善的审核和回滚机制
持续优化
Agent需要持续学习和改进:
- 基于反馈的模型微调
- 知识库的动态更新
- Agent策略的迭代优化
7. 挑战、局限与解决方案
7.1 幻觉问题与可靠性保障
幻觉问题的表现
LLM在运维场景中可能产生以下幻觉[67][68]:
- 事实幻觉:生成看似合理但实际错误的技术信息
- 指令幻觉:误解用户意图,执行错误操作
- 推理幻觉:推理过程存在逻辑漏洞但输出看似合理
缓解策略
- RAG增强:通过检索外部知识库提供事实依据
- 验证机制:对关键输出进行多源验证
- 置信度评估:对Agent输出的置信度进行评估
- 人机确认:高风险操作需要人工确认
7.2 安全与权限控制
安全风险
- 越权操作:Agent执行超出权限的操作
- 数据泄露:敏感信息通过LLM泄露
- 提示注入:恶意输入操控Agent行为
防护方案
- 分级授权:根据操作风险等级设置不同授权策略[^69]
- 最小权限:Agent仅获得完成任务所需的最小权限
- 审计日志:完整记录Agent的所有操作
- 沙箱执行:在隔离环境中执行高风险操作
7.3 成本与延迟考量
成本挑战
- Token成本:大规模运维场景的API调用成本
- 计算成本:Agent推理和执行的计算开销
- 存储成本:知识库和记忆系统的存储开销
优化策略
- 模型选择:根据任务复杂度选择合适模型
- 缓存机制:缓存常见查询结果
- 批处理:合并多个请求进行批量处理
- 边缘部署:在边缘节点部署轻量级模型
延迟优化
- 流式输出:实时返回部分结果
- 预加载:预加载常用知识
- 异步处理:非关键任务异步执行
- 分层架构:简单任务使用轻量模型,复杂任务使用大模型
7.4 可解释性与可审计性
挑战
- 黑盒问题:LLM决策过程不透明
- 追溯困难:难以追溯Agent的决策依据
- 责任界定:自动化操作后的责任归属
解决方案
- 推理展示:展示Agent的思考过程(CoT)
- 操作溯源:记录完整的操作链路
- 证据留存:保留决策依据和参考来源
- 可解释AI:使用可解释性更强的模型或方法
8. 从AIOps到AgentOps的演进趋势
8.1 AIOps与AgentOps的区别
| 维度 | AIOps | AgentOps |
|---|---|---|
| 核心能力 | 数据分析、模式识别 | 自主决策、任务执行 |
| 交互方式 | 被动响应、仪表板 | 主动交互、对话式 |
| 处理范围 | 特定任务、单点问题 | 端到端流程、复杂任务 |
| 人机关系 | 人主导、工具辅助 | 人机协作、Agent自主 |
| 技术基础 | 传统ML、规则引擎 | LLM、Agent架构 |
8.2 AgentOps的核心特征
自主性
AgentOps强调Agent的自主决策能力,能够[70][71]:
- 主动发现问题并启动处理流程
- 自主规划执行步骤
- 根据环境反馈调整策略
协作性
Multi-Agent协作成为常态:
- 专业Agent分工协作
- 人机协同工作流
- 跨系统Agent联动
目标导向
从任务执行转向目标达成:
- 定义高层目标而非具体步骤
- Agent自主规划实现路径
- 持续优化达成目标的效率
8.3 演进路径与阶段
第一阶段:增强型AIOps(当前)
- LLM增强现有AIOps工具
- 智能问答和知识检索
- 辅助决策而非自主执行
第二阶段:Agent化运维(进行中)
- 引入Agent架构
- 实现部分任务的自主执行
- 人机协作模式成熟
第三阶段:全自主AgentOps(未来)
- Multi-Agent系统全面应用
- 端到端自动化运维
- 人在环外的高自主性
8.4 未来发展方向
技术趋势
- 多模态Agent:整合文本、日志、指标、追踪等多种数据
- 边缘Agent:在边缘节点部署轻量级Agent
- 联邦Agent:跨组织、跨云的Agent协作
- 具身智能:Agent与物理世界的交互
应用趋势
- 预测性运维:从被动响应转向主动预防
- 自愈系统:系统具备自我修复能力
- 零接触运维:完全自动化的运维流程
9. 结论与建议
9.1 主要发现
技术成熟度:LLM和Agent技术已具备在运维领域落地的条件,RAG、ReAct等关键技术有效解决了实际应用中的核心问题。
应用价值:智能运维助手、自动化故障排查等场景已展现出显著价值,能够大幅提升运维效率和质量。
生态繁荣:开源社区活跃,HolmesGPT、LangChain等项目快速发展,云厂商积极布局。
挑战存在:幻觉、安全、成本等问题仍需持续关注,人机协作模式需要精心设计。
9.2 实施建议
短期(0-6个月)
- 从智能运维助手等低风险场景入手
- 构建企业知识库和RAG系统
- 试点特定场景的Agent应用
中期(6-12个月)
- 扩展Agent应用场景
- 建立人机协作流程
- 完善监控和评估体系
长期(12个月以上)
- 构建Multi-Agent协作系统
- 实现端到端自动化运维
- 持续优化和迭代
9.3 关键成功要素
- 数据基础:高质量的知识库和运维数据
- 安全优先:建立完善的权限和安全控制
- 渐进推进:从简单场景逐步扩展
- 持续优化:基于反馈不断改进
- 人机协同:合理设计人机协作模式
参考文献
-
Empowering AIOps: Leveraging Large Language Models for IT Operations. arXiv:2501.12461, 2025. ↩
-
Awesome LLM AIOps. GitHub: Jun-jie-Huang/awesome-LLM-AIOps. ↩
-
An Introduction to LLMOps: Operationalizing and Managing Large Language Models. Microsoft Tech Community, 2024. ↩
-
What is LLMOps? IBM Think Topics, 2025. ↩
-
OWL: A Large Language Model for IT Operations. OpenReview, 2024. ↩
-
RAG vs fine-tuning vs. prompt engineering. IBM, 2025. ↩
-
Prompting vs. RAG vs. fine-tuning: Why it's not a ladder. The New Stack, 2026. ↩
-
Fine-tuning vs RAG vs Prompt Engineering 2025. Sysdebug, 2025. ↩
-
RAG vs Fine-tuning vs Prompt Engineering: Everything You Need to Know. InterSystems, 2025. ↩
-
Build It Yourself: The Complete Guide to AI Prompt Engineering, RAG, and Fine-Tuning. 2025. ↩
-
Understanding LLMOps: Large language model operations. Weights & Biases, 2024. ↩
-
LLMOps: Advancing AI Applications through Large Language Model Operations. Medium, 2024. ↩
-
Defining the Autonomous Enterprise: Reasoning, Memory, and the Core Capabilities of Agentic AI. Unstructured.io, 2025. ↩
-
A Complete Guide to AI Agent Architecture in 2026. Lindy.ai, 2026. ↩
-
Agentic AI Architecture: Types, Components, and Best Practices. Exabeam, 2025. ↩
-
AI Agent Systems: Architectures, Applications, and Evaluation. arXiv:2601.01743, 2026. ↩
-
AI Agent Architecture: Build Systems That Work in 2026. Redis.io, 2026. ↩
-
Making Sense of Memory in AI Agents. Leonie Monigatti, 2024. ↩
-
Agentic architecture: blueprint for enterprise AI. Kore.ai, 2026. ↩
-
What are AI agents? Google Cloud, 2025. ↩
-
What Are AI Agents? IBM, 2026. ↩
-
AI Agent Architecture: Build Systems That Work in 2026. Redis.io, 2026. ↩
-
基于LLM的智能运维Agent系统设计与实现. 博客园, 2024. ↩
-
ReAct: Synergizing Reasoning and Acting in Language Models. arXiv, 2023. ↩
-
Agents - Docs by LangChain. LangChain Documentation. ↩
-
Autono: A ReAct-Based Highly Robust Autonomous Agent Framework. arXiv:2504.04650, 2025. ↩
-
大模型"涌现"的思维链,究竟是一种什么能力?36氪, 2023. ↩
-
Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv, 2023. ↩
-
Agent 框架横向对比:LangChain、LangGraph、AutoGen、CrewAI. 知乎, 2025. ↩
-
建议收藏!AI Agent主流框架深度对比. CSDN, 2025. ↩
-
多Agent协同机制对比. 火山引擎开发者社区, 2025. ↩
-
智能体大乱斗:CrewAI, LangGraph, AutoGen. eimoon.com, 2025. ↩
-
LLM和Multi-Agent在运维领域的实验探索. 华为云, 2024. ↩
-
LangChain vs. AutoGen: A Comparison of Multi-Agent Frameworks. Medium, 2025. ↩
-
Using LangChain ReAct Agents to Answer Complex Questions. Airbyte, 2025. ↩
-
Multi-agent network. LangGraph Tutorials, 2025. ↩