AI 术语

身处技术前沿，想必您每天都会接触到铺天盖地的AI术语。也许您对其中的一些概念“似懂非懂”…… 这种感觉很正常。为了帮助大家更清晰地理解这些高频出现的词汇，我整理了一份“小白也能懂”的AI术语解释清单。这份清单源于我个人的理解、大量的资料研究以及身边AI专家朋友们的反馈。

如果您已经是行家里手，这篇内容可能对您过于基础。但对于其他人，不妨收藏这份清单，下次会议中再听到那些让人应接不暇的AI行话时，就能轻松跟上节奏了。随着新术语的涌现，我也会持续更新这份列表。

核心概念

模型 (Model)

简单说：AI模型是一个模拟人脑工作方式的计算机程序。你给它输入（称为“提示”），它经过处理，就能生成回应。

如何“学习”？就像一个孩子，模型通过接触大量人们在各种情境下如何反应或行为的示例来学习。随着接触的样本越来越多，它开始识别模式、理解语言并生成连贯的回应。

类型多样：

大语言模型 (LLM - Large Language Model)：专注于理解和生成人类可读文本的模型，如 ChatGPT, Claude, Gemini, Llama, Grok, DeepSeek, Mistral。它们是当前AI对话的核心。

视频模型：如 Google Veo, OpenAI Sora, Runway Gen-4，专门生成视频。

语音模型：如 ElevenLabs, Cartesia, Suno，生成逼真语音。

传统模型：如用于欺诈检测的“分类模型”(Classification Model)，用于搜索引擎、信息流和广告的“排序模型”(Ranking Model)，用于数值预测的“回归模型”(Regression Model)。

大语言模型 (LLM)

顾名思义，核心是处理“语言”(Language)，理解和生成文本。

重要趋势：多模态 (Multimodal)：如今主流LLM（如 ChatGPT 系列）已进化为能同时处理文本、图像、音频等多种内容的模型。例如，GPT-4o 中的 “o” 代表“全能”(Omni)，意味着它能接受文本、音频和图像的任意组合输入。

Transformer 架构

这是由谷歌研究人员在2017年提出的算法突破，是现代AI（尤其是LLM）得以实现的关键。

核心机制：注意力 (Attention)：它让模型不再局限于逐字顺序阅读文本，而是能同时“关注”所有单词之间的关系。这极大地提升了模型理解含义、上下文和细微差别的能力。

并行优势：Transformer架构高度并行化，能同时处理序列的多个部分。这使得通过扩大数据量和算力来训练更大、更智能的模型成为可能。正是这一突破，让我们从简单的聊天机器人跃升到了如今复杂的AI助手。几乎当前所有主流AI模型（ChatGPT, Claude等）都构建在Transformer架构之上。

模型是如何“炼成”的？

训练/预训练 (Training/Pre-training)

过程：模型通过分析海量数据（如互联网内容、书籍、音视频等）来学习。训练顶尖模型往往耗时数周甚至数月，处理TB级数据，耗资巨大。

LLM 的核心方法：下一个词预测 (Next-token Prediction)：模型被输入数十亿条隐藏了最后一个“词元”(Token)（类似单词，见下文）的文本序列，学习预测下一个该出现的词。

内部调整：权重 (Weights)：训练过程中，模型不断调整其内部数百万个称为“权重”的参数（类似于人脑神经元的连接强度）。预测正确则强化相关权重，错误则进行调整。这个过程让模型逐渐掌握事实、语法、推理和不同语境下的语言运用。

监督学习 (Supervised Learning)

模型在“标注”数据上训练，即数据带有正确答案。例如，给模型大量标记为“垃圾邮件”或“非垃圾邮件”的邮件，让它学习区分模式，从而能分类新邮件。

主流LLM的方式：自监督学习 (Self-supervised Learning)：模型不依赖人工标注，而是通过自行隐藏句子最后一个词元并预测它来创建标签。这使其能从海量原始文本中学习，无需手动注释。

无监督学习 (Unsupervised Learning)

模型接收无标签、无答案的数据。其任务是自行发现模式或结构，例如将相似的新闻分组或检测数据集中的异常模式。常用于异常检测、聚类、主题建模等探索性任务。

让模型更“好用”

后训练 (Post-training)

指在基础训练完成后，为使模型更实用而采取的额外步骤，主要包括“微调”和“RLHF”。

微调 (Fine-tuning)

一种后训练技术：在已训练好的模型基础上，使用特定领域的数据进行额外训练，使其在特定任务上表现更优。

例如：在公司客服对话数据上微调，让模型学会符合品牌风格的回应；在医学文献上微调，提升其回答医疗问题的能力；在教育内容上微调，打造能按年级解释概念的辅导助手。

微调调整模型的内部权重，使其针对特定用例优化回应，同时保留预训练中获得的一般知识。

基于人类反馈的强化学习 (RLHF - Reinforcement Learning from Human Feedback)

一种超越“下一个词预测”和微调的后训练技术，核心目标是教会AI模型按照人类的期望行事——使其更安全、更有帮助、更符合人类意图（即“对齐”Alignment）。

过程分两步：

训练奖励模型 (Reward Model)：人类评估员比较模型输出的优劣对，训练出一个能预测人类偏好的“奖励模型”。

强化学习：AI模型通过试错学习。它生成回应，由奖励模型（而非直接由人类）根据其对人类偏好的预测打分（给予“奖励”）。模型在此阶段努力“取悦”奖励模型以获得更高分。

提示工程 (Prompt Engineering)

这是一门艺术和科学：如何精心设计问题（即“提示”），以获得AI模型更优、更有用的回应。就像与人交谈，提问方式的不同会带来截然不同的答案。同一个模型，提示不同，回应大异。

两类提示：

对话提示 (Conversational Prompts)：你与 ChatGPT/Claude/Gemini 对话时输入的提示。

系统/产品提示 (System/Product Prompts)：开发者嵌入产品后台的指令，用于塑造AI产品的行为方式。

检索增强生成 (RAG - Retrieval-augmented Generation)

一种技术，让模型在运行时能访问其训练数据之外的新信息。相当于让模型进行“开卷考试”，而非仅凭记忆作答。

工作流程：当你提问（如“本月销售额与上月相比如何？”），一个检索系统会搜索你的数据库、文档和知识库，找到相关信息。这些检索到的数据作为上下文添加到你的原始提示中，形成“增强提示”供模型处理，从而得到更优、更准确的答案。

模型产生幻觉（胡编乱造）的一个常见原因，就是没有通过RAG为其提供必要的上下文。

总结关键流程：

预训练 (Pre-training)：赋予模型通用知识（和语言能力）。

微调 (Fine-tuning)：让模型专精于特定任务。

RLHF：使模型行为与人类偏好对齐。

提示工程 (Prompt Engineering)：设计更好的输入，引导模型产生最有用的输出。

RAG：在运行时从外部源检索额外相关信息，为模型提供其训练数据中不存在的、最新的或特定任务相关的上下文。

其他重要术语

推理 (Inference)

指模型“运行”并生成结果的过程。当你向ChatGPT提问并得到回复时，这就是推理。

模型上下文协议 (MCP - Model Context Protocol)

一个近期发布的开源标准，旨在让AI模型能够轻松、可靠、安全地与外部工具（如日历、CRM系统、Slack、代码库）交互。

MCP还赋予AI通过这些工具执行操作的能力（如更新Salesforce客户记录、在Slack发送消息、安排会议、甚至向GitHub提交代码）。

AI协议标准仍在发展中，存在其他竞争提案（如Google的A2A、BeeAI/IBM的ACP）。

生成式 AI (Gen AI - Generative AI)

指能够生成全新内容（如文本、图像、代码、音频、视频）的AI系统。与之相对的是仅用于分析或分类数据的模型（如垃圾邮件检测、欺诈分析、图像识别模型）。

生成式预训练Transformer (GPT - Generative Pre-trained Transformer)

“GPT”概括了像ChatGPT、Claude、Llama、Grok等顶尖LLM背后的三大关键要素：

生成式 (Generative)：不仅能分类/分析，更能生成新内容。

预训练 (Pre-trained)：首先通过海量文本进行通用语言模式学习，之后可针对特定任务微调。

Transformer：使其能理解语言上下文、关系和含义的突破性架构。

这三者的结合，造就了ChatGPT等工具在广泛任务中展现出的智能性、连贯性和惊人实用性。

词元 (Token)

模型理解文本的基本单位。对LLM而言，一个词元有时是一个词，但常常只是词的一部分（图像模型有“图块”Patches，语音模型有“帧”Frames）。

例如，“ChatGPT is smart.” 可能被拆解为词元：Chat, GPT, is, smart, .。即使“ChatGPT”是一个词，模型也将其拆解为更小的部分，使语言学习更高效灵活。

智能体 (Agent)

指被设计用来代表你执行行动以达成目标的AI系统。

与Claude或ChatGPT等“一问一答”的聊天机器人不同，智能体能够规划、分步工作、并使用外部工具（常跨多个应用或服务）来完成你设定的目标。

“智能体”是一个程度概念，系统表现出以下行为越多，就越“智能体化”：

主动行动（而非等待提示）

自主制定计划（而非仅接受指令）

执行现实世界操作（如更新CRM、运行代码、评论工单，而非仅提供建议）

利用实时数据（如网络搜索、客服队列，而非依赖静态训练数据或手动上传文件）

创建自我反馈循环，监控自身输出并无需人工干预即可迭代。

氛围编程 (Vibe Coding)

这个概念源于 Andrej Karpathy 的一条推文。

指使用AI工具（如Cursor, Windsurf, Bolt, Lovable, v0, Replit等），通过用自然语言（即提示）描述你想要什么来构建应用，而不是直接手写代码。很多时候，你甚至不需要看生成的代码。

人工通用智能 (AGI - Artificial General Intelligence)

指AI具有“通用”的智能——不仅擅长编程、数学或数据分析等特定任务，更能出色地完成广泛的任务，并且无需专门训练就能学习解决新问题。

当人们谈论实现AGI时，通常指AI在大多数领域智能超过普通人类的节点。有人认为我们已经达到了这一点。

人工超级智能 (ASI - Artificial Superintelligence) 则是AGI的下一阶段——在几乎所有领域都远超最优秀人类智慧的AI。目前普遍认为尚未达到ASI，关于从AGI到ASI是快速还是缓慢飞跃也存在争论。

幻觉 (Hallucination)

指AI模型生成一个听起来很自信，但事实上错误或完全虚构的回应。

原因：模型并非真正“知道”事实或在数据库中查找信息。它是基于训练数据中的模式，预测最可能的下一个词元/单词来生成回应。当缺乏正确信息时，它可能会自信地用听起来合理但并非真实的内容填补空白。

好消息：新模型在减少幻觉方面越来越好，并且有成熟的策略（如使用RAG和优化提示工程）可以显著降低风险。

合成数据 (Synthetic Data)

背景：要训练更智能的模型，需要更多数据。但当模型已学习了整个互联网、所有书籍、录音、数据集等之后，如何提供更多数据？部分答案就是“合成”数据。

定义：人工生成的数据。它遵循与人类生成数据相同的模式和结构，并且令人惊讶的是，它在帮助模型学习方面同样有效。在真实数据有限、敏感或已耗尽时，合成数据极具价值。

生成方式（依数据类型而异）：

文本：提示LLM生成虚构的客服对话、医疗笔记或基于真实示例的数学题。

图像：扩散模型和GAN生成逼真的街景、X光片或产品图，无需复制真实图像。

音频：语音和声音模型合成模仿真实录音的语音、背景噪音或音乐。

对人而言，合成数据常与真实数据难以区分（例如，一段看似真实但完全由AI生成的聊天记录）。

AI 术语

推荐阅读更多精彩内容