身处技术前沿,想必您每天都会接触到铺天盖地的AI术语。也许您对其中的一些概念“似懂非懂”…… 这种感觉很正常。为了帮助大家更清晰地理解这些高频出现的词汇,我整理了一份“小白也能懂”的AI术语解释清单。这份清单源于我个人的理解、大量的资料研究以及身边AI专家朋友们的反馈。
如果您已经是行家里手,这篇内容可能对您过于基础。但对于其他人,不妨收藏这份清单,下次会议中再听到那些让人应接不暇的AI行话时,就能轻松跟上节奏了。随着新术语的涌现,我也会持续更新这份列表。
核心概念
模型 (Model)
简单说:AI模型是一个模拟人脑工作方式的计算机程序。你给它输入(称为“提示”),它经过处理,就能生成回应。
如何“学习”?就像一个孩子,模型通过接触大量人们在各种情境下如何反应或行为的示例来学习。随着接触的样本越来越多,它开始识别模式、理解语言并生成连贯的回应。
类型多样:
大语言模型 (LLM - Large Language Model):专注于理解和生成人类可读文本的模型,如 ChatGPT, Claude, Gemini, Llama, Grok, DeepSeek, Mistral。它们是当前AI对话的核心。
视频模型:如 Google Veo, OpenAI Sora, Runway Gen-4,专门生成视频。
语音模型:如 ElevenLabs, Cartesia, Suno,生成逼真语音。
传统模型:如用于欺诈检测的“分类模型”(Classification Model),用于搜索引擎、信息流和广告的“排序模型”(Ranking Model),用于数值预测的“回归模型”(Regression Model)。
大语言模型 (LLM)
顾名思义,核心是处理“语言”(Language),理解和生成文本。
重要趋势:多模态 (Multimodal):如今主流LLM(如 ChatGPT 系列)已进化为能同时处理文本、图像、音频等多种内容的模型。例如,GPT-4o 中的 “o” 代表“全能”(Omni),意味着它能接受文本、音频和图像的任意组合输入。
Transformer 架构
这是由谷歌研究人员在2017年提出的算法突破,是现代AI(尤其是LLM)得以实现的关键。
核心机制:注意力 (Attention):它让模型不再局限于逐字顺序阅读文本,而是能同时“关注”所有单词之间的关系。这极大地提升了模型理解含义、上下文和细微差别的能力。
并行优势:Transformer架构高度并行化,能同时处理序列的多个部分。这使得通过扩大数据量和算力来训练更大、更智能的模型成为可能。正是这一突破,让我们从简单的聊天机器人跃升到了如今复杂的AI助手。几乎当前所有主流AI模型(ChatGPT, Claude等)都构建在Transformer架构之上。
模型是如何“炼成”的?
训练/预训练 (Training/Pre-training)
过程:模型通过分析海量数据(如互联网内容、书籍、音视频等)来学习。训练顶尖模型往往耗时数周甚至数月,处理TB级数据,耗资巨大。
LLM 的核心方法:下一个词预测 (Next-token Prediction):模型被输入数十亿条隐藏了最后一个“词元”(Token)(类似单词,见下文)的文本序列,学习预测下一个该出现的词。
内部调整:权重 (Weights):训练过程中,模型不断调整其内部数百万个称为“权重”的参数(类似于人脑神经元的连接强度)。预测正确则强化相关权重,错误则进行调整。这个过程让模型逐渐掌握事实、语法、推理和不同语境下的语言运用。
监督学习 (Supervised Learning)
模型在“标注”数据上训练,即数据带有正确答案。例如,给模型大量标记为“垃圾邮件”或“非垃圾邮件”的邮件,让它学习区分模式,从而能分类新邮件。
主流LLM的方式:自监督学习 (Self-supervised Learning):模型不依赖人工标注,而是通过自行隐藏句子最后一个词元并预测它来创建标签。这使其能从海量原始文本中学习,无需手动注释。
无监督学习 (Unsupervised Learning)
模型接收无标签、无答案的数据。其任务是自行发现模式或结构,例如将相似的新闻分组或检测数据集中的异常模式。常用于异常检测、聚类、主题建模等探索性任务。
让模型更“好用”
后训练 (Post-training)
指在基础训练完成后,为使模型更实用而采取的额外步骤,主要包括“微调”和“RLHF”。
微调 (Fine-tuning)
一种后训练技术:在已训练好的模型基础上,使用特定领域的数据进行额外训练,使其在特定任务上表现更优。
例如:在公司客服对话数据上微调,让模型学会符合品牌风格的回应;在医学文献上微调,提升其回答医疗问题的能力;在教育内容上微调,打造能按年级解释概念的辅导助手。
微调调整模型的内部权重,使其针对特定用例优化回应,同时保留预训练中获得的一般知识。
基于人类反馈的强化学习 (RLHF - Reinforcement Learning from Human Feedback)
一种超越“下一个词预测”和微调的后训练技术,核心目标是教会AI模型按照人类的期望行事——使其更安全、更有帮助、更符合人类意图(即“对齐”Alignment)。
过程分两步:
训练奖励模型 (Reward Model):人类评估员比较模型输出的优劣对,训练出一个能预测人类偏好的“奖励模型”。
强化学习:AI模型通过试错学习。它生成回应,由奖励模型(而非直接由人类)根据其对人类偏好的预测打分(给予“奖励”)。模型在此阶段努力“取悦”奖励模型以获得更高分。
提示工程 (Prompt Engineering)
这是一门艺术和科学:如何精心设计问题(即“提示”),以获得AI模型更优、更有用的回应。就像与人交谈,提问方式的不同会带来截然不同的答案。同一个模型,提示不同,回应大异。
两类提示:
对话提示 (Conversational Prompts):你与 ChatGPT/Claude/Gemini 对话时输入的提示。
系统/产品提示 (System/Product Prompts):开发者嵌入产品后台的指令,用于塑造AI产品的行为方式。
检索增强生成 (RAG - Retrieval-augmented Generation)
一种技术,让模型在运行时能访问其训练数据之外的新信息。相当于让模型进行“开卷考试”,而非仅凭记忆作答。
工作流程:当你提问(如“本月销售额与上月相比如何?”),一个检索系统会搜索你的数据库、文档和知识库,找到相关信息。这些检索到的数据作为上下文添加到你的原始提示中,形成“增强提示”供模型处理,从而得到更优、更准确的答案。
模型产生幻觉(胡编乱造)的一个常见原因,就是没有通过RAG为其提供必要的上下文。
总结关键流程:
预训练 (Pre-training):赋予模型通用知识(和语言能力)。
微调 (Fine-tuning):让模型专精于特定任务。
RLHF:使模型行为与人类偏好对齐。
提示工程 (Prompt Engineering):设计更好的输入,引导模型产生最有用的输出。
RAG:在运行时从外部源检索额外相关信息,为模型提供其训练数据中不存在的、最新的或特定任务相关的上下文。
其他重要术语
推理 (Inference)
指模型“运行”并生成结果的过程。当你向ChatGPT提问并得到回复时,这就是推理。
模型上下文协议 (MCP - Model Context Protocol)
一个近期发布的开源标准,旨在让AI模型能够轻松、可靠、安全地与外部工具(如日历、CRM系统、Slack、代码库)交互。
MCP还赋予AI通过这些工具执行操作的能力(如更新Salesforce客户记录、在Slack发送消息、安排会议、甚至向GitHub提交代码)。
AI协议标准仍在发展中,存在其他竞争提案(如Google的A2A、BeeAI/IBM的ACP)。
生成式 AI (Gen AI - Generative AI)
指能够生成全新内容(如文本、图像、代码、音频、视频)的AI系统。与之相对的是仅用于分析或分类数据的模型(如垃圾邮件检测、欺诈分析、图像识别模型)。
生成式预训练Transformer (GPT - Generative Pre-trained Transformer)
“GPT”概括了像ChatGPT、Claude、Llama、Grok等顶尖LLM背后的三大关键要素:
生成式 (Generative):不仅能分类/分析,更能生成新内容。
预训练 (Pre-trained):首先通过海量文本进行通用语言模式学习,之后可针对特定任务微调。
Transformer:使其能理解语言上下文、关系和含义的突破性架构。
这三者的结合,造就了ChatGPT等工具在广泛任务中展现出的智能性、连贯性和惊人实用性。
词元 (Token)
模型理解文本的基本单位。对LLM而言,一个词元有时是一个词,但常常只是词的一部分(图像模型有“图块”Patches,语音模型有“帧”Frames)。
例如,“ChatGPT is smart.” 可能被拆解为词元:Chat, GPT, is, smart, .。即使“ChatGPT”是一个词,模型也将其拆解为更小的部分,使语言学习更高效灵活。
智能体 (Agent)
指被设计用来代表你执行行动以达成目标的AI系统。
与Claude或ChatGPT等“一问一答”的聊天机器人不同,智能体能够规划、分步工作、并使用外部工具(常跨多个应用或服务)来完成你设定的目标。
“智能体”是一个程度概念,系统表现出以下行为越多,就越“智能体化”:
主动行动(而非等待提示)
自主制定计划(而非仅接受指令)
执行现实世界操作(如更新CRM、运行代码、评论工单,而非仅提供建议)
利用实时数据(如网络搜索、客服队列,而非依赖静态训练数据或手动上传文件)
创建自我反馈循环,监控自身输出并无需人工干预即可迭代。
氛围编程 (Vibe Coding)
这个概念源于 Andrej Karpathy 的一条推文。
指使用AI工具(如Cursor, Windsurf, Bolt, Lovable, v0, Replit等),通过用自然语言(即提示)描述你想要什么来构建应用,而不是直接手写代码。很多时候,你甚至不需要看生成的代码。
人工通用智能 (AGI - Artificial General Intelligence)
指AI具有“通用”的智能——不仅擅长编程、数学或数据分析等特定任务,更能出色地完成广泛的任务,并且无需专门训练就能学习解决新问题。
当人们谈论实现AGI时,通常指AI在大多数领域智能超过普通人类的节点。有人认为我们已经达到了这一点。
人工超级智能 (ASI - Artificial Superintelligence) 则是AGI的下一阶段——在几乎所有领域都远超最优秀人类智慧的AI。目前普遍认为尚未达到ASI,关于从AGI到ASI是快速还是缓慢飞跃也存在争论。
幻觉 (Hallucination)
指AI模型生成一个听起来很自信,但事实上错误或完全虚构的回应。
原因:模型并非真正“知道”事实或在数据库中查找信息。它是基于训练数据中的模式,预测最可能的下一个词元/单词来生成回应。当缺乏正确信息时,它可能会自信地用听起来合理但并非真实的内容填补空白。
好消息:新模型在减少幻觉方面越来越好,并且有成熟的策略(如使用RAG和优化提示工程)可以显著降低风险。
合成数据 (Synthetic Data)
背景:要训练更智能的模型,需要更多数据。但当模型已学习了整个互联网、所有书籍、录音、数据集等之后,如何提供更多数据?部分答案就是“合成”数据。
定义:人工生成的数据。它遵循与人类生成数据相同的模式和结构,并且令人惊讶的是,它在帮助模型学习方面同样有效。在真实数据有限、敏感或已耗尽时,合成数据极具价值。
生成方式(依数据类型而异):
文本:提示LLM生成虚构的客服对话、医疗笔记或基于真实示例的数学题。
图像:扩散模型和GAN生成逼真的街景、X光片或产品图,无需复制真实图像。
音频:语音和声音模型合成模仿真实录音的语音、背景噪音或音乐。
对人而言,合成数据常与真实数据难以区分(例如,一段看似真实但完全由AI生成的聊天记录)。