AI 术语

身处技术前沿,想必您每天都会接触到铺天盖地的AI术语。也许您对其中的一些概念“似懂非懂”…… 这种感觉很正常。为了帮助大家更清晰地理解这些高频出现的词汇,我整理了一份“小白也能懂”的AI术语解释清单。这份清单源于我个人的理解、大量的资料研究以及身边AI专家朋友们的反馈。

如果您已经是行家里手,这篇内容可能对您过于基础。但对于其他人,不妨收藏这份清单,下次会议中再听到那些让人应接不暇的AI行话时,就能轻松跟上节奏了。随着新术语的涌现,我也会持续更新这份列表。

核心概念

模型 (Model)

简单说:AI模型是一个模拟人脑工作方式的计算机程序。你给它输入(称为“提示”),它经过处理,就能生成回应。

如何“学习”?就像一个孩子,模型通过接触大量人们在各种情境下如何反应或行为的示例来学习。随着接触的样本越来越多,它开始识别模式、理解语言并生成连贯的回应。

类型多样:

大语言模型 (LLM - Large Language Model):专注于理解和生成人类可读文本的模型,如 ChatGPT, Claude, Gemini, Llama, Grok, DeepSeek, Mistral。它们是当前AI对话的核心。

视频模型:如 Google Veo, OpenAI Sora, Runway Gen-4,专门生成视频。

语音模型:如 ElevenLabs, Cartesia, Suno,生成逼真语音。

传统模型:如用于欺诈检测的“分类模型”(Classification Model),用于搜索引擎、信息流和广告的“排序模型”(Ranking Model),用于数值预测的“回归模型”(Regression Model)。

大语言模型 (LLM)

顾名思义,核心是处理“语言”(Language),理解和生成文本。

重要趋势:多模态 (Multimodal):如今主流LLM(如 ChatGPT 系列)已进化为能同时处理文本、图像、音频等多种内容的模型。例如,GPT-4o 中的 “o” 代表“全能”(Omni),意味着它能接受文本、音频和图像的任意组合输入。

Transformer 架构

这是由谷歌研究人员在2017年提出的算法突破,是现代AI(尤其是LLM)得以实现的关键。

核心机制:注意力 (Attention):它让模型不再局限于逐字顺序阅读文本,而是能同时“关注”所有单词之间的关系。这极大地提升了模型理解含义、上下文和细微差别的能力。

并行优势:Transformer架构高度并行化,能同时处理序列的多个部分。这使得通过扩大数据量和算力来训练更大、更智能的模型成为可能。正是这一突破,让我们从简单的聊天机器人跃升到了如今复杂的AI助手。几乎当前所有主流AI模型(ChatGPT, Claude等)都构建在Transformer架构之上。

模型是如何“炼成”的?

训练/预训练 (Training/Pre-training)

过程:模型通过分析海量数据(如互联网内容、书籍、音视频等)来学习。训练顶尖模型往往耗时数周甚至数月,处理TB级数据,耗资巨大。

LLM 的核心方法:下一个词预测 (Next-token Prediction):模型被输入数十亿条隐藏了最后一个“词元”(Token)(类似单词,见下文)的文本序列,学习预测下一个该出现的词。

内部调整:权重 (Weights):训练过程中,模型不断调整其内部数百万个称为“权重”的参数(类似于人脑神经元的连接强度)。预测正确则强化相关权重,错误则进行调整。这个过程让模型逐渐掌握事实、语法、推理和不同语境下的语言运用。

监督学习 (Supervised Learning)

模型在“标注”数据上训练,即数据带有正确答案。例如,给模型大量标记为“垃圾邮件”或“非垃圾邮件”的邮件,让它学习区分模式,从而能分类新邮件。

主流LLM的方式:自监督学习 (Self-supervised Learning):模型不依赖人工标注,而是通过自行隐藏句子最后一个词元并预测它来创建标签。这使其能从海量原始文本中学习,无需手动注释。

无监督学习 (Unsupervised Learning)

模型接收无标签、无答案的数据。其任务是自行发现模式或结构,例如将相似的新闻分组或检测数据集中的异常模式。常用于异常检测、聚类、主题建模等探索性任务。

让模型更“好用”

后训练 (Post-training)

指在基础训练完成后,为使模型更实用而采取的额外步骤,主要包括“微调”和“RLHF”。

微调 (Fine-tuning)

一种后训练技术:在已训练好的模型基础上,使用特定领域的数据进行额外训练,使其在特定任务上表现更优。

例如:在公司客服对话数据上微调,让模型学会符合品牌风格的回应;在医学文献上微调,提升其回答医疗问题的能力;在教育内容上微调,打造能按年级解释概念的辅导助手。

微调调整模型的内部权重,使其针对特定用例优化回应,同时保留预训练中获得的一般知识。

基于人类反馈的强化学习 (RLHF - Reinforcement Learning from Human Feedback)

一种超越“下一个词预测”和微调的后训练技术,核心目标是教会AI模型按照人类的期望行事——使其更安全、更有帮助、更符合人类意图(即“对齐”Alignment)。

过程分两步:

训练奖励模型 (Reward Model):人类评估员比较模型输出的优劣对,训练出一个能预测人类偏好的“奖励模型”。

强化学习:AI模型通过试错学习。它生成回应,由奖励模型(而非直接由人类)根据其对人类偏好的预测打分(给予“奖励”)。模型在此阶段努力“取悦”奖励模型以获得更高分。

提示工程 (Prompt Engineering)

这是一门艺术和科学:如何精心设计问题(即“提示”),以获得AI模型更优、更有用的回应。就像与人交谈,提问方式的不同会带来截然不同的答案。同一个模型,提示不同,回应大异。

两类提示:

对话提示 (Conversational Prompts):你与 ChatGPT/Claude/Gemini 对话时输入的提示。

系统/产品提示 (System/Product Prompts):开发者嵌入产品后台的指令,用于塑造AI产品的行为方式。

检索增强生成 (RAG - Retrieval-augmented Generation)

一种技术,让模型在运行时能访问其训练数据之外的新信息。相当于让模型进行“开卷考试”,而非仅凭记忆作答。

工作流程:当你提问(如“本月销售额与上月相比如何?”),一个检索系统会搜索你的数据库、文档和知识库,找到相关信息。这些检索到的数据作为上下文添加到你的原始提示中,形成“增强提示”供模型处理,从而得到更优、更准确的答案。

模型产生幻觉(胡编乱造)的一个常见原因,就是没有通过RAG为其提供必要的上下文。

总结关键流程:

预训练 (Pre-training):赋予模型通用知识(和语言能力)。

微调 (Fine-tuning):让模型专精于特定任务。

RLHF:使模型行为与人类偏好对齐。

提示工程 (Prompt Engineering):设计更好的输入,引导模型产生最有用的输出。

RAG:在运行时从外部源检索额外相关信息,为模型提供其训练数据中不存在的、最新的或特定任务相关的上下文。

其他重要术语

推理 (Inference)

指模型“运行”并生成结果的过程。当你向ChatGPT提问并得到回复时,这就是推理。

模型上下文协议 (MCP - Model Context Protocol)

一个近期发布的开源标准,旨在让AI模型能够轻松、可靠、安全地与外部工具(如日历、CRM系统、Slack、代码库)交互。

MCP还赋予AI通过这些工具执行操作的能力(如更新Salesforce客户记录、在Slack发送消息、安排会议、甚至向GitHub提交代码)。

AI协议标准仍在发展中,存在其他竞争提案(如Google的A2A、BeeAI/IBM的ACP)。

生成式 AI (Gen AI - Generative AI)

指能够生成全新内容(如文本、图像、代码、音频、视频)的AI系统。与之相对的是仅用于分析或分类数据的模型(如垃圾邮件检测、欺诈分析、图像识别模型)。

生成式预训练Transformer (GPT - Generative Pre-trained Transformer)

“GPT”概括了像ChatGPT、Claude、Llama、Grok等顶尖LLM背后的三大关键要素:

生成式 (Generative):不仅能分类/分析,更能生成新内容。

预训练 (Pre-trained):首先通过海量文本进行通用语言模式学习,之后可针对特定任务微调。

Transformer:使其能理解语言上下文、关系和含义的突破性架构。

这三者的结合,造就了ChatGPT等工具在广泛任务中展现出的智能性、连贯性和惊人实用性。

词元 (Token)

模型理解文本的基本单位。对LLM而言,一个词元有时是一个词,但常常只是词的一部分(图像模型有“图块”Patches,语音模型有“帧”Frames)。

例如,“ChatGPT is smart.” 可能被拆解为词元:Chat, GPT,  is,  smart, .。即使“ChatGPT”是一个词,模型也将其拆解为更小的部分,使语言学习更高效灵活。

智能体 (Agent)

指被设计用来代表你执行行动以达成目标的AI系统。

与Claude或ChatGPT等“一问一答”的聊天机器人不同,智能体能够规划、分步工作、并使用外部工具(常跨多个应用或服务)来完成你设定的目标。

“智能体”是一个程度概念,系统表现出以下行为越多,就越“智能体化”:

主动行动(而非等待提示)

自主制定计划(而非仅接受指令)

执行现实世界操作(如更新CRM、运行代码、评论工单,而非仅提供建议)

利用实时数据(如网络搜索、客服队列,而非依赖静态训练数据或手动上传文件)

创建自我反馈循环,监控自身输出并无需人工干预即可迭代。

氛围编程 (Vibe Coding)

这个概念源于 Andrej Karpathy 的一条推文。

指使用AI工具(如Cursor, Windsurf, Bolt, Lovable, v0, Replit等),通过用自然语言(即提示)描述你想要什么来构建应用,而不是直接手写代码。很多时候,你甚至不需要看生成的代码。

人工通用智能 (AGI - Artificial General Intelligence)

指AI具有“通用”的智能——不仅擅长编程、数学或数据分析等特定任务,更能出色地完成广泛的任务,并且无需专门训练就能学习解决新问题。

当人们谈论实现AGI时,通常指AI在大多数领域智能超过普通人类的节点。有人认为我们已经达到了这一点。

人工超级智能 (ASI - Artificial Superintelligence) 则是AGI的下一阶段——在几乎所有领域都远超最优秀人类智慧的AI。目前普遍认为尚未达到ASI,关于从AGI到ASI是快速还是缓慢飞跃也存在争论。

幻觉 (Hallucination)

指AI模型生成一个听起来很自信,但事实上错误或完全虚构的回应。

原因:模型并非真正“知道”事实或在数据库中查找信息。它是基于训练数据中的模式,预测最可能的下一个词元/单词来生成回应。当缺乏正确信息时,它可能会自信地用听起来合理但并非真实的内容填补空白。

好消息:新模型在减少幻觉方面越来越好,并且有成熟的策略(如使用RAG和优化提示工程)可以显著降低风险。

合成数据 (Synthetic Data)

背景:要训练更智能的模型,需要更多数据。但当模型已学习了整个互联网、所有书籍、录音、数据集等之后,如何提供更多数据?部分答案就是“合成”数据。

定义:人工生成的数据。它遵循与人类生成数据相同的模式和结构,并且令人惊讶的是,它在帮助模型学习方面同样有效。在真实数据有限、敏感或已耗尽时,合成数据极具价值。

生成方式(依数据类型而异):

文本:提示LLM生成虚构的客服对话、医疗笔记或基于真实示例的数学题。

图像:扩散模型和GAN生成逼真的街景、X光片或产品图,无需复制真实图像。

音频:语音和声音模型合成模仿真实录音的语音、背景噪音或音乐。

对人而言,合成数据常与真实数据难以区分(例如,一段看似真实但完全由AI生成的聊天记录)。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容