AI产品入门必懂的10个核心概念：一篇搞懂LLM、Token、Agent全体系

如果你最近开始接触 AI，很可能会遇到这样的问题：明明每天都在用 ChatGPT、豆包、通义千问，但一旦看到这些词就懵了：Token、Prompt、Context、Agent、RAG……它们看起来很“高级”，但你又说不清它们到底是什么、有什么用。问题就在这里：你不是不会用 AI，而是还没搞懂 AI 是怎么工作的。很多人学 AI 卡住，不是因为工具不会，而是底层认知没有建立。所以这篇文章，我会用尽量通俗的方式，帮你一次性搞懂 AI 体系中最核心的 10 个概念，让你：理解 AI 的底层运行逻辑、知道为什么 Prompt 会直接影响结果、搞清楚 Agent 到底厉害在哪、建立一套完整的 AI 认知框架。看完之后，你再去学任何 AI 工具，都会轻松很多。

一、LLM：AI 的“大脑”

LLM（Large Language Model），也就是我们常说的“大语言模型”。

像 ChatGPT、通义千问、豆包、AI写作工具，本质上都是 LLM。那它到底在做什么？一句话回答：通过学习海量文本数据，预测“下一个最可能出现的词”。很多人误以为 AI 是“理解问题 → 思考 → 回答”，但其实更接近：基于概率的连续文字生成。

举个简单例子，当你问：

周末去公园散步有什么好处？

模型的工作方式更像：

接收到你的问题后，它先根据语境，预测出第一个词：“经常”，重点来了！模型吐出“经常”这个词之后，它并不会停下来，它会把这个刚吐出来的“经常”这个词抓回来，追加到你刚才的那个输入的后面。然后它拿着这个新的输入，再去预测下一个字；以此类推；

基于“经常”这个前置文字，继续匹配最贴合的下一个词：去；

顺着“经常去”，再接下一个词：公园；

依托“经常去公园”，生成：散步；

基于前面的完整语句“经常去公园散步”，继续推导：能够；

再往下衔接“经常去公园散步，能够”：放松；

紧接着：身心；

就这样，每一个字、每一个词，都是基于前面已经生成的所有文字，预测 → 生成 → 加入上下文 → 再预测，最终串联成我们看到的完整回答：“经常去公园散步，能够放松身心，让整个人的状态变得更舒畅。”

简单来说，大模型不是在“思考”，而是在“预测”。它凭借文字关联规律，完成一场零失误、超流畅的全自动文字接龙，最终呈现出通顺、贴合问题的回复。这里插播一个知识点，几乎所有大模型都基于 Transformer 架构，你不需要深究原理，只需要记住一句话：它是现代 AI 的底层骨架。

二、Token：AI 的最小单位

在 AI 眼里，没有“字”或“单词”，只有 Token。Token = 模型处理文本的最小单位。

模型本身是不认识文字，只认识数字的，所以当我们输入一个问题或一段指令给模型会经历一个过程：文字 → Token → Token ID（数字），而这个由文字转换为数字或数字转为文字是由 Tokenizer 完成，这过程也被称为编码/解码的过程。

把编码环节拆开看，这个过程分两步走，第一步，切分。把用户的问题接过来，把它拆成一个一个最小的片段，这些片段就叫做 Token。第二步，映射。由于模型只认数字，Tokenizer 会把每一个文字/单词切分成对应的 Token，再将 Token对应到一个数字上，这个数字就叫做 Token ID。Token ID 和 Token是一对一绑定的，Token是大模型能看懂的文字，Token ID是数字，二者其实本质上是一个意思，只不过是换了种表达方式而已。一个直观认知，1 Token ≈ 1~2 个汉字；1 Token ≈ 0.75 个英文单词，但不是严格对应关系。Open AI 提供过一个把文本转换为 Token的网页，感兴趣的童鞋可以去试一下。

三、Context：AI 的“临时记忆”

Context，中文翻译叫做上下文，指的是：模型在当前任务中“看到的所有信息”。包括：你的问题、历史对话、系统设定（System Prompt）、工具信息以及正在生成的内容。

我们平时和大模型聊天，他好像能记住之前说过的话，那是因为每次请求时，系统会把历史对话一起发给模型。

所以它看起来“记住了”。Context 本质上我们可以把它理解为就是 AI 的“临时记忆”。

四、Context Window：容量上限

Context Window，中文翻译叫做上下文窗口，代表了模型一次最多能处理多少 Token。

例如，某模型的Context Window 为1万，就代表该模型最多能够处理一万个Token。当然市面上的大模型都有着非常大的Context Window，比如 GPT-5.4的 Context Window是105万，Gemini 3.1 pro 的 Context Window是100万，Claude Opus 4.6 的Context Window是100万。模型的Context Window 越大，能处理更长内容，但成本也会更高、速度也会相对慢一些，所以并不是越大越好，而是“够用就好”。

五、RAG：让 AI 学会“查资料”

RAG（Retrieval-Augmented Generation），中文翻译为检索增强生成。当信息太多（比如整套数）时，不能直接全部喂给模型。这时候就需要 RAG（检索增强生成）。

当面对大量的内容，它会先检索相关内容，再交给模型回答。这样模型接到的就不是一整套书了，可能只是几段话，这样就不受Context Window 大小限制了，成本也会低很多。RAG可以理解为给 AI 加一个“搜索能力”。

六、Prompt：你给 AI 的指令

Prompt，中文翻译为提示词，就是你对 AI 说的话。

你向大模型提问，“帮我做一份美食菜谱”，这句话就是一个 Prompt。接到了这个指令后，大模型才会开始运转，给你一个对应的答案，但这里面会有个问题，就是如果你只是简单的说“帮我做一份美食菜谱”，大模型就会随便输出，生成的可能是家常菜、甜品、小吃随机搭配，因为大模型不会猜你想要什么，所以 Prompt怎么写，直接决定了大模型的输出质量。你说得越清楚，它答得越准确。还有食谱的例子，“帮我写一份家常番茄炒蛋的详细菜谱，口味偏清淡，适合新手小白，步骤简单，标注食材用量和烹饪时长。”这样的Prompt，大模型就清楚多了，生成的内容也会更符合你的预期。

在实际运用中，我们不仅要告诉大模型它要处理的具体任务，还要告诉它人设和做事规则，也就是告诉大模型它是谁，它应该按照什么规则做事，所以这就引出了两种不同的 Prompt。

说明具体任务的 User Prompt，中文为用户提示词，它是用户自己输入的。

说明人设和做事规则的 System Prompt，中文为系统提示词，它是开发者在后台配置的。

假设我们要做家装咨询机器人，希望它说话务实接地气，不推销昂贵轻奢装修，优先推荐简约省钱、好打理的装修方案。这时候就需要两种 Prompt。第一种就是 System Prompt，在后台配置，用户看不到，全程生效：“你是专业靠谱的家装顾问，回答装修问题时，不推荐昂贵奢华的设计，优先推荐简约实用、性价比高、日常好打扫的装修方案，语言通俗直白，只给出合理实用建议，不夸大宣传。”这段话是开发者提前设置好的，用来固定AI的身份、底线和回答风格，全程约束AI的行为。

第二种就是 User Prompt，是用户在对话框里直接输入的具体问题：“小户型客厅怎么装修好看？”大模型同时识别两个提示词，会这样思考：我的定位是务实的家装顾问，要主推省钱、简约、好打理的方案，不能推荐复杂又贵的设计。所以它不会推荐复杂吊顶、豪华背景墙、轻奢定制软装。而是会给出回答：小户型客厅建议简单双眼皮吊顶、浅色系墙面、精简家具，少做复杂造型，既省钱又显空间大，日常打扫也更轻松。如果没有 System Prompt 约束，大模型就会不分预算，乱推荐各种昂贵复杂的网红装修设计，脱离实际需求。正是有了 System Prompt 设定规则，搭配 User Prompt 的具体问题，两者配合，大模型的回答才能贴合要求，精准又实用。

七、Tool：让 AI 能“做事”

Tool，中文翻译为工具。大模型本身有一个限制：无法直接获取现实世界信息，如实时天气、数据等。

你问大模型 “今天北京气温多少？”大模型一般会回复：不好意思，我查不到实时天气，我的知识只停留在过去某个时间，没法给你现在的真实天气。为什么会这样？其实大模型本质就是一个文字预测机器，只会根据学过的旧知识，往下接话、造句。它不能自己上网、不能查网站、不能看实时数据，完全摸不到外界的新鲜信息。那怎么才能让它查到天气、算出数据、查到快递呢？这就必须用到 Tool（工具）。Tool 本质就是一个现成的功能函数：你给它发条件，它就给你出结果。就拿天气工具来说，你只要输入城市、日期这两个信息，这个工具后台就会自动去对接气象数据接口，帮你查到真实天气，最后把结果返回来。有了工具的帮忙，大模型就能回答实时天气这类它原本不会的问题了。

接下来通过一个完整流程了解AI运行背后的逻辑：

你在对话框提出问题，先发给平台；

平台把你的问题，连同现在能用的所有工具列表（比如天气工具、计算器工具），一起发给大模型；

大模型一看就明白：用户要查天气，我自己没有实时数据，但刚好有天气工具能用；

重点来了：大模型自己没法直接启动工具，它只能写一段文字指令，写明要用哪个工具、填好城市日期这些参数，发给平台；

平台收到指令后，真正去启动调用天气工具，工具后台跑完程序，把准确的天气结果传回平台；

平台把天气结果再交给大模型；

大模型把冷冰冰的数据，整理成普通人听得懂的人话，比如 “今天北京晴天，气温 15 到 25 度”，再发给平台；

最后平台把这句话转发给你，你就看到答案了。

其实大模型，只做两件事，一是判断该用哪个工具、填好参数；二是拿到工具结果后，整理成通顺人话，它不会亲自调用工具。Tool 则是专门执行具体事项，例如查数据、做运算、联网查询都要靠它。平台，全程串联所有环节，给大模型推送工具列表、按指令启动工具，再给用户传递想要的答案，来回传递信息。

八、MCP：统一工具标准

MCP的全称是叫做 Model Context Protool，中文翻译叫做模型上下文协议。MCP本质就是一套统一的工具接入标准。

我们上面讲了使用工具的全流程，但这里有个问题。第一，平台要把工具列表传给模型。第二，还要能调用工具。要做到这些，首先就得把工具接入到平台里面，这样平台才知道可用工具列表，以及每个工具的用途、参数和调用方法等等。那问题来了，这套接入的规范每个平台都不一样，如果你用的是ChatGPT，你得按照OpenAI的规范接入工具写一套接入代码。如果你用的是Claude，你得按照Anthropic的规范再写一套接入代码。如果你用的是Gemini，你得按照Google的规范再写一套。同一个工具你要写多遍，因为每个平台的接入标准都不一样，所以大家想搞一套统一的标准，让所有的平台都遵循。这样工具的开发者只需要写一次代码，就可以在所有的平台上使用了。这个就是MCP的价值。

九、Agent：真正“干活”的 AI

Agent，中文叫做智能体。如果说普通 AI，只能回答问题；那么Agen，就是可以拆解任务 + 调用工具 + 完成目标。

我们知道大模型能借助工具感知外部世界，而工具又可以使用MCP的方式来统一介入。那我尝试提问一个更复杂的问题：“帮我规划今晚的晚餐，看看我家周边有什么好评家常菜馆，顺便帮我查一下这家店现在需不需要排队、能不能线上取号。”

普通 AI只会单纯文字回答，但Agent智能体会像人一样自主分步思考、拆解任务。从大模型的视角来看，整个过程应该是：先思考用户核心诉求需要完成三件事，①定位用户的位置 ②查找周边高分家常菜馆 ③查询目标门店实时排队、线上取号服务。判断自身无法凭空回答，必须调用外部工具，开始规划执行步骤。

首先申请调用定位工具，大模型发出了工具调用指令，让平台去调用定位工具，获取用户所处位置的经纬度，然后平台就返回了工具结果，经度是-63度，纬度是51度。模型再次思考，拿到了位置，下一步就需要查询这个位置的美食点评信息了。大模型再一次向平台发出了指令，调用本地生活/美食点评工具，参数是经度-63度，纬度51度，周边，家常菜，高评分，正常营业。平台调用工具后返回结果：符合要求的优质家常菜馆店名、评分、距离、人均消费。模型再次思考有了店铺信息还需要查排队+线上取号信息，然后大模型再次向平台发出了工具调用指令，调用门店实时服务查询工具，查询内容：实时排队人数、到店等待时长、是否支持小程序线上取号、预约方式。大模型接收定位、餐馆列表、排队信息、取号规则所有数据，进行整合、整理、筛选，最终反馈给用户。这不再是一个简单的工具调用流程，在这个过程中大模型需要一步一步思考当前的情况，并决定下一步该做什么。

我们称种能够自主规划、自主调用工具直至完成用户任务的系统为Agent。目前市面上有很多 Agent产品，比较流行的是包括 Claude Code、Codex、Gemini CLI等等。

十、Agent Skill：AI 的“技能包”

Agent Skill 可以理解为给 AI 的能力说明书。就像人会做饭、会查地图、会搜攻略，每一项本事就是一个 Skill。放到 AI 身上：定位查询、门店排队查询、日历查询、路线导航……每一个能单独干活的工具能力，单独拆分开，就是一个 Agent Skill。

普通 AI 只会聊天打字，干不了实际工作，而 AI Agent，就是靠装上各种各样的 Skill，才能落地帮人完成复杂生活琐事。在帮我安排一顿晚餐上，AI 一共调用了 3 项独立技能，定位技能：专门获取用户的当前所在位置；美食搜索技能：根据位置搜附近餐馆、看评分和菜系；门店查询技能：查店铺营业状态、排队情况、能否线上取号。每个技能只专心做一件事，分工清晰又环环相扣、接力干活。

我们还需了解 Agent Skill 是以 Markdown文档形式呈现，它是我们提前写好塞给 Agent 的说明文档。订餐的场景，就可以写成的一个Agent Skill，它的整体结构可以分成两部分，第一部分是叫做元数据层，它相当于这本说明文档的封面，告诉 Agent这个技能叫什么，是负责做什么事情的。这一部分至少要有两个属性，分别是name和description。Name 代表这个Agent Skill的名字，剩下的 description 就是描述。第二部分所有的内容都叫做指令层，这部分的格式不做具体要求，只要能把事情向 Agent 说明白就行，格式可以自己定，可以写上要完成的目标、执行步骤、判断规则、输出格式以及示例等等。

Agent Skill 的基本功能就是一个文档，一个给 Agent看的说明文档。当然 Agent Skill 还有很多高级的功能，比如说是运行代码，引用资源等等，它的渐进式披露机制也是一大特色，可以节省很多的 Token，感兴趣的同学可以自行了解。

最后总结一下，可以把整个 AI 体系这样理解：

LLM：大脑

Token：最小单位

Context：输入信息

Context Window：容量限制

Prompt：任务指令

Tool：执行能力

MCP：工具标准

Agent：执行系统

Skill：能力模块

以上就是我在学习 AI 过程中整理的一套基础认知框架，希望对你有所帮助。

AI产品入门必懂的10个核心概念：一篇搞懂LLM、Token、Agent全体系

AI产品入门必懂的10个核心概念：一篇搞懂LLM、Token、Agent全体系

相关阅读更多精彩内容

友情链接更多精彩内容