AI产品入门必懂的10个核心概念:一篇搞懂LLM、Token、Agent全体系

如果你最近开始接触 AI,很可能会遇到这样的问题:明明每天都在用 ChatGPT、豆包、通义千问,但一旦看到这些词就懵了:Token、Prompt、Context、Agent、RAG……它们看起来很“高级”,但你又说不清它们到底是什么、有什么用。问题就在这里:你不是不会用 AI,而是还没搞懂 AI 是怎么工作的。很多人学 AI 卡住,不是因为工具不会,而是底层认知没有建立。所以这篇文章,我会用尽量通俗的方式,帮你一次性搞懂 AI 体系中最核心的 10 个概念,让你:理解 AI 的底层运行逻辑、知道为什么 Prompt 会直接影响结果、搞清楚 Agent 到底厉害在哪、建立一套完整的 AI 认知框架。看完之后,你再去学任何 AI 工具,都会轻松很多。

一、LLM:AI 的“大脑”

LLM(Large Language Model),也就是我们常说的“大语言模型”。

像 ChatGPT、通义千问、豆包、AI写作工具,本质上都是 LLM。那它到底在做什么?一句话回答:通过学习海量文本数据,预测“下一个最可能出现的词”。很多人误以为 AI 是“理解问题 → 思考 → 回答”,但其实更接近:基于概率的连续文字生成。

举个简单例子,当你问:

周末去公园散步有什么好处?

模型的工作方式更像:

接收到你的问题后,它先根据语境,预测出第一个词:“经常”,重点来了!模型吐出“经常”这个词之后,它并不会停下来,它会把这个刚吐出来的“经常”这个词抓回来,追加到你刚才的那个输入的后面。然后它拿着这个新的输入,再去预测下一个字;以此类推;

基于“经常”这个前置文字,继续匹配最贴合的下一个词:去;

顺着“经常去”,再接下一个词:公园;

依托“经常去公园”,生成:散步;

基于前面的完整语句“经常去公园散步”,继续推导:能够;

再往下衔接“经常去公园散步,能够”:放松;

紧接着:身心;

就这样,每一个字、每一个词,都是基于前面已经生成的所有文字,预测 → 生成 → 加入上下文 → 再预测,最终串联成我们看到的完整回答:“经常去公园散步,能够放松身心,让整个人的状态变得更舒畅。”

简单来说,大模型不是在“思考”,而是在“预测”。它凭借文字关联规律,完成一场零失误、超流畅的全自动文字接龙,最终呈现出通顺、贴合问题的回复。这里插播一个知识点,几乎所有大模型都基于 Transformer 架构,你不需要深究原理,只需要记住一句话:它是现代 AI 的底层骨架。

二、Token:AI 的最小单位

在 AI 眼里,没有“字”或“单词”,只有 Token。Token = 模型处理文本的最小单位。

模型本身是不认识文字,只认识数字的,所以当我们输入一个问题或一段指令给模型会经历一个过程:文字 → Token → Token ID(数字),而这个由文字转换为数字 或数字转为文字是由 Tokenizer 完成,这过程也被称为编码/解码的过程。

把编码环节拆开看,这个过程分两步走,第一步,切分。把用户的问题接过来,把它拆成一个一个最小的片段,这些片段就叫做 Token。第二步,映射。由于模型只认数字,Tokenizer 会把每一个文字/单词切分成对应的 Token,再将 Token对应到一个数字上,这个数字就叫做 Token ID。Token ID 和 Token是一对一绑定的,Token是大模型能看懂的文字,Token ID是数字,二者其实本质上是一个意思,只不过是换了种表达方式而已。一个直观认知,1 Token ≈ 1~2 个汉字;1 Token ≈ 0.75 个英文单词,但不是严格对应关系。Open AI 提供过一个把文本转换为 Token的网页,感兴趣的童鞋可以去试一下。

三、Context:AI 的“临时记忆”

Context,中文翻译叫做上下文,指的是:模型在当前任务中“看到的所有信息”。包括:你的问题、历史对话、系统设定(System Prompt)、工具信息 以及正在生成的内容。

我们平时和大模型聊天,他好像能记住之前说过的话,那是因为每次请求时,系统会把历史对话一起发给模型。

所以它看起来“记住了”。Context 本质上我们可以把它理解为就是 AI 的“临时记忆”。

四、Context Window:容量上限

Context Window,中文翻译叫做上下文窗口,代表了模型一次最多能处理多少 Token。

例如,某模型的Context Window 为1万,就代表该模型最多能够处理一万个Token。当然市面上的大模型都有着非常大的Context Window,比如 GPT-5.4的 Context Window是105万,Gemini 3.1 pro 的 Context Window是100万,Claude Opus 4.6 的Context Window是100万。模型的Context Window 越大,能处理更长内容,但成本也会更高、速度也会相对慢一些,所以并不是越大越好,而是“够用就好”。

五、RAG:让 AI 学会“查资料”

RAG(Retrieval-Augmented Generation),中文翻译为 检索增强生成。当信息太多(比如整套数)时,不能直接全部喂给模型。这时候就需要 RAG(检索增强生成)。

当面对大量的内容,它会先检索相关内容,再交给模型回答。这样模型接到的就不是一整套书了,可能只是几段话,这样就不受Context Window 大小限制了,成本也会低很多。RAG可以理解为给 AI 加一个“搜索能力”。

六、Prompt:你给 AI 的指令

Prompt,中文翻译为提示词,就是你对 AI 说的话。

你向大模型提问,“帮我做一份美食菜谱”,这句话就是一个 Prompt。接到了这个指令后,大模型才会开始运转,给你一个对应的答案,但这里面会有个问题,就是如果你只是简单的说“帮我做一份美食菜谱”,大模型就会随便输出,生成的可能是家常菜、甜品、小吃随机搭配,因为大模型不会猜你想要什么,所以 Prompt怎么写,直接决定了大模型的输出质量。你说得越清楚,它答得越准确。还有食谱的例子,“帮我写一份家常番茄炒蛋的详细菜谱,口味偏清淡,适合新手小白,步骤简单,标注食材用量和烹饪时长。”这样的Prompt,大模型就清楚多了,生成的内容也会更符合你的预期。

在实际运用中,我们不仅要告诉大模型它要处理的具体任务,还要告诉它人设和做事规则,也就是告诉大模型它是谁,它应该按照什么规则做事,所以这就引出了两种不同的 Prompt。

说明具体任务的 User Prompt,中文为用户提示词,它是用户自己输入的。

说明人设和做事规则的 System Prompt,中文为系统提示词,它是开发者在后台配置的。

假设我们要做家装咨询机器人,希望它说话务实接地气,不推销昂贵轻奢装修,优先推荐简约省钱、好打理的装修方案。这时候就需要两种 Prompt。第一种就是 System Prompt,在后台配置,用户看不到,全程生效:“你是专业靠谱的家装顾问,回答装修问题时,不推荐昂贵奢华的设计,优先推荐简约实用、性价比高、日常好打扫的装修方案,语言通俗直白,只给出合理实用建议,不夸大宣传。”这段话是开发者提前设置好的,用来固定AI的身份、底线和回答风格,全程约束AI的行为。

第二种就是 User Prompt,是用户在对话框里直接输入的具体问题:“小户型客厅怎么装修好看?”大模型同时识别两个提示词,会这样思考:我的定位是务实的家装顾问,要主推省钱、简约、好打理的方案,不能推荐复杂又贵的设计。所以它不会推荐复杂吊顶、豪华背景墙、轻奢定制软装。而是会给出回答:小户型客厅建议简单双眼皮吊顶、浅色系墙面、精简家具,少做复杂造型,既省钱又显空间大,日常打扫也更轻松。如果没有 System Prompt 约束,大模型就会不分预算,乱推荐各种昂贵复杂的网红装修设计,脱离实际需求。正是有了 System Prompt 设定规则,搭配 User Prompt 的具体问题,两者配合,大模型的回答才能贴合要求,精准又实用。

七、Tool:让 AI 能“做事”

Tool,中文翻译为 工具。大模型本身有一个限制:无法直接获取现实世界信息,如实时天气、数据等。

你问大模型 “今天北京气温多少?”大模型一般会回复:不好意思,我查不到实时天气,我的知识只停留在过去某个时间,没法给你现在的真实天气。为什么会这样?其实大模型本质就是一个文字预测机器,只会根据学过的旧知识,往下接话、造句。它不能自己上网、不能查网站、不能看实时数据,完全摸不到外界的新鲜信息。那怎么才能让它查到天气、算出数据、查到快递呢?这就必须用到 Tool(工具)。Tool 本质就是一个现成的功能函数:你给它发条件,它就给你出结果。就拿天气工具来说,你只要输入城市、日期这两个信息,这个工具后台就会自动去对接气象数据接口,帮你查到真实天气,最后把结果返回来。有了工具的帮忙,大模型就能回答实时天气这类它原本不会的问题了。

接下来通过一个完整流程了解AI运行背后的逻辑:

你在对话框提出问题,先发给平台;

平台把你的问题,连同现在能用的所有工具列表(比如天气工具、计算器工具),一起发给大模型;

大模型一看就明白:用户要查天气,我自己没有实时数据,但刚好有天气工具能用;

重点来了:大模型自己没法直接启动工具,它只能写一段文字指令,写明要用哪个工具、填好城市日期这些参数,发给平台;

平台收到指令后,真正去启动调用天气工具,工具后台跑完程序,把准确的天气结果传回平台;

平台把天气结果再交给大模型;

大模型把冷冰冰的数据,整理成普通人听得懂的人话,比如 “今天北京晴天,气温 15 到 25 度”,再发给平台;

最后平台把这句话转发给你,你就看到答案了。

其实大模型,只做两件事,一是判断该用哪个工具、填好参数;二是拿到工具结果后,整理成通顺人话,它不会亲自调用工具。Tool 则是专门执行具体事项,例如查数据、做运算、联网查询都要靠它。平台,全程串联所有环节,给大模型推送工具列表、按指令启动工具,再给用户传递想要的答案,来回传递信息。

八、MCP:统一工具标准

MCP的全称是叫做 Model Context Protool,中文翻译叫做 模型上下文协议。MCP本质就是一套统一的工具接入标准。

我们上面讲了使用工具的全流程,但这里有个问题。第一,平台要把工具列表传给模型。第二,还要能调用工具。要做到这些,首先就得把工具接入到平台里面,这样平台才知道可用工具列表,以及每个工具的用途、参数和调用方法等等。那问题来了,这套接入的规范每个平台都不一样,如果你用的是ChatGPT,你得按照OpenAI的规范接入工具写一套接入代码。如果你用的是Claude,你得按照Anthropic的规范再写一套接入代码。如果你用的是Gemini,你得按照Google的规范再写一套。同一个工具你要写多遍,因为每个平台的接入标准都不一样,所以大家想搞一套统一的标准,让所有的平台都遵循。这样工具的开发者只需要写一次代码,就可以在所有的平台上使用了。这个就是MCP的价值。

九、Agent:真正“干活”的 AI

Agent,中文叫做智能体。如果说普通 AI,只能回答问题;那么Agen,就是可以拆解任务 + 调用工具 + 完成目标。

我们知道大模型能借助工具感知外部世界,而工具又可以使用MCP的方式来统一介入。那我尝试提问一个更复杂的问题:“帮我规划今晚的晚餐,看看我家周边有什么好评家常菜馆,顺便帮我查一下这家店现在需不需要排队、能不能线上取号。”

普通 AI只会单纯文字回答,但Agent智能体会像人一样自主分步思考、拆解任务。从大模型的视角来看,整个过程应该是:先思考用户核心诉求需要完成三件事,①定位用户的位置 ②查找周边高分家常菜馆 ③查询目标门店实时排队、线上取号服务。判断自身无法凭空回答,必须调用外部工具,开始规划执行步骤。

首先申请调用定位工具,大模型发出了工具调用指令,让平台去调用定位工具,获取用户所处位置的经纬度,然后平台就返回了工具结果,经度是-63度,纬度是51度。模型再次思考,拿到了位置,下一步就需要查询这个位置的美食点评信息了。大模型再一次向平台发出了指令,调用本地生活/美食点评工具,参数是经度-63度,纬度51度,周边,家常菜,高评分,正常营业。平台调用工具后返回结果:符合要求的优质家常菜馆店名、评分、距离、人均消费。模型再次思考有了店铺信息还需要查排队+线上取号信息,然后大模型再次向平台发出了工具调用指令,调用门店实时服务查询工具,查询内容:实时排队人数、到店等待时长、是否支持小程序线上取号、预约方式。大模型接收定位、餐馆列表、排队信息、取号规则所有数据,进行整合、整理、筛选,最终反馈给用户。这不再是一个简单的工具调用流程,在这个过程中大模型需要一步一步思考当前的情况,并决定下一步该做什么。

我们称 种能够 自主规划、自主调用工具直至完成用户任务 的系统为Agent。目前市面上有很多 Agent产品,比较流行的是包括 Claude Code、Codex、Gemini CLI等等。

十、Agent Skill:AI 的“技能包”

Agent Skill 可以理解为给 AI 的能力说明书。就像人会做饭、会查地图、会搜攻略,每一项本事就是一个 Skill。放到 AI 身上:定位查询、门店排队查询、日历查询、路线导航……每一个能单独干活的工具能力,单独拆分开,就是一个 Agent Skill。

普通 AI 只会聊天打字,干不了实际工作,而 AI Agent,就是靠装上各种各样的 Skill,才能落地帮人完成复杂生活琐事。在帮我安排一顿晚餐上,AI 一共调用了 3 项独立技能,定位技能:专门获取用户的当前所在位置;美食搜索技能:根据位置搜附近餐馆、看评分和菜系;门店查询技能:查店铺营业状态、排队情况、能否线上取号。每个技能只专心做一件事,分工清晰又环环相扣、接力干活。

我们还需了解 Agent Skill 是以 Markdown文档形式呈现,它是我们提前写好塞给 Agent 的说明文档。订餐的场景,就可以写成的一个Agent Skill,它的整体结构可以分成两部分,第一部分是叫做元数据层,它相当于这本说明文档的封面,告诉 Agent这个技能叫什么,是负责做什么事情的。这一部分至少要有两个属性,分别是name和description。Name 代表这个Agent Skill的名字,剩下的 description 就是描述。第二部分所有的内容都叫做指令层,这部分的格式不做具体要求,只要能把事情向 Agent 说明白就行,格式可以自己定,可以写上要完成的目标、执行步骤、判断规则、输出格式以及示例等等。

Agent Skill 的基本功能就是一个文档,一个给 Agent看的说明文档。当然 Agent Skill 还有很多高级的功能,比如说是运行代码,引用资源等等,它的渐进式披露机制也是一大特色,可以节省很多的 Token,感兴趣的同学可以自行了解。

最后总结一下,可以把整个 AI 体系这样理解:

LLM:大脑

Token:最小单位

Context:输入信息

Context Window:容量限制

Prompt:任务指令

Tool:执行能力

MCP:工具标准

Agent:执行系统

Skill:能力模块

以上就是我在学习 AI 过程中整理的一套基础认知框架,希望对你有所帮助。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容