第一课：Token、概率与上下文的内存模型

1. 核心概览 (Core Overview)

作为 Java 架构师，你习惯了 Objects、Threads 和 Locks。但在 LLM 的世界里，一切皆为概率。AI 并不理解“代码”或“逻辑”，它理解的是海量文本中词语出现的统计分布。学习 AI 的第一步，是理解数据如何变成“向量”，以及模型如何通过“注意力机制”在海量数据中建立联系。

2. 分段拆解 (Breakdown)

本质：语义相近的词，在向量空间中的空间距离更近。这解决了传统搜索“关键词匹配”的痛点，实现了“语义匹配”。

Temperature：控制输出的“发散程度”。
$T \rightarrow 0$ ：模型总是选概率最高的词（确定性高，适合写代码）。
$T \rightarrow 1$ ：模型会尝试低概率词（随机性高，适合创意）。
架构思考：在生产环境中，对于需要严谨格式（如 JSON）的任务，务必将 $T$ 设为 0。

内存模型：模型是“无状态”的（Stateless）。每一次对话，你都必须把之前的对话历史重新传给它。
瓶颈：窗口大小（如 128k）就像 JVM 的堆内存。如果超出，模型会“遗忘”之前的信息。在后续学习 Agent 时，我们将学习如何通过 RAG（检索增强生成）来突破这个“内存限制”。

第一课的核心在于：接受不确定性。LLM 是一个在海量数据中寻找“下一个字出现概率”的黑盒。我们作为架构师的任务，就是通过精准的 Prompt（指令）和参数配置（如 Temperature），将这种概率性转化为业务所需的确定性输出。

为了验证第一天的学习效果，请回答以下三个架构思维问题：

场景：你需要 AI 为你重构一段复杂的 Java 业务逻辑。你会将 Temperature 设为 0 还是 0.8？为什么？

概念：既然模型是无状态的（Stateless），为什么我们在网页端聊天时感觉它记得我说过的话？在后端 API 调用中，这需要开发者做什么？

计算：如果一个模型支持 8k 的上下文，而你的 Java 源代码文件有 10k Token，直接把代码塞进 Prompt 会发生什么？

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。