大模型整体架构

基础层:为大模型提供硬件支撑,数据支持等
例如A100、数据服务器等等。数据层
这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集模型层:LLm或多模态模型
LLm这个大家应该都知道,large-language-model,也就是大语言模型,例如GPT,一般使用transformer算法来实现。
多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与llm不同,用的是图文或声音等多模态的数据集
平台层:模型与应用间的平台部分
比如大模型的评测体系,或者langchain平台等,提供模型与应用间的组成部分表现层:也就是应用层,用户实际看到的地方
这个就很好理解了
你可以把大模型想象成一个博览群书、天赋异禀的实习生:
- 预训练就像它在大学里通读互联网上所有的书籍和资料,积累了海量的知识,但还不会实际干活。
- 微调和对齐就像上岗培训,由资深工程师(人类反馈)指导它:“客户这么问的时候,你应该这样回答,而不是那样回答”,让它变得专业、可靠。
- 推理生成就像它面对客户问题时,快速在脑中翻阅所有学过的知识,然后组织语言,一步一步地给出回答。
Transformer:
Transformer目标是:是通过预测出现概率最高的下一个词,来实现文本生成的,这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词,输入框就开始预测后面的文本,概率越高的排在越上面。
- Transformer 和注意力机制就是它过目不忘且能瞬间抓住重点的超强大脑结构。
第一步:转换为计算机可以计算的向量Token。中文的每个字,被理解为是文本的一个基本单位,翻译成不同的token。是指将输入文本分解为更小的单位,例如单词、字母或字符。在自然语言处理中,将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时,它会被分解成多个Token,这个过程被称为Tokenier。短单词可能每个词是一个token,长单词可能被拆成多个token。每个token会被用一个整数数字表示,这个数字被叫做token ID。这是因为,计算机内部是无法储存文字的,任何字符最终都得用数字来表示。有了数字表示的输入文本后,再把它传入嵌入层。如下是官网提供的Tokenization示意图。

第二步:Embedding嵌入层。其作用是让每个token都用向量表示,向量可以被简单的看为一串数字,举例:假设把向量长度简化为1-521,实际中向量长度可以非常长。为什么要用一串数字表示token?重要原因是,一串数字能表达的含义是大于一个数字的,能包含更多语法、语义信息等等。
第三步:位置编码。Transformer的一项关键机制是位置编码。在语言里,顺序很重要,即使句子里包含的字都是一样的,但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词,因为它表示一系列按照特定顺序排序的元素。前面提到,RNN和人类阅读文本一样,对输入序列同样是按顺序依次处理,这就造成了训练速度的瓶颈,因为只能串行,没办法并行,也就是没法同时去学习所有信息。Transformer把词输入给神经网络前,除了会先对词进行嵌入转换成向量,也就是把词用一串数字表示,它会把每个词在句子中的位置也各用一串数字表示,添加到输入序列的表示中,然后把这个结果给神经网络,模型既可以理解每个词的意义,又能够捕获词在句子中的位置。从而,理解不同词之间的顺序关系。借助位置编码,可以不按顺序输入给Transformer模型,可以同时处理输入序列里的所有位置,而不需要像RNN那样依次处理。那么,在计算时每个输出都可以独立的计算,不需要等待其他位置的计算,结果这大大提高了训练速度。训练速度一快,训练出巨大的模型也不是这么难了。
第五步:解码器。它是大语言模型生成一个个词的关键。通过前面的编码器,我们有了输入序列里各个token的抽象表示,可以把它传给解码器。解码器还会先接收一个特殊值,这个值表示输出序列的开头。这样做的原因是,解码器不仅会把来自编码器的输入序列的抽象表示作为输入,还会把之前已经生成的,来保持输出的连贯性和上下文相关性。一般来说,模型会选择概率最高的token作为下一个输出。因此,解码器就是预测下一个输出的token,就像GPT的功能类似。
幻觉(Hallucination)是指在自然语言处理和文本生成领域,大型AI模型有时会生成虚构的、不真实或不合理的信息,而不是基于输入数据的准确信息。这种现象类似于人类产生幻觉,即看到或感知不存在的事物。
GPT的各个产品演进:
| 特性 | GPT-1 | GPT-2 | GPT-3 | GPT-4 |
|---|---|---|---|---|
| 发布年份 | 2018 | 2019 | 2020 | 2023 |
| 参数量 | 1.17 亿 | 15 亿 | 1750 亿 | 未公布 (推测 ~1.8 万亿) |
| 训练数据量 | 约 5GB | 40GB | 45TB | 未公布 (更庞大、更高质量) |
| 核心特点 | Proof of Concept 奠定生成式基础 |
Scaling Up 发现零样本能力 |
规模即能力 涌现与上下文学习 |
迈向AGI 多模态与一致性 |
| 关键创新 | Transformer解码器 无监督预训练+有监督微调 |
更大规模 零样本任务迁移 |
海量参数 In-Context Learning |
多模态 预测扩展 强化学习对齐 |
| 能力水平 | 能生成连贯文本,但能力有限、不稳定。 | 能生成高质量文本,但逻辑和事实性仍常出错。 |
突破性能力 翻译、问答、编程等,仅通过提示就能完成。 |
强大且可靠 更复杂的推理,更少的错误,能处理图像输入。 |
参考链接:
https://blog.csdn.net/Peter_Changyb/article/details/137537844