大模型原理分析

大模型整体架构

基础层：为大模型提供硬件支撑，数据支持等
例如A100、数据服务器等等。
数据层
这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集
模型层：LLm或多模态模型
LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。

多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集

平台层：模型与应用间的平台部分
比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分
表现层：也就是应用层，用户实际看到的地方
这个就很好理解了

你可以把大模型想象成一个博览群书、天赋异禀的实习生：

预训练就像它在大学里通读互联网上所有的书籍和资料，积累了海量的知识，但还不会实际干活。
微调和对齐就像上岗培训，由资深工程师（人类反馈）指导它：“客户这么问的时候，你应该这样回答，而不是那样回答”，让它变得专业、可靠。
推理生成就像它面对客户问题时，快速在脑中翻阅所有学过的知识，然后组织语言，一步一步地给出回答。

Transformer:

Transformer目标是：是通过预测出现概率最高的下一个词，来实现文本生成的，这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词，输入框就开始预测后面的文本，概率越高的排在越上面。

Transformer 和注意力机制就是它过目不忘且能瞬间抓住重点的超强大脑结构。

第一步：转换为计算机可以计算的向量Token。中文的每个字，被理解为是文本的一个基本单位，翻译成不同的token。是指将输入文本分解为更小的单位，例如单词、字母或字符。在自然语言处理中，将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时，它会被分解成多个Token，这个过程被称为Tokenier。短单词可能每个词是一个token，长单词可能被拆成多个token。每个token会被用一个整数数字表示，这个数字被叫做token ID。这是因为，计算机内部是无法储存文字的，任何字符最终都得用数字来表示。有了数字表示的输入文本后，再把它传入嵌入层。如下是官网提供的Tokenization示意图。

第二步：Embedding嵌入层。其作用是让每个token都用向量表示，向量可以被简单的看为一串数字，举例：假设把向量长度简化为1-521，实际中向量长度可以非常长。为什么要用一串数字表示token？重要原因是，一串数字能表达的含义是大于一个数字的，能包含更多语法、语义信息等等。

第三步：位置编码。Transformer的一项关键机制是位置编码。在语言里，顺序很重要，即使句子里包含的字都是一样的，但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词，因为它表示一系列按照特定顺序排序的元素。前面提到，RNN和人类阅读文本一样，对输入序列同样是按顺序依次处理，这就造成了训练速度的瓶颈，因为只能串行，没办法并行，也就是没法同时去学习所有信息。Transformer把词输入给神经网络前，除了会先对词进行嵌入转换成向量，也就是把词用一串数字表示，它会把每个词在句子中的位置也各用一串数字表示，添加到输入序列的表示中，然后把这个结果给神经网络，模型既可以理解每个词的意义，又能够捕获词在句子中的位置。从而，理解不同词之间的顺序关系。借助位置编码，可以不按顺序输入给Transformer模型，可以同时处理输入序列里的所有位置，而不需要像RNN那样依次处理。那么，在计算时每个输出都可以独立的计算，不需要等待其他位置的计算，结果这大大提高了训练速度。训练速度一快，训练出巨大的模型也不是这么难了。

第五步：解码器。它是大语言模型生成一个个词的关键。通过前面的编码器，我们有了输入序列里各个token的抽象表示，可以把它传给解码器。解码器还会先接收一个特殊值，这个值表示输出序列的开头。这样做的原因是，解码器不仅会把来自编码器的输入序列的抽象表示作为输入，还会把之前已经生成的，来保持输出的连贯性和上下文相关性。一般来说，模型会选择概率最高的token作为下一个输出。因此，解码器就是预测下一个输出的token，就像GPT的功能类似。

幻觉（Hallucination）是指在自然语言处理和文本生成领域，大型AI模型有时会生成虚构的、不真实或不合理的信息，而不是基于输入数据的准确信息。这种现象类似于人类产生幻觉，即看到或感知不存在的事物。

GPT的各个产品演进：

特性	GPT-1	GPT-2	GPT-3	GPT-4
发布年份	2018	2019	2020	2023
参数量	1.17 亿	15 亿	1750 亿	未公布 (推测 ~1.8 万亿)
训练数据量	约 5GB	40GB	45TB	未公布 (更庞大、更高质量)
核心特点	Proof of Concept 奠定生成式基础	Scaling Up 发现零样本能力	规模即能力涌现与上下文学习	迈向AGI 多模态与一致性
关键创新	Transformer解码器无监督预训练+有监督微调	更大规模零样本任务迁移	海量参数 In-Context Learning	多模态预测扩展强化学习对齐
能力水平	能生成连贯文本，但能力有限、不稳定。	能生成高质量文本，但逻辑和事实性仍常出错。	突破性能力翻译、问答、编程等，仅通过提示就能完成。	强大且可靠更复杂的推理，更少的错误，能处理图像输入。

参考链接：

https://blog.csdn.net/Peter_Changyb/article/details/137537844

https://www.woshipm.com/share/6099217.html

https://www.wehelpwin.com/article/4387