大模型原理分析

大模型整体架构
  1. 基础层:为大模型提供硬件支撑,数据支持等
    例如A100、数据服务器等等。

  2. 数据层
    这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集

  3. 模型层:LLm或多模态模型
    LLm这个大家应该都知道,large-language-model,也就是大语言模型,例如GPT,一般使用transformer算法来实现。

多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与llm不同,用的是图文或声音等多模态的数据集

  1. 平台层:模型与应用间的平台部分
    比如大模型的评测体系,或者langchain平台等,提供模型与应用间的组成部分

  2. 表现层:也就是应用层,用户实际看到的地方
    这个就很好理解了

你可以把大模型想象成一个博览群书、天赋异禀的实习生:
  • 预训练就像它在大学里通读互联网上所有的书籍和资料,积累了海量的知识,但还不会实际干活。
  • 微调和对齐就像上岗培训,由资深工程师(人类反馈)指导它:“客户这么问的时候,你应该这样回答,而不是那样回答”,让它变得专业、可靠。
  • 推理生成就像它面对客户问题时,快速在脑中翻阅所有学过的知识,然后组织语言,一步一步地给出回答。

Transformer:

Transformer目标是:是通过预测出现概率最高的下一个词,来实现文本生成的,这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词,输入框就开始预测后面的文本,概率越高的排在越上面。

  • Transformer 和注意力机制就是它过目不忘且能瞬间抓住重点的超强大脑结构。

第一步:转换为计算机可以计算的向量Token。中文的每个字,被理解为是文本的一个基本单位,翻译成不同的token。是指将输入文本分解为更小的单位,例如单词、字母或字符。在自然语言处理中,将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时,它会被分解成多个Token,这个过程被称为Tokenier。短单词可能每个词是一个token,长单词可能被拆成多个token。每个token会被用一个整数数字表示,这个数字被叫做token ID。这是因为,计算机内部是无法储存文字的,任何字符最终都得用数字来表示。有了数字表示的输入文本后,再把它传入嵌入层。如下是官网提供的Tokenization示意图。

第二步:Embedding嵌入层。其作用是让每个token都用向量表示,向量可以被简单的看为一串数字,举例:假设把向量长度简化为1-521,实际中向量长度可以非常长。为什么要用一串数字表示token?重要原因是,一串数字能表达的含义是大于一个数字的,能包含更多语法、语义信息等等。

第三步:位置编码。Transformer的一项关键机制是位置编码。在语言里,顺序很重要,即使句子里包含的字都是一样的,但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词,因为它表示一系列按照特定顺序排序的元素。前面提到,RNN和人类阅读文本一样,对输入序列同样是按顺序依次处理,这就造成了训练速度的瓶颈,因为只能串行,没办法并行,也就是没法同时去学习所有信息。Transformer把词输入给神经网络前,除了会先对词进行嵌入转换成向量,也就是把词用一串数字表示,它会把每个词在句子中的位置也各用一串数字表示,添加到输入序列的表示中,然后把这个结果给神经网络,模型既可以理解每个词的意义,又能够捕获词在句子中的位置。从而,理解不同词之间的顺序关系。借助位置编码,可以不按顺序输入给Transformer模型,可以同时处理输入序列里的所有位置,而不需要像RNN那样依次处理。那么,在计算时每个输出都可以独立的计算,不需要等待其他位置的计算,结果这大大提高了训练速度。训练速度一快,训练出巨大的模型也不是这么难了。

第五步:解码器。它是大语言模型生成一个个词的关键。通过前面的编码器,我们有了输入序列里各个token的抽象表示,可以把它传给解码器。解码器还会先接收一个特殊值,这个值表示输出序列的开头。这样做的原因是,解码器不仅会把来自编码器的输入序列的抽象表示作为输入,还会把之前已经生成的,来保持输出的连贯性和上下文相关性。一般来说,模型会选择概率最高的token作为下一个输出。因此,解码器就是预测下一个输出的token,就像GPT的功能类似。

幻觉(Hallucination)是指在自然语言处理和文本生成领域,大型AI模型有时会生成虚构的、不真实或不合理的信息,而不是基于输入数据的准确信息。这种现象类似于人类产生幻觉,即看到或感知不存在的事物。

GPT的各个产品演进:

特性 GPT-1 GPT-2 GPT-3 GPT-4
发布年份 2018 2019 2020 2023
参数量 1.17 亿 15 亿 1750 亿 未公布 (推测 ~1.8 万亿)
训练数据量 约 5GB 40GB 45TB 未公布 (更庞大、更高质量)
核心特点 Proof of Concept
奠定生成式基础
Scaling Up
发现零样本能力
规模即能力
涌现与上下文学习
迈向AGI
多模态与一致性
关键创新 Transformer解码器
无监督预训练+有监督微调
更大规模
零样本任务迁移
海量参数
In-Context Learning
多模态
预测扩展
强化学习对齐
能力水平 能生成连贯文本,但能力有限、不稳定。 能生成高质量文本,但逻辑和事实性仍常出错。 突破性能力
翻译、问答、编程等,仅通过提示就能完成。
强大且可靠
更复杂的推理,更少的错误,能处理图像输入。
参考链接:

https://blog.csdn.net/Peter_Changyb/article/details/137537844

https://www.woshipm.com/share/6099217.html

https://www.wehelpwin.com/article/4387

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容