什么是大型语言模型？

引言

在本文中，我们将从高层次概述大型语言模型 (LLM) 的具体含义。

背景

2023年11月，我偶然间听闻了OpenAI的开发者大会，这个大会展示了人工智能领域的革命性进展，让我深深着迷。怀着对这一领域的浓厚兴趣，我加入了ChatGPT，并很快被激发了学习其背后的大型语言模型（LLMs）技术的热情。然而，像许多人一样，我对LLMs一窍不通，不知道如何入门。

模型定义

大型语言模型（LLMs），例如ChatGPT，正在成为当今技术界的热门话题。根据维基百科，LLM的定义是：LLM是一种因其能够实现通用语言理解和生成而著称的语言模型。它们通过在计算密集型的自我监督和半监督训练过程中学习文本文档的统计关系，从而获得这些能力。LLM是采用变换器架构的人工神经网络。

换句话说：LLMs通过在包括书籍、网站和用户生成内容在内的大量文本数据集上进行训练，能够以一种自然的方式生成延续初始提示的新文本。

LLM模型本质上是一个参数众多的神经网络。简单来说，参数越多，模型的性能通常越好。因此，我们经常听到关于模型大小的讨论，这实际上是指其参数的数量。比如，GPT-3拥有1750亿个参数，而GPT-4的参数数量可能超过1万亿。

但模型具体长什么样呢？

语言模型只是一个二进制文件：

上图中，参数文件是Meta的Llama-2–70b模型，大小为140GB，包含70b个参数（数字格式）。 run.c文件是推理程序，用于查询模型。训练这些超大型模型是非常昂贵的。训练像 GPT-3 这样的模型需要花费数百万美元。

目前，表现最为卓越的模型 GPT-4 已经不再是单一的模型，而是多个模型的集合体。这些模型各自针对特定领域进行了训练或微调，它们在推理时相互协作，以实现最优的性能表现。

不过，无需担心，我们的目标是掌握大型语言模型的基础理论。幸运的是，我们完全可以在自己的个人电脑上，用参数数量少得多的模型进行训练。

模型推理

当模型训练完毕并准备就绪后，用户用问题查询模型，问题文本将传递到该 140GB 文件中并逐个字符进行处理，然后返回最相关的文本作为结果输出。

最相关的意思是模型将返回最有可能是输入文本的下一个字符的文本。例如，

> Input: "I like to eat"
> Output: "apple"

"apple" 被预测为接下来的单词，这是因为在模型训练所用的大量数据中，"I like to eat" 后面最常跟随的就是 "apple"。

我们之前提到的书籍和网站，现在可以这样理解：基于我们提供的数据片段，模型学习到 "I like to eat apple" 是一个频繁出现的句子。而 "I like to eat banana" 也是一个常见的句子，但出现频率没有前者高。

在模型训练时，它：记录了 "apple" 在 "I like to eat" 后面出现的概率为 0.375. 记录了 "banana" 在 "I like to eat" 后面出现的概率为 0.146 和 … 其他单词的概率记录 …

这些概率值实际上被保存在模型文件中，形成了概率集合。（在机器学习中，这些概率通常被称作权重。）简而言之，LLM模型就像是一个概率数据库，它能够为任何特定的字符以及其上下文相关的字符赋予一定的概率分布。

在2017年之前，这样的技术听起来还像是天方夜谭。然而，自从论文《Attention is all you need》发表之后，Transformer 架构的出现，使得通过训练神经网络处理庞大的数据集，实现对上下文的深入理解成为现实。

模型架构

在大型语言模型（LLM）诞生之前，神经网络的机器学习确实只能使用较小的数据集，对于文本的上下文理解能力十分有限。这导致早期的模型无法像人类那样深入理解文本。

该论文最初发表时，是为了训练用于语言翻译的模型。但OpenAI的团队意识到，Transformer 架构是实现字符预测的关键技术。一旦模型经过整个互联网数据的训练，它就可能像人类一样，理解任何文本的上下文，并流畅地完成句子。

下面是一个图解，描述了模型训练过程中的内部机制：

初次接触时我们可能不太明白，但别担心，我们将在随后的文章中逐步解释清楚。

本文由mdnice多平台发布

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

什么是大型语言模型 ？

引言

背景

模型定义

模型推理

模型架构

推荐阅读更多精彩内容

什么是大型语言模型？