LLM及GPT知识点

工欲善其事必先利其器,在了解大语言模型和GPT之前先要了解基本概念。

  1. LLM
    Large Language Model (LLM) 即大型语言模型,也叫大语言模型,是一种基于深度学习的自然语言处理(NLP)模型,它能够学习自然语言的语法和语义,从而生成人类可读的文本。
    所谓「语言模型」,就是用于处理语言文字(或者符号体系,编程语言)的 AI 模型,发现其中规律,可以根据提示(prompt),自动生成符合语言规律的内容。
    LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、文本翻译、语音识别等。
    例如,时下火爆的 ChatGPT 就是基于 OpenAI 开发的 GPT (Generative Pre-trained Transformer)模型,而 GPT 模型就是一种 LLM 模型。
  2. GPT
    GPT的全称是Generative Pre-Trained Transformer(生成式预训练Transformer模型)是一种基于[互联网]的、可用数据来训练的、文本生成的深度学习模型。GPT能处理的任务包括:
    NLU:Natural Language Understanding,NLG:Natural Language Generating。
    GPT 是如何工作的?
    GPT 即 Generative Pre-trained Transformer,直译为「生成式预训练转换器」。是由OpenAI 提出的一种基于 Transformer 模型的强大神经网络语言模型。
    而 Transformer 模型 Google 提出的一种基于自注意力机制来提高训练速度的神经网络模型,用于处理输入序列之间长距离依赖关系。通常由多个编码器(encoder)和解码器(decoder)组成(Transformer 模型详细信息可以参考:十分钟理解 Transformer)。
    GPT 的工作通常分为两个阶段:预训练阶段(pre-trainning)和微调阶段(fine-tune)。
    预训练阶段:GPT 利用大量未标注的语料(如网上的文章、维基百科、书籍、社交媒体等)来训练语言模型。通常是把文本转换成 token(这个过程称为:Tokenization,OpenAI 使用的 Tokenization 算法叫:BPE),
    然后再把 token 通过多层 Transformer 转换成一系列向量表示形式,这个过程叫 Embedding,生成的向量是一系列浮点数,表示 token 的含义以及 token 的上下文信息。最终文本会被转换成一个由向量组成的矩阵,即向量数据库(Vector Database),其中每一行对应于一个 token 的向量表示。
    预训练得到的向量数据库包含了大量的语言知识和表示能力,可以作为自然语言或编程语言处理任务的重要基础,例如在文本分类、生成、理解等各种任务中都能发挥重要作用。
    微调阶段:GPT 对预训练好的语言模型进行微调,将其迁移到各种有监督的 NLP 任务,并对参数进行 fine tune。有监督的 NLP 任务指的是需要标注数据(例如问题和答案)来进行训练和评估的任务。
    当 GPT 处理文本时,首先会把文本转换成 token,然后再把 token 通过多层 Transformer 转换成一系列向量表示形式,即 Embedding,然后在预训练中生成的向量数据库中进行处理,生成输出文本上每个位置的向量表示,并将其作为下一步的生成输入,最终生成有所有的输出。
    在输出生成过程中,GPT 还使用了一种称为自回归模型(Autoregressive Model)的技术。自回归模型是指在生成序列时,每个时刻只考虑之前生成的内容,而不考虑后面未生成的内容。这意味着每个序列值都依赖于之前的值,因此生成的序列会具有连贯性和逻辑性。
  3. Transformer
    transformer是一个利用注意力机制来提高模型训练速度的模型。trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。
    那什么是transformer呢?
    你可以简单理解为它是一个黑盒子,当我们在做文本翻译任务是,我输入进去一个中文,经过这个黑盒子之后,输出来翻译过后的英文。



    那么在这个黑盒子里面都有什么呢?

    里面主要有两部分组成:Encoder 和 Decoder。

    当我输入一个文本的时候,该文本数据会先经过一个叫Encoders的模块,对该文本进行编码,然后将编码后的数据再传入一个叫Decoders的模块进行解码,解码后就得到了翻译后的文本,对应的我们称Encoders为编码器,Decoders为解码器。
    那么编码器和解码器里边又都是些什么呢?
    细心的同学可能已经发现了,上图中的Decoders后边加了个s,那就代表有多个编码器了呗,没错,这个编码模块里边,有很多小的编码器,一般情况下,Encoders里边有6个小编码器,同样的,Decoders里边有6个小解码器。

    我们看到,在编码部分,每一个的小编码器的输入是前一个小编码器的输出,而每一个小解码器的输入不光是它的前一个解码器的输出,还包括了整个编码部分的输出。
  4. 预训练模型
    自带的最原始模型叫预训练模型,可以根据前文预测下一个字。它使用特殊的神经网络模型transformer来训练,训练数据来源于海量的互联网数据。
  5. fine tuning
    微调,为了让模型能够根据人们的指令进行输出,我们进行微调,得到的模型叫instructGPT。为了让模型能够跟人对话,我们同样进行微调出来的模型就是类似chatGPT这样的模型,OpenAI也开放了fine tuning的接口来微调自己的模型,但自己提供的用于微调的数据相对于预训练模型的数据微乎其微,所以做了微调不能增加模型的知识,一般只是用来做分类、输出格式调整(如问出生年份,就不要要把月日也带上)。
    在模型调优中,SFT(Supervised Fine-Tuning)是指使用预先训练好的模型,并在少量带标签的数据上进行微调的技术。这种技术常用于深度学习领域,特别是自然语言处理任务。
    在模型调优中,**SFT的流程**通常包括以下步骤:
    a. 选取预训练模型:选择一个预先训练好的模型作为基础模型,例如BERT、GPT等。
    b. 准备数据:准备一个小规模的带标签的数据集,这些数据应该与你要解决的具体任务相关。
    c. 冻结模型参数:在预训练模型的基础上,冻结除了最后一层之外的所有参数,这些参数在微调过程中不会发生改变。
    d. 训练最后一层:使用带标签的数据集训练模型的最后一层,使其适应特定的任务。
    e. 微调整个模型:解冻所有冻结的参数,并使用带标签的数据集对整个模型进行微调。
    f. 评估模型性能:使用测试集评估微调后的模型性能,确保模型在测试集上表现良好。
    SFT在模型调优中的应用可以帮助提高模型的性能和准确性,使其更好地适应特定的任务或领域。这种技术在大规模预训练模型的基础上,通过利用少量的带标签数据,能够快速有效地对模型进行微调,从而在各种自然语言处理任务中取得良好的效果。
  6. embedding
    可以做问答系统或者让chatGPT有记忆,也是就是输入你的知识库或者历史记录,当你提问的时候,GPT能快速找到资料和你的问题一起输入给chatGPT,广义的embedding包括embedding模型、embedding数据库、embedding距离计算等内容。OpenAI也开放了相关API可上传相关资料。
  7. 提示词prompt
    输入给chatGPT的内容就是提示词,技巧包括:让她扮演角色(如小学老师不要以科学家口吻回答)、举例子(few shot)、chain of thought思维链、tree of thought等,提示词是否足够好直接影响输出的质量,所以也就有了提示词工程这个说法。
  8. 自治系统
    自己管理自己的系统不需要人工干预,需要把各种外部工具、GPT模型、embedding模型、embedding数据库、prompt模板结合起来形成流水线。可以使用langchain框架设计自己的系统,也可以使用现成的如:autoGPT、babyAGI或者网页版的agentGPT。
  9. 多模态
    GPT多数是提及的是基于文本这个模态,还有些模型是支持其他模态的,如语言、绘图、视频等模态。GPT4就是多模态模型。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容