论文阅读_ChatGLM


name_en: GLM-130B: AN OPEN BILINGUAL PRE-TRAINED
name_ch: Glm-130B:开放双语预训练模型
paper_addr: https://arxiv.org/abs/2210.02414
doi: 10.48550/arXiv.2210.02414
date_read: 2023-03-23
date_publish: 2023-01-01
tags: ['深度学习','自然语言处理']
author: Aohan Zeng
code: https://github.com/THUDM/GLM-130B/
citation: 4


读后感

2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B 是亚洲唯一入选的大模型。 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。
ChatGLM最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的int4服务,实测回答一般性问题效果还不错,文后附环境搭建方法。

摘要

ChatGLM是使用中英双语预训练的大语言模型,具有130B参数(1300亿),使用400B token训练。
在模型结构上结合了GPT和BERT。在英文方面,效果优于GPT-3;在中文方面,优于260B参数的ERNIE TITAN 3.0。可在4×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPUs 环境下运行。

介绍

论文提出:通用语言模型General Language Model (GLM) ,主要使用的技术是:双向注意力和自回归空白填充目标。嵌入梯度收缩策略可以显著提升GLM - 130B的训练稳定性。

方法

结构

GLM架构

与GPT,PaLM等模型使用Transformer的解码器方式不同,GLM-130B使用了一种双向通用语言模型(GLM)作为其Backbone。模型结构详见论文:Glm: General language model pretraining with autoregressive blank infilling (2022).

GLM是一种基于Transformer的语言模型,它以自回归空白填充为训练目标。简而言之,对于一个文本序列x=[x1, · · · ,xn],从其中采样文本span{s1,· · ·,sm},其中每个si表示连续令牌的跨度,并用单个掩码替换si,要求模型对它们进行自回归恢复。与GPT类模型不同的是,它在不Mask的位置使用双向注意力,因此它混合了两种Mask,以支持理解和生成:

[MASK]:句子中的短空白,长度加总到输入的某一部分
[gMASK]:随机长度的长空白,加在提供前缀上下文的句子末尾

理论上,双向注意力的空白填充目标比GPT风格的模型能够更有效地理解语境:当使用 MASK 时,GLM- 130B表现类似BERT和T5;当使用 gMASK 时,GLM - 130B表现出与 PrefixLM 相似的性质。

GLM - 130B在零样本LAMBADA上取得了80.2 %的高准确率,优于图2中的GPT - 3和PaLM 540B。

归一化方法

归一化有助于提升模型训练的稳定性,文中使用了2022年提出的DeepNorm方法(详见论文 :Deepnet: Scaling transformers to 1,000 layers),其公式为:
DeepNorm(x) = LayerNorm(α · x + Network(x))
α = (2N )^{\frac{1}{2}}
其中N为层数。此方法有效地提升了训练稳定性。

位置编码和前馈网络

对于GLM - 130B中的位置编码采用旋转位置编码(RoPE),并选择GeLU激活函数以优化FFN。

训练设置

GLM - 130B预训练目标不仅包括自监督的GLM自回归空白填充,还包括对小部分token的多任务学习,以提升其下游zero-shot任务的性能。

自监督空白填充(95%)

同时使用了 MASK 和 gMASK,每个序列使用其中一种。具体来说,MASK用于在30 %的训练序列中掩盖连续的Token以进行空白填充。对于其他70%的序列,保留每个序列的前缀作为上下文,并使用gMASK来掩盖其余序列训练。
预训练数据包括1.2 T英语、1.0 T的中文悟道语料库,以及从网络爬取的250G中文语料库(包括在线论坛、百科全书和QA),形成了平衡的英汉内容构成。

多任务指导预训练(MIP,5%)

预训练中加入包括语言理解、生成和信息提取在内的多种指令提示数据集训练模型。

并行训练和模型配置

在96个DGX - A100 GPU ( 8 × 40G )服务器集群上进行了60天的训练。将pipline模型并行与其他两种策略结合形成了3D并行策略。

模型训练的稳定性

需要在精度和稳定间保持平衡,低精度的FP格式提高了计算效率,但容易出现溢出错误,导致训练崩溃。

混合精度

FP16用于前向和后向,FP32用于优化器状态和主权重,以减少GPU内存使用,提高训练效率。

嵌入层梯度收缩

实验表明,梯度范数可以作为训练崩溃的信息指标。具体来说,训练崩溃通常滞后于梯度范数中的"尖峰"几个训练步。发现嵌入层的梯度收缩可以克服损失尖峰,从而稳定GLM - 130B的训练。

在 Rtx 2080 TI 上使用模型推理

在保持FP16激活精度的同时,重点关注模型权重的量化。量化后的模型在运行时动态转换为FP16精度,引入了较小的计算开销,大大降低了存储模型权重的GPU内存使用量。文中成功地实现了GLM - 130B的INT4权重量化,目前模型已发布,可下载使用。

实验

与英文模型比较:

与中文模型比较:

实战——环境搭建

ChatGLM-6B 是一个具有62亿参数的中英双语语言模型,由大模型量化后得到,代码+模型一共只有几个G大小。

下载代码和模型

由于我家机器性能有限,就下载了int4模型,约占空间5G左右,运行时占GPU内存5G左右。

$ git clone https://github.com/THUDM/ChatGLM-6B
$ git clone https://huggingface.co/THUDM/chatglm-6b-int4/

在网站 https://huggingface.co/THUDM/chatglm-6b-int4/tree/main 中下载:
ice_text.model 和 pytorch_model.bin 两个大文件,替换git中的文件。

下载运行环境镜像

如果使用docker启动,推荐镜像:

$ docker pull pytorch/pytorch:1.13.1-cuda11.6-cudnn8-runtime

启动镜像

$ nvidia-docker run -e "LC_ALL=zh_CN.UTF-8" -e "LANGUAGE=zh_CN.UTF-8" -e "LANG=zh_CN.UTF-8" -p 7860:7860 --rm -v /exports:/workspace/exports -it pytorch/pytorch:1.13.1-cuda11.6-cudnn8-runtime bash

调整代码

修改web_demo.py

  • 修改模型名为指定目录:
tokenizer = AutoTokenizer.from_pretrained("../chatglm-6b-int4/", trust_remote_code=True)
model = AutoModel.from_pretrained("../chatglm-6b-int4/", trust_remote_code=True).half().cuda()
  • 设置server_name为0.0.0.0,以便服务在docker外部调用
demo.queue().launch(share=False, inbrowser=True, server_name="0.0.0.0")

运行服务

在镜像内部运行

$ cd ChatGLM-6B/
$ pip install -r requirements.txt
$ python web_demo.py

启动服务后,就可以在宿主机浏览器中通过端口7860访问,效果如下:

个人觉得速度还挺快的,回答效果也还行。

相关链接

ChatGLM项目地址
ChatGLM模型介绍
模型下载

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351