混合精度训练

原文来自于机器学习算法与自然语言处理公众号

混合精度训练

《MIXED PRECISION TRAINING》这篇论文是百度&Nvidia研究院一起发表的，结合N卡底层计算优化，提出了一种灰常有效的神经网络训练加速方法，不仅是预训练，在全民finetune BERT的今天变得异常有用。而不仅百度的paddle框架支持混合精度训练，在Tensorflow和Pytorch中也有相应的实现。下面我们先来讲讲理论，后面再分析混合精度训练在三大深度学习框架中的打开方式。

理论原理

训练过神经网络的小伙伴都知道，神经网络的参数和中间结果绝大部分都是单精度浮点数（即float32）存储和计算的，当网络变得超级大时，降低浮点数精度，比如使用半精度浮点数，显然是提高计算速度，降低存储开销的一个很直接的办法。然而副作用也很显然，如果我们直接降低浮点数的精度直观上必然导致模型训练精度的损失。但是呢，天外有天，这篇文章用了三种机制有效地防止了模型的精度损失。

权重备份(master weights)

我们知道半精度浮点数（float16）在计算机中的表示分为1bit的符号位，5bits的指数位和10bits的尾数位，所以它能表示的最小的正数即2^-24（也就是精度到此为止了）。当神经网络中的梯度灰常小的时候，网络训练过程中每一步的迭代（灰常小的梯度 ✖ 也黑小的learning rate）会变得更小，小到float16精度无法表示的时候，相应的梯度就无法得到更新。
论文统计了一下在Mandarin数据集上训练DeepSpeech 2模型时产生过的梯度，发现在未乘以learning rate之前，就有接近5%的梯度直接悲剧的变成0（精度比2^-24还要高的梯度会直接变成0），造成重大的损失。
还有更难的，假设迭代量逃过一劫准备奉献自己的时候。。。由于网络中的权重往往远大于我们要更新的量，当迭代量小于Float16当前区间内能表示的最小间隔的时候，更新也会失败。
作者这里提出了一个非常simple but effective的方法，就是前向传播和梯度计算都用float16，但是存储网络参数的梯度时要用float32！这样就可以一定程度上的解决上面说的两个问题啦。
我们来看一下训练曲线，蓝色的线是正常的float32精度训练曲线，橙色的线是使用float32存储网络参数的learning curve，绿色滴是不使用float32存储参数的曲线，两者一比就相形见绌啦。

损失放缩（loss scaling）

虽然使用float32来存储梯度，确实不会丢失精度了，但是计算过程中出现的指数位小于 -24 的梯度不还是会丢失。于是loss scaling方法来了。首先作者统计了一下训练过程中激活函数梯度的分布情况，由于网络中的梯度往往都非常小，导致在使用FP16的时候右边有大量的范围是没有使用的。这种情况下，我们可以通过放大loss来把整个梯度右移，减少因为精度随时变为0的梯度。
那么问题来了，怎么合理的放大loss呢？一个最简单的方法是常数缩放，把loss一股脑统一放大S倍。float16能表示的最大正数是2^15*(1+1-2-10)=65504，我们可以统计网络中的梯度，计算出一个常数S，使得最大的梯度不超过float16能表示的最大整数即可。
当然啦，还有更加智能的动态调整(automatic scaling) 我们先初始化一个很大的S，如果梯度溢出，我们就把S缩小为原来的二分之一；如果在很多次迭代中梯度都没有溢出，我们也可以尝试把S放大两倍。以此类推，实现动态的loss scaling。

运算精度（precison of ops）

精益求精再进一步，神经网络中的运算主要可以分为四大类，混合精度训练把一些有更高精度要求的运算，在计算过程中使用float32，存储的时候再转换为float16。
像矩阵乘法和绝大多数pointwise的计算可以直接使用float16来计算并存储，而reductions、loss function和一些pointwise（如exp，log，pow等函数值远大于变量的函数）需要更加精细的处理，所以在计算中使用用float32，再将结果转换为float16来存储。

Pytorch

导入Automatic Mixed Precision (AMP)

from apex import amp
model, optimizer = amp.initialize(model, optimizer, opt_level="O1") # 这里是“欧一”，不是“零一”
with amp.scale_loss(loss, optimizer) as scaled_loss:
    scaled_loss.backward()


import torch
from apex import amp
model = ... 
optimizer = ...

#包装model和optimizer
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")

for data, label in data_iter: 
    out = model(data) 
    loss = criterion(out, label) 
    optimizer.zero_grad() 
    
    #loss scaling，代替loss.backward()
    with amp.scaled_loss(loss, optimizer) as scaled_loss:   
        scaled_loss.backward() 
optimizer.step()

Tensorflow

一句话实现混合精度训练之修改环境变量，在python脚本中设置环境变量


os.environ['TF_ENABLE_AUTO_MIXED_PRECISION'] = '1'

Graph-based示例

opt = tf.train.AdamOptimizer()

#add a line
opt = tf.train.experimental.enable_mixed_precision_graph_rewrite(
          opt,
          loss_scale='dynamic')
          
train_op = opt.miminize(loss)

Keras-based示例


opt = tf.keras.optimizers.Adam()

#add a line
opt = tf.train.experimental.enable_mixed_precision_graph_rewrite(
            opt,
            loss_scale='dynamic')
            
model.compile(loss=loss, optimizer=opt)
model.fit(...)

PaddlePaddle

一句话实现混合精度训练之添加config --use_fp16=true
举个栗子，基于BERT finetune XNLI任务时，只需在执行时设置use_fp16为true即可。


export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

BERT_BASE_PATH="chinese_L-12_H-768_A-12"
TASK_NAME='XNLI'
DATA_PATH=/path/to/xnli/data/
CKPT_PATH=/path/to/save/checkpoints/

python -u run_classifier.py --task_name ${TASK_NAME} \
                   --use_fp16=true \  #!!!!!!add a line
                   --use_cuda true \
                   --do_train true \
                   --do_val true \
                   --do_test true \
                   --batch_size 32 \
                   --in_tokens false \
                   --init_pretraining_params ${BERT_BASE_PATH}/params \
                   --data_dir ${DATA_PATH} \
                   --vocab_path ${BERT_BASE_PATH}/vocab.txt \
                   --checkpoints ${CKPT_PATH} \
                   --save_steps 1000 \
                   --weight_decay  0.01 \
                   --warmup_proportion 0.1 \
                   --validation_steps 100 \
                   --epoch 3 \
                   --max_seq_len 128 \
                   --bert_config_path ${BERT_BASE_PATH}/bert_config.json \
                   --learning_rate 5e-5 \
                   --skip_steps 10 \
                   --num_iteration_per_drop_scope 10 \
                   --verbose true

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,002评论 6赞 509
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,777评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,341评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,085评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,110评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,868评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,528评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,422评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,938评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,067评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,199评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,877评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,540评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,079评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,192评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,514评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,190评论 2赞 357

混合精度训练

混合精度训练

理论原理

权重备份(master weights)

损失放缩（loss scaling）

运算精度（precison of ops）

Pytorch

Tensorflow

PaddlePaddle

推荐阅读更多精彩内容