使用基于t2t的transformer做NMT的一些你需要知道的事情

总览

  • 使用1080 ti在英捷数据集进行试验。
  • t2t中的bs指的是subword的数量,而不是我们认为的sentence pairs的数量
  • 实际训练的bs等于使用GPU的数量乘以bs
  • approx-bleu是为了提高测试的过程的,使用的是sub-word bleu的计算方法,因此比实际的bleu要高。
  • t2t使用的是自己内建的sub-word方法
  • file_byte_budget是用来控制sample出训练数据用来训练subword词表的数目,确保抽样比较多的training data,对于子单词词汇表来说,训练数据太小的一个标志是日志中报告的min_count太低,因此词汇表只能从一次或两次看到的单词中估计。(因此min_count要大于2才是比较合适的)
  • 可以更改t2t-trainer 中的schedule来不让做approx_bleu这样可以加速训练,感觉应该是有参数可以让比较的是真实的bleu把

训练加速

  • 增大bs对训练加速帮助不大。
  • GPU训练对加速的帮助很大。
  • 作者发现small and clear的数据集收敛需要的epochbig and noise的多。
  • 大的数据集在多卡上训练1week之后效果还在提升,如果数据集是两倍那么需要的训练时间要比两倍还要多,训练数据和训练需要的收敛时间之间并不是线性关系。

big model和base model的对比

  • 在单GPU上尽管base model可以放更多的训练数据,但是效果是不如big model
  • 因此为了有好的训练效果,如果你的GPU显存是大于11GB的还是使用big model比较好。
  • 为了debug方便(除过模型其他部分的bug)可以使用一个更小的transformer模型,transformer_tiny,等运行正常的情况下再换成大模型transformer
  • 如果为了极限的省显存可以用Adafactor优化器,因为不用存储adam中的一阶矩二阶矩。

max_length参数的影响

max_length这个参数基本不用改,因为如果训练的bs足够大的话,修改只能降低效果,transformer不能翻译比训练中出现最长的句子还要长的句子。

bs的影响

  • 默认的单GPUbs2048,多GPUbs4096,但是作者在单GPU上发现对于base model如果增大bs6000效果很会比默认的参数好很多。
  • 但是big model 大的bs效果没有什么用,并且有一个收敛最小bs的参数,如果bs小于这个参数那么就会不收敛或者收敛很慢。
  • 建议:bs尽可能的大。

学习率lr和warmup的影响

  • lr影响不大,使用默认的就好
  • warmup影响也不大
  • transfomer对这两个参数不敏感,使用初始的就好了
  • 对于新的数据集如果没收敛的话,尝试下面的调参策略,以及lrwarmup的关系,降低warmup steps,相当于增大实际最大学习率。
  • 数据量增大的话:其他人经过推算如果数据量增大k倍的话,学习率变为√k才行。
  • 如果是多GPU运行:作者发现默认的0.2的学习率是8GPU能够收敛的最大学习率
  • 8 GPU上调节warm up对只要没有越过收敛底线,其他情况加是差不多的。
  • 因此看学习率合不合适就看收敛速度(BLEU值),因为如果学习在适当区,收敛是可以达到预期的,如果没有在那么训练是不收敛或者收敛到一个很低的水平的,如果是差不多达到预期了那么就没有必要调节学习率,如果很差那么就适当的降低学习率即可。

多GPU的影响

  • single GPU 上执行4000步和4 GPU上执行1000步的结果是一模一样的,但是收敛的更快.
  • 作者建议:如果有2个实验和8GPU的时候,最好是串行的在8GPU上跑,而不是各占用4GPU并行跑。

transformer不使用bn和SGD

  • 使用layer normalization不使用batch normalizaion的原因:

checkpoint average的影响

  • checkpoint average一般会带来0.2 bleu左右的提升。
  • 默认的是每隔10分钟保存一次ckpt,最后平均20个最近的ckpt效果很好,但是这个多少个是根据任务而定的,在作者的实验中就发现一小时保存一次的ckpt平均后的效果更好。
  • 作者建议在距离训练开始阶段较近的比如5W步的时候,平均的ckpt应该少一点,因为还没有训练还不稳定bleu曲线还很陡峭,在结束10W步的时候,平均的ckpt应该多一点,这样效果会更好。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容

  • 本文上两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier阅读 6,443评论 1 22
  • 金山集团 AI Lab 组队参加了AI Challenger 2018 全球挑战赛的英中机器翻译项目,并且获得冠军...
    Quincy_baf0阅读 796评论 0 0
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 6,605评论 0 18
  • 今天第一次获得奖壮,❤❤心情非常激动,加入传奇今生红樱桃健康唇膏这个平台以来,第一次拿到奖状 也是证明了自己的实力...
    c14b5da6e55e阅读 339评论 0 0
  • 不知道从什么时候开始,我们变得越来越浮躁越来越没有耐心,也越来越急。 每天都被各种作业,任务轰炸着,果然上了大学就...
    木槿双鱼阅读 255评论 0 0