链接:我不太懂BERT系列——BERT预训练实操总结(微信公众号文章)
2020.1.4
本文三个内容:
1.数据预处理以及训练数据生成
数据生成总结:
1.中文全词mask
bert的MLM模型:Masked Language Model(MLM)
MLM:随机屏蔽掉部分输入token,然后再去预测这些被屏蔽掉的token。
WWM(whole word mask)机制:中文词汇的全词mask机制
2.动态mask
3.给中文分词工具添加增强词库
2.预训练性能优化
单机多卡
多机多卡
3.预训练效果调优
梯度累加
SOTA model:state-of-the-art model,并不是特指某个具体的模型,而是指在该项研究任务中,目前最好/最先进的模型。
SOTA result:state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现。