Roberta: A robustly optimized bert pretraining approach
Citation: 1669 (2021-09-09)
1. Motivation
近年来有多个著名的预训练模型被提出,如BERT[2]、Transformer-XL[3],作者从另一个角度出发,发掘是不是可以对BERT进行优化,而不是完全从其它的角度(比如考虑类似Transformer-XL考虑更长的序列,类似XL-Net从自回归角度出发)。
2. (Robustly optimized BERT approach) RoBERTa
本文最大的贡献在于提出了基于与BERT相同的网络结构,但是使用不同的训练方式,能得到非常好的效果。工作本身很solid(也很贵:))描述起来就很简单了。
2.1 Static vs. Dynamic Masking
这一点主要是由于原生的BERT实现,对于不同的epoch,mask是固定的;改成了动态mask。
2.2 Model Input Format and Next Sentence Prediction
作者通过实验发现去除Next Sentence Prediction的loss,效果能有所提升。认为BERT原始的消融实验里可能只是去除了NSP loss,但是仍然保留了NSP的输入format,从而效果下降,显得NSP比较重要。
2.3 Training with large batches
用更大的batch去训练。
2.4 Text Encoding
用Byte-Pair Encoding(BPE)。即对语料切成字符,然后统计相邻的两个字符的频次,将频次最高的相邻字符合并新的字符加入词表,并将语料中所有的这两个相邻字符替换成新字符;重复这样的操作,直到满足一定的条件比如单词数量到一定程度。
与原生BERT相比,RoBERTa不对语料做preprocess以及tokenization。
2.5 More Data and training epoch
更多的训练数据,更长的训练步骤。
3. Experiment
优点&思考:
(1)一个工作,看似已经做到顶了,但实际上仍然还有可以挖的点;思路要更开阔一点。
4. References
[1] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[3] Dai, Zihang, et al. "Transformer-xl: Attentive language models beyond a fixed-length context." arXiv preprint arXiv:1901.02860 (2019).