Cross-lingual Language Model Pretraining
主要贡献:align distributions of sentences in a completely unsupervised way
如何解决多语言的tokenize以及词表问题?=》Byte Pair Encoding(BPE)
Causal Language Modeling(CLM): 生成一个词时考虑之前所有词,例如GPT2,不需要平行语料
Masked Language Modeling(MLM): 使用mask方式,如Bert,不需要平行语料
Translation Language Modeling(TLM): 有不同语种的平行语料,训练时两句一起输入,并进行随机mask