来源 https://www.jiqizhixin.com/articles/2018-12-10-8
图像的预训练
预训练先将底层通用的特征训练好,从而支持小数据量的训练集,并大大加快了训练的收敛速度。
预训练模型使用新数据,一般有两种策略:冻结底层参数;微调所有参数。
Word Embedding
语言模型:衡量一句话是不是人话
Word Embedding还需要看一篇文章,讲的有点模糊
问题:多义词
ELMO
预训练阶段:先用底层的word embedding,再接两层lstm,分别为顺序和逆序。注意,lstm带有语境信息
使用阶段:将上下文放入lstm得到更新的权重,和word embedding整合到一起。
要点:通过上下文信息的计算,解决多义词的问题。
相关工作:
- TagLM ELMO的前导工作
- ULFMit 通用语言模型+领域语言模型(猜测是类似计算机领域,医疗领域等细分类型的语言模型)
缺点:
- 特征提取使用lstm,现有新贵是Google的Transformer
- ELMO双向拼接的融合特征方法可能弱于Bert一体化的融合特征方式。目前仅从理论推断怀疑这一点,目前并没有实验证明。
GPT(Generative Pre-Training)
基于Fine-tuning的模式,除ELMO外另一个NLP典型做法
与ELMO的主要差异:
- 特征器使用Transformer,取代RNN
- 只使用上文作为语境,没有下文
不能随意设计网路,需要调整网络变差GPT形式的
缺点:不是双向的语言模型
BERT
核心:
- 基于Transformer的特征提取器
- 双向的语言模型
创新点:
- MASK,类似CBOW的双向模型实现
- 句子关系的判断,增加句子层面的特征