Bert

结构

Loss

实际是Multi Task Training

// run_pretraining.py:114
    (masked_lm_loss,
     masked_lm_example_loss, masked_lm_log_probs) = get_masked_lm_output(
         bert_config, model.get_sequence_output(), model.get_embedding_table(),
         masked_lm_positions, masked_lm_ids, masked_lm_weights)

    (next_sentence_loss, next_sentence_example_loss,
     next_sentence_log_probs) = get_next_sentence_output(
         bert_config, model.get_pooled_output(), next_sentence_labels)

    total_loss = masked_lm_loss + next_sentence_loss

Optimizer

思想

Trick

拾遗

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

（九）再谈embedding——bert详解（实战）下
前面两篇分别梳理了下BERT的原理和BERT的训练，接着前面的内容，梳理下BERT是如何在下游任务上运用的。 ...
天生smile阅读 16,775评论 4赞 11
2019-02-22 Transformer （GPT、BERT的核心）
前几天细读GPT的paper，里面使用的基础模型和BERT一样都是Transformer，区别就在于GPT用的是单...
梯度上升阅读 9,574评论 0赞 2

BERT 论文笔记
BERT：Pre-training of Deep Bidirectional Transformer for L...
EdwardLee阅读 10,560评论 0赞 3
关于死亡
中午，女票刚做好饭，一口还没吃就觉得桌子在晃，然后我俩就急匆匆的下楼了。幸好外面太阳很好，我俩穿着拖鞋也不会觉得...
Matteoo阅读 747评论 0赞 0
IMO和U
最近在配合亚历山大老师推广IMO横向领导力大师班的课程，因为陌生，所以不太能够被人理解。今天伙伴们聊到和U的关系，...
韧性十足的牛皮糖阅读 4,064评论 0赞 1

赞1赞

赞赏

手机看全文