240 发简信
IP属地:辽宁
  • 120
    Julia 小白 Day 5 :Julia是个啥?能吃吗?

    笔者学习Julia有几天了,有人开始问了: Julia是什么?有啥用? 身为Julia小白,决定学习前了解的情况是:“Julia是一门牛B、‘无耻’的语言。” 为什么这么说呢...

  • 楼主: 请教一下如何运行pretraining,我已经针对中文语料进行了create_pretraining_data.py操作了,并且保存成为.tfrecode形式,但是以此为输入,运行pre_training.py的时候,却出错了。 非常纠结!

    Bert系列(三)——源码解读之Pre-train

    pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训练也不现实(在Google Cloud TPU v2 上训练...

  • 120
    BERT泛读系列(四)—— Transformer-XL

    一、写在前面的话 Transformer-XL主要是针对长文本问题提出了两点改进,一是对分段文本进行编码时,加入相连的上一段的编码信息(这一改进其实可以用在其他模型中,并不是...