240 发简信
IP属地:河南
  • 120
    transformer的扩展

    bert bert是有一个固定的词表(不把words当成tokens,而是将wordpieces(是一种subword)当做tokens)中的,预训练模型中有词表中的embe...

  • 120
    transformer

    最近transformer的结构改进论文挺多的,总结一下。 transformer是一个seq2seq模型。 从RNN谈起 缺点:不能处理过长的句子。 LSTM可以一定程度上...

  • Lasagne简单教程

    版权所有,转载请注明出处 参考Lasagne官网tutorial进行总结而来。 一、简介 Lasagne is a lightweight library to build ...

  • 120
    神经网络的前世

    小长假来听听 NN 的故事吧。 本文参考:这个地址不错,深入浅出讲深度学习的,推荐感兴趣的朋友看一下。 当你听到深度学习,你想到了什么? Deep Learning is a...