240 发简信
IP属地:上海
  • 120
    mmoe

    参考文献:https://blog.csdn.net/leon_winter/article/details/104314441 主要是多任务学习(Multi-Task Le...

  • 120
    esmm

    参考文献: https://guyuecanhui.github.io/2019/11/09/paper-2018-ali-esmm/ https://blog.csdn.n...

  • 120
    lstm的梯度消失现象

    参考文献:https://www.zhihu.com/question/34878706?sort=created “LSTM 能解决梯度消失/梯度爆炸”是对 LSTM 的经...

  • 120
    transformer-知识点综合

    参考链接: https://github.com/DA-southampton/NLP_ability/blob/master/%E6%B7%B1%E5%BA%A6%E5%A...

  • 120
    知识蒸馏-简单

    参考文献: https://github.com/DA-southampton/NLP_ability/blob/master/%E6%B7%B1%E5%BA%A6%E5%A...

  • bert的trick理解-其他问题

    参考文献:https://www.jianshu.com/p/63943ffe2bab https://zhuanlan.zhihu.com/p/49271699 bert-...

  • albert-相对于bert的改进点

    参考文献: https://zhuanlan.zhihu.com/p/87562926 https://blog.csdn.net/weixin_37947156/artic...

  • bert的trick理解-损失函数的理解

    参考文献:https://www.jianshu.com/p/63943ffe2bab MLM:在 encoder 的输出上添加一个分类层,用嵌入矩阵乘以输出向量,将其转换为...

  • bert的trick理解-双向的理解

    参考链接: https://www.zhihu.com/question/322034410/answer/794201004 elmo通过双向lstm构造了双向 gpt利用...

  • 120
    bert的trick理解-gelu损失函数

    GELU 激活函数 损失函数详解:https://mp.weixin.qq.com/s/pA9JW75p9J5e5KHe3ifcBQ 参考链接:https://blog.cs...