240 发简信
IP属地:纽约州
  • Resize,w 360,h 240
    RoPE的数学原理及代码实现

    1 起源 由于经典的位置编码(余弦/正弦函数)仅编码绝对位置:只告诉模型"这是第几个词",没有直接编码词与词之间的相对距离,需要模型间接学习相对...

  • Resize,w 360,h 240
    transformer 实战代码

    参数量 模型参数量: 39,876,655,建议在GPU上训练,mac带不动啊,哈哈哈哈哈 代码 1 config.py 2 utils.py ...

  • Resize,w 360,h 240
    多头注意力机制演示以及位置编码

    1 core formula 可以看到偶数维度和奇数维度的括号内是相同的,只不过一个是正弦一个是余弦。所以在偶数位置[:, 0::2]使用sin...

  • Resize,w 360,h 240
    《Transformer 前传之 Bahdanau attention》

    1 背景介绍 在上一篇文章中,我们介绍了Encoder-Decoder架构,但是这个架构有个问题。就是如果想建模长序列的话,最终encoder编...

  • Resize,w 360,h 240
    《使用Encoder-Decoder架构+LSTM完成机器翻译任务》

    1 背景 在neural machine translation的任务中,由于RNN每个时间步只能看到过去的信息,无法看到完整的上下文。除此之外...

    0.5 97 0 2
  • Resize,w 360,h 240
    韩遇安浅论LSTM

    1 RNN的缺点 上文我们已经介绍了经典的RNN。这篇文章主要聚焦在RNN的改良版:LSTM。关于RNN的,教科书上说RNN容易造成梯度消失或梯...

    0.2 42 0 1
  • Resize,w 360,h 240
    韩遇安关于RNN的一些思考

    1 RNN的架构及原理 关键函数h_t = f(Wxhx_t + Whhh_{t-1} + bh)y_t = g(Why*h_t + by) 2...

  • Resize,w 360,h 240
    韩遇安关于CNN的一些小思考

    1 CNN中的一些重要的概念 关于卷积,就是卷积核(kernel)在figure上移动,对应位置相乘然后求和(加权和) 关于池化,分为最大池化和...

  • 《赵从文浅论stacking model 中如何防止信息泄露》

    1. *基模型与逻辑回归 在机器学习中,堆叠模型(Stacking) 是一种常用的集成方法,它将多个基模型(base model)的预测结果作为...