1 起源 由于经典的位置编码(余弦/正弦函数)仅编码绝对位置:只告诉模型"这是第几个词",没有直接编码词与词之间的相对距离,需要模型间接学习相对...
参数量 模型参数量: 39,876,655,建议在GPU上训练,mac带不动啊,哈哈哈哈哈 代码 1 config.py 2 utils.py ...
1 core formula 可以看到偶数维度和奇数维度的括号内是相同的,只不过一个是正弦一个是余弦。所以在偶数位置[:, 0::2]使用sin...
1 背景介绍 在上一篇文章中,我们介绍了Encoder-Decoder架构,但是这个架构有个问题。就是如果想建模长序列的话,最终encoder编...
1 背景 在neural machine translation的任务中,由于RNN每个时间步只能看到过去的信息,无法看到完整的上下文。除此之外...
1 RNN的缺点 上文我们已经介绍了经典的RNN。这篇文章主要聚焦在RNN的改良版:LSTM。关于RNN的,教科书上说RNN容易造成梯度消失或梯...
1 RNN的架构及原理 关键函数h_t = f(Wxhx_t + Whhh_{t-1} + bh)y_t = g(Why*h_t + by) 2...
1 CNN中的一些重要的概念 关于卷积,就是卷积核(kernel)在figure上移动,对应位置相乘然后求和(加权和) 关于池化,分为最大池化和...
1. *基模型与逻辑回归 在机器学习中,堆叠模型(Stacking) 是一种常用的集成方法,它将多个基模型(base model)的预测结果作为...