二十六画生YY

IP属地：纽约州

RoPE的数学原理及代码实现
1 起源由于经典的位置编码（余弦/正弦函数）仅编码绝对位置：只告诉模型"这是第几个词"，没有直接编码词与词之间的相对距离，需要模型间接学习相对...

109 0 0
transformer 实战代码
参数量模型参数量: 39,876,655，建议在GPU上训练，mac带不动啊，哈哈哈哈哈代码 1 config.py 2 utils.py ...

15 0 0

多头注意力机制演示以及位置编码
1 core formula 可以看到偶数维度和奇数维度的括号内是相同的，只不过一个是正弦一个是余弦。所以在偶数位置[:, 0::2]使用sin...

8 0 0
《Transformer 前传之 Bahdanau attention》
1 背景介绍在上一篇文章中，我们介绍了Encoder-Decoder架构，但是这个架构有个问题。就是如果想建模长序列的话，最终encoder编...

49 0 0
《使用Encoder-Decoder架构+LSTM完成机器翻译任务》
1 背景在neural machine translation的任务中，由于RNN每个时间步只能看到过去的信息，无法看到完整的上下文。除此之外...

0.5 97 0 2
韩遇安浅论LSTM
1 RNN的缺点上文我们已经介绍了经典的RNN。这篇文章主要聚焦在RNN的改良版：LSTM。关于RNN的，教科书上说RNN容易造成梯度消失或梯...

0.2 42 0 1
韩遇安关于RNN的一些思考
1 RNN的架构及原理关键函数h_t = f(Wxhx_t + Whhh_{t-1} + bh)y_t = g(Why*h_t + by) 2...

12 0 0

韩遇安关于CNN的一些小思考
1 CNN中的一些重要的概念关于卷积，就是卷积核（kernel）在figure上移动，对应位置相乘然后求和（加权和）关于池化，分为最大池化和...

0.4 145 0 3
《赵从文浅论stacking model 中如何防止信息泄露》
1. *基模型与逻辑回归在机器学习中，堆叠模型（Stacking）是一种常用的集成方法，它将多个基模型（base model）的预测结果作为...

64 0 0