1.整体结构
2.特征提取:
Fbank:
特征处理:标准化
3.位置编码
初始的inputs:
4.Attention
缩放因子的作用在论文中提到是为了缓解当过大时带来的softmax梯度过小问题:
举个例子 假定输入为 x=【a,a,2a】
然后我们来看softmax的梯度。不妨简记softmax函数为 ,softmax得到的分布向量
对输入
的梯度为:
记, 有
则:
对相互独立的分量,有
所以:(下面做了一个验证),方差越大也就说明,点积的数量级越大。
除以可以让方差稳定在1,因为
,将方差控制为1,也就有效地控制了前面提到的梯度消失的问题。