LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称

第一个步骤Listen(Encoder)

listen的作用是输入一段语音信号，输出一段向量,去掉语音中的杂序，只保留和语音有关的部分。

Listen

上图中acoustic features表示的是每一帧的声音信号。

listen进行encoder

RNN

双向RNN进行encoder
CNN

将fliter沿着时间的方向扫过每一个acoustic features ,每一个fliter会吃一个范围的acoustic features进去得到一个数值，不同的fliter会产生不同的数值，最后生成的是一个向量。

CNN进行encoder
self-attention layers

self_sttention进行encoder

一段声音信号表示成acoustic features的时候太长，1秒钟的声音信号有100个向量，且相邻的向量之间包含的信息量也相差不大，所以在做语音识别的过程中，为了保持训练过程更有效率，就产生了down sampling.

减少RNN的运算量

down-sampling

pyramid RNN
Pooling over time
上图中每一层都是RNN。左边是将相邻两个加起来送到下一层，右边是在相邻两个之间选择一个送到下一层。
减少CNN和self-attention的运算量

down-sampling

在做attention时，每一个时间点的feature都会去attend 整个输入序列中所有的feature，在做翻译时可能表现很好，但在语音识别中，一秒钟就有100个acoustic features，太长了，无法很好的做attention。因此truncated self-attention限制attention的长度，只看未来和过去一段时间的输入序列。

attention 过程

上图中

z_0

和encode的每一个

h

进行一个计算，

z_0

和

h^1

计算得到

\alpha_0^1

, 和

h^2

计算得到

\alpha_0^2

, ....。Encoder会输入一串acoustic features ，每一个acoustic features都对应一个输出,每一个输出都会得到一个

\alpha

，然后将得到的

\alpha

经过一个softmax层，得到

\hat{\alpha}

，最终

z_0

的attention的值

c^0

为最后概率和输出的乘积形式。

c^0

作为下一个decode的输入，在文献中

c^0

一般写成context vector。

初始的 $z_0$ 做attention后spell

spell

上图中输出distribute over all tokens就是对词典中每一个词汇生成一个概率，所有概率之和为1。具体输出什么词汇就看那个概率最大，概率最大的即为当前的输出。
再拿hidden state 中的 $z_1$ 继续去做attention

z1进行attention

算出新的 $\alpha$ 的值，经过softmax后 $\hat{\alpha}$ 值，最后用 $\hat{\alpha}$ 乘以 $h$ 得到 $c^1$ 作为下一次decode的输入。

attntion的结果作为decoder的输入

上一次spell的输出（此处是c）,上一个hidden state $z^1$ ，和decode的输入 $c^1$ 共同决定了hidden state 的值 $z^2$ ，然后将 $z^2$ 做一个attention，以此类推,...其示意图如下：

整个LAS过程

c0进行decoder

在训练过程中可能会存在一个问题，就是之后的输出和之前的输出有关，所以如果前面的输入错了的话，后面无论怎么训练都无法达到好的训练效果，因此在训练时加一个teacher forcing ,直接将上一时刻正确的结果作为下一次的输入，避免前面一错全错。

teacher forcing

18.png

19.png