要介绍的Models
大家都是seq2seq模型,所以用各自的名字区分。

需要介绍的模型
LAS
Listen

encoder

RNN
红色的三角形代表一个filter(吃100个acoustic features)

1D-CNN

self-attention
减少运算量。

image.png

image.png
LAS中的attention

image.png
另一种attention的方式,不是点乘了,而是相加后通过tanh。

image.png

image.png
Spell
输出第一个字母。

image.png
继续拿z1做match

image.png

image.png

image.png
每次都选几率最大的。

image.png
缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)

image.png
比greedy decoding更常见的是beam search。

image.png
Training

image.png

image.png

image.png
back to attention

image.png
最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。

image.png
attention的改变不应该乱跳。

image.png
第一篇用LAS的加了机制去控制按顺序改变attention。

image.png
LAS work 么?
很长一段时间之后,加了很多trick,居然打败了传统的模型。

image.png

image.png
神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。

image.png
正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。
LAS的限制
期待可以做online的语音辨识系统。

image.png
李宏毅DLHLP2020-LAS