要介绍的Models
大家都是seq2seq模型,所以用各自的名字区分。
需要介绍的模型
LAS
Listen
encoder
RNN
红色的三角形代表一个filter(吃100个acoustic features)
1D-CNN
self-attention
减少运算量。
image.png
image.png
LAS中的attention
image.png
另一种attention的方式,不是点乘了,而是相加后通过tanh。
image.png
image.png
Spell
输出第一个字母。
image.png
继续拿z1做match
image.png
image.png
image.png
每次都选几率最大的。
image.png
缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)
image.png
比greedy decoding更常见的是beam search。
image.png
Training
image.png
image.png
image.png
back to attention
image.png
最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。
image.png
attention的改变不应该乱跳。
image.png
第一篇用LAS的加了机制去控制按顺序改变attention。
image.png
LAS work 么?
很长一段时间之后,加了很多trick,居然打败了传统的模型。
image.png
image.png
神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。
image.png
正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。
LAS的限制
期待可以做online的语音辨识系统。
image.png
李宏毅DLHLP2020-LAS