要介绍的Models
大家都是seq2seq模型,所以用各自的名字区分。
LAS
Listen
红色的三角形代表一个filter(吃100个acoustic features)
减少运算量。
LAS中的attention
另一种attention的方式,不是点乘了,而是相加后通过tanh。
Spell
输出第一个字母。
继续拿z1做match
每次都选几率最大的。
缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)
比greedy decoding更常见的是beam search。
Training
back to attention
最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。
attention的改变不应该乱跳。
第一篇用LAS的加了机制去控制按顺序改变attention。
LAS work 么?
很长一段时间之后,加了很多trick,居然打败了传统的模型。
神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。
正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。
LAS的限制
期待可以做online的语音辨识系统。
李宏毅DLHLP2020-LAS