按照如此配置进行了训练,LFR_m = 1,LFR_n = 6,batch_frames = 30000
当时GPU Memory占用约为 6831 MiB

当时运行到Epoch 69时退出了一次,改了部分代码使其接着Epoch 69模型参数开始训练:

当时自动保存了基于开发集模型参数

一共训练了150个epoch

visdom上当时记录的可视化图形,中间小波动就是Epoch 69中途退出重新接上训练的影响

为了方便调试预测过程,新建预测用的shell文件pred.sh

pred.sh
执行过程中,存在一下json文件中的中文编码错误,经过修改之后,成功执行。(参考我的其他文章)



输出result.txt文件:




Corr正确率 87.3%

Err词错误率 12.9%
接下来打印的是具体语音条数:


共有20个 speakers
最后打印的是每条语音识别结果与参考结果,包括每个speaker的语音条数utts、以及语音识别评分(C正确 S替换 D删除 I插入)


