kaldi中文训练时避免的坑

1:python版本为2.7(否则进行dnn训练那一步会报错)

2:run.sh中选择数据文件必须使用绝对路径

#corpus and trans directory

thchs=/nfs/public/materials/data/thchs30-openslr (此处使用完整路径,不然会报错)

3:run.sh中创建目录以及cp操作一般需要单独复制出来操作(建议run.sh一步一步做,不要直接运行,方便查找错误)

4:在线测试,tri1b   需要文件:final.mdl,words.txt,HCLG.fst

                       tir4b 需要文件 :final.mdl,words.txt,HCLG.fst,final.mat

具体修改部分:(以4b为例)

1. 修改ac_model_type

ac_model_type=tri4b

2. 修改trans_matrix

ac_model=${data_file}/models/$ac_model_type

trans_matrix="$ac_model/final.mat"

audio=${data_file}/audio

3. 增加--left-context=3 --right-context=3

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\

--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3\

scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \

$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \

ark,t:$decode_dir/ali.txt $trans_matrix;;

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容