目前kaldi中文识别数据集
- aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell
aishell-1:http://www.openslr.org/33/
aishell-2:需要在官网申请,禁止商用 - gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)
- hkust: 中文电话数据集(LDC2005S15, LDC2005T32)
- thchs30: 清华大学30小时的数据集,http://www.openslr.org/18/