Mac os下运行Kaldi中文例子(thchs30,清华大学30小时语音)

资料:http://www.kaldi-asr.org/doc/ Kaldi官方文档
https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/ Kaldi中文手册,翻译自Kaldi官方文档
kaldi的全部资料-v0.4.pdf from wbglearn(吴本谷)组织
Kaldi语音识别Lecture1、2、3
参考博客:http://www.jianshu.com/p/22fc9906878f

目前能找到的公开中文语音语料库只有清华大学CSLT公开的语音数据,共30小时+。os上运行与在Linux上大致相同。

1.GitHub上下载Kaldi
2.下载语音数据

The database can be downloaded from openslr:
http://www.openslr.org/18/

or from the CSLT server:
http://data.cslt.org/thchs30/README.html

下载完之后,在kaldi/egs/thchs30/下建立目录thchs30-openslr(名称随意,设置路径要用),解压到此目录下。


3.修改脚本

  • /thchs30/s5/run.sh中,修改:
    第8行,修改并行任务数(我设为我的CPU核数,电脑配置iMac27 英寸,2015 年中,3.3 GHz Intel Core i5,8 GB 1600 MHz DDR3)
n=4      #parallel jobs

第11行,修改路径

thchs=~/documents/riemann/kaldi/egs/thchs30/thchs30-openslr
  • 修改/thchs30/s5/cmd.sh为:
export train_cmd=run.pl
export decode_cmd=run.pl
export mkgraph_cmd=run.pl
export cuda_cmd=run.pl
  • thchs30/s5/local/thchs-30_data_prep.sh中,第24行修改为:
for nn in `find  $corpus_dir/$x -name "*.wav" | sort -u | xargs -I {} basename {} .wav`; do

这个修改是因为os和Linux上shell命令有些许不同所致。不修改的话,会出现xargs: illegal option -- i或argument list too long: find。
4.运行
cd到s5目录下,运行run.sh。推荐sh -x ./run.sh。


5.跑

好牙口

6.问题
跑出的结果及问题见
http://www.jianshu.com/p/69a4e2ba8531
还是因为在Mac上些许水土不服。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,947评论 18 139
  • 1.创建文件夹 !/bin/sh mkdir -m 777 "%%1" 2.创建文件 !/bin/sh touch...
    BigJeffWang阅读 10,186评论 3 53
  • 背景: 阅读新闻 12C CDB模式下RMAN备份与恢复 [日期:2016-11-29] 来源:Linux社区 作...
    阳屯okyepd阅读 3,608评论 0 7
  • 公司快要破产,为了存活,两位老板搞了很多项目来变现。 比如存在法律风险的专车优惠券刷单、应用开发外包、地推项目(借...
    一片云阅读 464评论 0 1
  • 高考,考的是家长。 1 一年一度的高考工作已经进入到报考志愿的阶段,这两日各地投档分数线都已公布,各考生也在争相比...
    生达成长规划阅读 289评论 0 1