背景:
报了深蓝学院的语音识别课程,这里做学习记录
第一课:语音识别概述
-
1.音频概念
- 1)采样率、通道数
- 2)语音编码
- 3)时域
- 4)频域
2.语音识别的定义
Automatic Speech Recognition (ASR) 或 Speech to Text (STT)
• 将语音转换成文本
• 解决机器“听清”问题,不处理“听懂”问题
• 但是要处理声学和(部分)语言上的混淆
• “Recognize speech” or “Wreck a nice beach”
• “帮我拿快递” or “帮我拿块地”
• 解决“共性”问题:每个人的语音都能识别出正确的文本3.语音生成
• Speech Production: 大脑à神经肌肉命令à发音器官
运动(气流从肺部到发音器官,口鼻发出)
• 发音器官(Articulators)
• 肺(Lungs): 发音气流源头
• 声带(Vocal cords, vocal folds, larynx): 受气流影响相互靠近收 紧,发生震动,产生浊音 (voiced);或者声带松弛使声门
(glottis)开放,产 生清音(unvoiced)
• 软腭(soft plate, velum): 具有阀门功能,打开时允许气流进
入鼻腔(nasal cavity),关闭时禁止气 流进入鼻腔
• 硬腭(hard palate):口腔顶部较长的硬表面。当舌(tongue)顶 住硬腭时,发辅音(consonant)
• 舌(tongue): 灵活的发音器官,远离硬腭发元音;靠近或接触 硬腭或其他硬表面发辅音
• 牙齿(teeth): 发某些辅音时,用来顶住舌
• 唇(lips): 变圆或扁影响发元音的质量,或者完 全紧闭,阻 止气流从口腔发出4.语音感知
5.语音发展史
-
6.资料
1)中文数据
• THCHS-30,30小时,开源( http://openslr.org/18/ )
• HKUST,150小时,电话对话, LDC版权
• AIShell-1:178小时,开源( http://openslr.org/33/ )
• AIShell-2:1000小时,开源需申( http://www.aishelltech.com/aishell_2 )
• aidatatang_200zh,200小时,开源( http://openslr.org/62/ )
• MAGICDATA,755小时,开源( http://openslr.org/68/ )2)英文数据
• TIMIT:音素识别,LDC版权
• WSJ:新闻播报, LDC版权
• Switchboard:电话对话, LDC版权
• Librispeech:有声读物,1000小时,开源( http://openslr.org/12/ )
• AMI:会议,开源( http://openslr.org/16/)
• TED-LIUM:演讲,开源( http://openslr.org/19/ )
• CHiME-4:平板远讲,需申请
• CHiME-5/6:聚会聊天,需申请3)⼯具包
• HTK: http://htk.eng.cam.ac.uk/ (c)
• Kaldi: http://kaldi-asr.org/ (c++, python)
• ESPNet: https://github.com/espnet/ (pytorch based)
• Lingvo: https://github.com/tensorflow/lingvo.git (Tensorflow based)