asr学习系列（一：概述）

背景：

报了深蓝学院的语音识别课程，这里做学习记录

第一课：语音识别概述

1.音频概念
- 1）采样率、通道数
- 2）语音编码
- 3）时域
- 4）频域
2.语音识别的定义
Automatic Speech Recognition (ASR) 或 Speech to Text (STT)
• 将语音转换成文本
• 解决机器“听清”问题，不处理“听懂”问题
• 但是要处理声学和（部分）语言上的混淆
• “Recognize speech” or “Wreck a nice beach”
• “帮我拿快递” or “帮我拿块地”
• 解决“共性”问题：每个人的语音都能识别出正确的文本
3.语音生成
• Speech Production: 大脑à神经肌肉命令à发音器官
运动（气流从肺部到发音器官，口鼻发出）
• 发音器官(Articulators)
• 肺(Lungs): 发音气流源头
• 声带(Vocal cords, vocal folds, larynx): 受气流影响相互靠近收紧，发生震动，产生浊音 (voiced);或者声带松弛使声门
(glottis)开放，产生清音(unvoiced)
• 软腭(soft plate, velum): 具有阀门功能，打开时允许气流进
入鼻腔(nasal cavity)，关闭时禁止气流进入鼻腔
• 硬腭(hard palate):口腔顶部较长的硬表面。当舌(tongue)顶住硬腭时，发辅音(consonant)
• 舌(tongue): 灵活的发音器官，远离硬腭发元音;靠近或接触硬腭或其他硬表面发辅音
• 牙齿(teeth): 发某些辅音时，用来顶住舌
• 唇(lips): 变圆或扁影响发元音的质量，或者完全紧闭，阻止气流从口腔发出
4.语音感知
5.语音发展史
6.资料
- 1）中文数据
  • THCHS-30，30小时，开源（ http://openslr.org/18/ ）
  • HKUST，150小时，电话对话， LDC版权
  • AIShell-1：178小时，开源（ http://openslr.org/33/ ）
  • AIShell-2：1000小时，开源需申（ http://www.aishelltech.com/aishell_2 ）
  • aidatatang_200zh，200小时，开源（ http://openslr.org/62/ ）
  • MAGICDATA，755小时，开源（ http://openslr.org/68/ ）
- 2）英文数据
  • TIMIT：音素识别，LDC版权
  • WSJ：新闻播报， LDC版权
  • Switchboard：电话对话， LDC版权
  • Librispeech：有声读物，1000小时，开源（ http://openslr.org/12/ ）
  • AMI：会议，开源（ http://openslr.org/16/）
  • TED-LIUM：演讲，开源（ http://openslr.org/19/ ）
  • CHiME-4：平板远讲，需申请
  • CHiME-5/6：聚会聊天，需申请
- 3）⼯具包
  • HTK: http://htk.eng.cam.ac.uk/ (c)
  • Kaldi: http://kaldi-asr.org/ (c++, python)
  • ESPNet: https://github.com/espnet/ (pytorch based)
  • Lingvo: https://github.com/tensorflow/lingvo.git (Tensorflow based)

asr学习系列（一：概述）

背景：

第一课：语音识别概述

推荐阅读更多精彩内容