asr学习系列(一:概述)

背景:

报了深蓝学院的语音识别课程,这里做学习记录

第一课:语音识别概述

  • 1.音频概念

    • 1)采样率、通道数
    • 2)语音编码
    • 3)时域
    • 4)频域
  • 2.语音识别的定义
    Automatic Speech Recognition (ASR) 或 Speech to Text (STT)
    • 将语音转换成文本
    • 解决机器“听清”问题,不处理“听懂”问题
    • 但是要处理声学和(部分)语言上的混淆
    • “Recognize speech” or “Wreck a nice beach”
    • “帮我拿快递” or “帮我拿块地”
    • 解决“共性”问题:每个人的语音都能识别出正确的文本

  • 3.语音生成
    • Speech Production: 大脑à神经肌肉命令à发音器官
    运动(气流从肺部到发音器官,口鼻发出)
    • 发音器官(Articulators)
    • 肺(Lungs): 发音气流源头
    • 声带(Vocal cords, vocal folds, larynx): 受气流影响相互靠近收 紧,发生震动,产生浊音 (voiced);或者声带松弛使声门
    (glottis)开放,产 生清音(unvoiced)
    • 软腭(soft plate, velum): 具有阀门功能,打开时允许气流进
    入鼻腔(nasal cavity),关闭时禁止气 流进入鼻腔
    • 硬腭(hard palate):口腔顶部较长的硬表面。当舌(tongue)顶 住硬腭时,发辅音(consonant)
    • 舌(tongue): 灵活的发音器官,远离硬腭发元音;靠近或接触 硬腭或其他硬表面发辅音
    • 牙齿(teeth): 发某些辅音时,用来顶住舌
    • 唇(lips): 变圆或扁影响发元音的质量,或者完 全紧闭,阻 止气流从口腔发出

  • 4.语音感知

  • 5.语音发展史

  • 6.资料

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • @TOC IOS音视频(四十六)离线在线语音识别方案 最近做了一个语音识别相关的研究,因为公司需要使用离线语音识别...
    孔雨露阅读 2,164评论 0 9
  • 这一部分来引用一下,较为奇巧的观点,个人比较认同。 为什么汉语是世界上最先进的语言之一 一、语言水平高低的评判准则...
    AndyLau阅读 2,951评论 0 17
  • 几个常见的语音交互平台的简介和比较 2018年07月12日 11:38:19青龙战阅读数:577 1.概述 最近做...
    Amy_GAOGAO阅读 804评论 0 3
  • (目的:方便自己下次看,有点流水账)简介:   信号处理与特征提取   传统声学模型   基于深度学习的声学模型 ...
    糖爰阅读 2,492评论 0 1
  • title: Kaldidate: 2019-05-11 09:44:28tags: kaldi 说明最好在类Un...
    XEBY_ec67阅读 9,271评论 0 4