重读R.Rabbinner数字语音信号处理—Chap1 Introduction

重读R.Rabbinner数字语音信号处理—Chap1 Introduction

Introduction to Digital Speech Recognition, 这本书早在今年早些时候认真读过几次,不过当时比较侧重于Speech Perception部分,而且有些公式也是囫囵吞枣般没有细推,最近打算用大概一周的时间,也就是1.14-1.21,回家前,把这本书细致的读一遍,力求尽自己最大的能力来理解,即使是不理解,也要详尽的写出哪点不理解,深入的读下去。

力求能翻译出大致的意思,从而有更深刻的理解,自己个人的批注或者理解用斜线表示,大概一天发一篇博文,保持每天6个小时或者以上的阅读时间。

Abstract

  1. 介绍了一下DSP的历史:从1960年开始,DSP就是语音学习的一个中心,知道现在,DSP也是理解现在语音领域的成果的关键。伴随着集成电路和计算机的发展,各种语音沟通的应用也在发展。

  2. 所以在这本书里,我们主要讲DSP在speech communication中的重要角色。我们会全方面的介绍Digital Speech Processing,从语音信号的本质,一系列数字化的表示语音的方法,以及在voice communication和语音合成以及语音识别。

  3. 这本书的目的只是为了给一个综述,并不能再深度上进行扩展。

以前没学过写论文的时候总听别人讲说abstract多重要,请别人写之类的,现在看看其实还好,换汤不换药,介绍下历史,介绍下文章中心。

Introduction

  • 语音最基本的目的是为了沟通/ acoustic waveform。

  • 从贝尔发明电话/shannon定理开始引出 信息编码(Infromation encodding)

The Speech Chain

image

Speech Production

  • Lanaguage Code: 脑子里想的东西如果用Text来标示的话,那么language code就是一个把text和sound对应起来。From text to phonetic symbles(Phonemes 音素,Prosody 韵律),以及IPA(International Phonetic Association)用ARPAbet表来标记音素。

  • 人脑把信号转换成肌肉控制信号,来控制发音器官(articulators)的震动,包括舌头,嘴唇,牙齿,下巴和软腭(velum).

  • 声带震动/变形 vocal tracts shapes over time so as to create an acoustic waveform.

  • 信息的速录 speaking rate 最高大概10 symbols per second, 1个symbol如果用5bit表示(2^5=32),那么text message的速率是50 bps.

  • text message-> phonemes, 大概乘以4,所以是200bps. (很粗略的估计)

  • 离散信号变成连续信号,大概control rate(有点载波的意思),大概是2000bps.

  • 最后可能的速率大概是64000–700000bps

    这些补充点到为止,暂时不深究了。

  • 不同的保真度要求导致滤波贷款不一样。”Telephone quality“要求0-4kHZ, 所以采样速率是8000 samples/s. 量化成8bits,所以速率是64000bps.(查了一下最新的音频采样速率

  • CD 44100 采样速率,16bit 量化,所以CD速率是705600bps.

  • 补充:发生器官的英文

    Vocal apparatus 发音器官
    alveolar ridge 牙槽嵴 alˈvēələr
    larynx lariNGks
    Pharynx fariNGks
    Nasal cavity 鼻腔
    Epiglottis 会厌/喉头盖
    Trachea 气管
    vocal folds 声带
    velum 软腭
    hard palate 硬腭 palit
    oesophagus 食管 iˈsäfəgəs
    image

附: 这张表是North America English辅音分类图

image

附:vowel(vouəl)三角形,North America English,嘴巴的开闭和发音的位置

image

Speech Perception

  • transmitted by acoustic wave propagation/ decoded by hearing mechanism.

  • 语音中还包含着emotional state, speech mannerism, accent.

    • 问题,如何理解这句 Part of the extra infromation represents the charasteristics of the talker such as emotional state, speech mannerisms, accent, etc. But much of it is due to the inefficiency of simply sampling and finely quantizing analog signals. Thus, motivated by an awareness of the low intrinsic information rate(text 50bps—>最后的速率64000-70000bps) of speech, a central theme of much of digital speech processing is to obtain digital representation with low date rate than that of the sampled waveform.

      应该是这样理解的,问题本来只有50bps,但最后传输的速率却是64000-700000. 尽管含有一些冗余的信息比如说话时的情态,口音,但大部分的冗余都是因为简单的采样速率以及对模拟信号的精细量化。

  • basilar membrane, 把一维信号转换为spectral representation(频域表示)。 频率间隔非均等的滤波器组(non-uniform filter bank)。

  • 第二部,神经系统把这些频域特征转换为一组声音特征,然后大脑来解码,最后理解语音。

  • 传输信道transmission channel中包含着真实世界的噪声和channel distortion(信道失真)。

数字语音处理的应用

  1. AD 变换。

    • 先高速率采样,再用一个低通滤波器保留需要的频率。 这是大多数应用的开始。

    • 数字语音处理的一系列处理技巧都是基于(grounded)降低信息速率。

  2. Speech coding/ speech compression, 把语音压缩为更低速率的表示。

    关于编码方面,没有仔细深究。虽然好像有点皮毛印象,有时间可以不上

    关于语音通信方面的编码有很多应用比如telephony, cellular communications, VoIP

  3. Text-to-speech synthesis。text -> linguistic rules ->synthesis algorithm -> D-A-converter。

    • Emphasis, pauses, rates of speaking, natural voice能更好的呗人解码

    • 合成算法必须模拟人发生系统。 最具希望的是unit selection and concatenation. 计算机存储了多种语音单元的不同表示形式。然后选出最适合的组合。

    • 还要选择合适的DA变换,控制时长,以及连音。

    • 是现在人机交互的核心系统之一。

  4. Speech Recognition and Other Pattern Matching Problems : automatic extract information。 Speaker recognition/ speaker verification, word spotting, automatic indexing of speech recordings based on recognition(Or spotting) of spoken keywords.

    • speech signal->feature vector

    • time aligns the set of feature vectors. 然后寻找最接近的。

    • 最多的应用是语音识别和理解。

    • 还有一个应用是自动翻译。

  5. Enhancement of Speech Quality

    • 消除或者减弱造影或者是回声或者是混响(reverberation)

    • 人与人交互里:是对话更加智能和自然

    • 目前的状况是 less perceptually annoying speech that essentially maintains, but does not improve the intelligibility of noisy speech. 噪音少了,但是清晰度依然没提高(都2019了目前有没有新的突破呢?2007的时候推荐的树是Loizou的speech enhancement

本书的目的

  1. digital speech processing是语音研究的基石。we make no pretense of exhaustive coverage(套话)

  2. 我们集中介绍 coding, synthesis 以及识别,最新的一些算法和创新将不会介绍, 不是因为他么不重要,只是数字语音处理的核心还是有很多基本的试验过的而且是对的方法。(Tried and True Techniques)

自己的一些心得和总结

  1. 总体来说,这个introduction还是比较简单的,但总体读下来,其中有几句比较拗口的还是得多读几遍才能理解其中内在的逻辑关系。

  2. 有几个点很感兴趣但没有深入研究下去的

    • 现在常用的语音方面的coding算法是怎样的,包括采样速率,压缩算法,或者是否有一些协议,协议的相同点和不同的地方在哪?

    • Speaker synthesis 的Review, 这个领域觉得挺有意思,但一无所知

  3. 有些专业术语真难读有必要去系统学一下发音规则了

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,843评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,538评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,187评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,264评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,289评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,231评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,116评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,945评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,367评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,581评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,754评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,458评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,068评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,692评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,842评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,797评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,654评论 2 354

推荐阅读更多精彩内容

  • 从一场雨开始,想象弥漫天涯。 茫茫、了了、混沌凝望成眸眼。 雪花破开山石 窗外 银河点点 明日,草木拔萃,野兽食...
    宫尘阅读 187评论 0 4
  • 匆匆而来匆匆而去,似乎什么都没有改变又似乎什么都变了。 每个人都藏着许多故事,只不过情节不同,这个年龄了,也懒得去...
    _duoduo阅读 190评论 0 0
  • 择一城终老,遇一人白首 挽一帘幽梦,许一世繁华 写一字决别,延一梦长眠 我倾尽一生,求你无期。 择一人深爱,等一人...
    sunny的星期一阅读 566评论 1 1
  • What is React? React is a javaScript library created by ...
    rangel阅读 329评论 4 0
  • 小区推广的影响因素是什么呢?答案肯定是地域。那么一个小区地域内,流量最大的地方是哪儿呢? 1.小区附近门店 2.小...
    黄黄黄H阅读 341评论 2 0