音频编码中的声学原理(下)

摘要:   上文介绍了G711与MPEG-1的声学原理,这类编码器基于人耳感知模型,尽管适用于语音和音乐信号,但主要目的是编码出高质量的音频娱乐信号,如器乐和声乐信号。本文将介绍另一类音频编码器,它们基于发声模型,用于编码语音信号。

1、发音模型

1.1 浊音与清音

浊音产生的机理如下:

当声带(Vocal Cords)闭合时,从肺部排出的空气在声带后面形成压力,直到声带最终被分开。当空气从分开的声带中流出时,根据贝怒利定律(流体系统中,流速越快,流体产生的压力越小),空气压力下降,导致声带再次闭合。声带按准周期进行打开和关闭的循环,形成了准周期的脉冲。通过咽、口和鼻道时,这些脉冲被频率整形。

图1 声带横截面简图

清音是通过声道的某些位置形成部分收缩,强制空气以足够高的速度通过收缩点产生扰动而产生的。这会产生类似宽带噪声的声音(如单词see)。

如图2所示,浊音可以很容易通过波形的准周期特性识别,这些区域标为V;清音识别比较困难,它们很容易和背景信号混淆,这些区域标为U。

图2 语音波形,浊音(V)、清音(U)和静音(S)

浊音波形中重复波形的局部时间也被称为基音周期。如图3所示,矩形内的波形不断重复,每个矩形持续的时间就是基音周期。

图3 语音波形中估计出基音周期


1.2 声门脉冲模型

对于浊音,声门会影响产生的准周期信号的波形。

声门脉冲的建模如图4所示,通过调整脉冲长度可以适应不同的基音周期并建模不同的声门开合比率。

图4 单声门脉冲模型

对图4的脉冲模型进行傅里叶变换后的频率响应如图5所示,可以看出声门脉冲本身有低通特性,高频部分会被削弱。

图5 单声门脉冲的傅里叶变换

1.3 声道模型

对声道模型主要考虑声道面积、声波在声道中的反射和声波在声门和嘴唇的损失。

1.4 辐射模型

对嘴唇的辐射建模可以假设辐射面处于一个无限延伸的平面障碍中,如图6所示。

图6 无限平面挡板地辐射

1.5 完整模型

图7 语音发声模型

2、线性预测编码(LPC)

根据语音的发声模型,只要提供准确的语音参数,就能还原出语音波形。

图8给出了发声模型的一种简化形式。滤波器H(z)不仅包含了声道共振作用,也包含唇部辐射作用,在浊音情况下还包含了声门脉冲形状的谱效应,H(z)被称为声道系统函数。对于浊音,这个系统受一个准周期脉冲串激励,对于清音,系统受随机噪声序列激励。

图8 简化的系统语音产生模型框图

该模型需要的参数有:

    1、浊音/清音分类

    2、浊音的基音周期

    3、增益参数G

    4、H(z)的滤波器系数 {{a_{k}, k=1,2,...,p }}

浊音/清音分类和基音周期检测有其他方法估计,不在这里讨论。

LPC用线性预测分析方法,通过分析语音信号得到H(z)的滤波器系数 {{a_{k}, k=1,2,...,p }} 和增益参数G。由于语音信号的时变性,分析程序是取一小段语音帧(10-30ms)来估计滤波器系数(语音有短时平稳的性质)。该分析程序的目的是找出一组滤波器系数a_{k} ,使得预测误差的均方差最小。

模型输出的语音采样s[n]可以用如下的差分方程来表示:

s[n]=\sum_{k=1}^pa_{k}s[n-k]+e[n]

其中加权项\sum_{k=1}^pa_{k}s[n-k]为预测信号,e[n]为预测误差:

e[n]=s[n]-\sum_{k=1}^pa_{k}s[n-k]

e[n]的均方预测误差(MSE)定义为:

\varepsilon_{n} =\sum_{m}^\  e^2[m]= \sum_{m}^\ (s[m]-\sum_{k=1}^pa_{k}s[m-k]  )^2

为了求得使\varepsilon_{n}最小的各个a_{k} 值,令∂\varepsilon _{n}/ ∂a _{k}=0, i = 1, 2, . . . , p,求偏导后可得方程组:\sum_{m}^\ s[m-i]s[m]=\sum_{k=1}^p a_{k}\sum_{m}^\ s[m-i]s[m-k], 1\leq i \leq p

根据该方程组,最小均方误差可以表示为:

\varepsilon_{n} =\sum_{m}^\  s^2[m] - \sum_{k=1}^pa_{k}\sum_{m}^ \ s[m]s[m-k]

写成自相关形式:

\sum_{k=1}^pa_{k}R[|i-k|]=R[i], a\leq i \leq p

方程组可以用托普利兹(Toeplize)矩阵(它是对称的,而且任意一条对角线上的所有元素相等)表示:

对矩阵进行求解可算出滤波器系数a_{k}

参考文献

[1] Steven W.Smith.Digital Signal Processing[M]

[2] Lawrence R.Rabiner, Ronald W.Schafer.Theory and Applications of Digital Speech Processing[M]

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • [TOC] 歌声合成原理 歌唱产生的音乐成为歌声。歌唱更注意着重于通过横膈膜和腹部甚至下腹部肌肉来调整呼吸, 从而...
    缠禅可禅阅读 2,036评论 0 0
  • 第三章 语音信号特征分析 语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线...
    锅锅Iris阅读 10,099评论 3 8
  • 女性基音频率高,基音周期(基音频率)是由声带张开闭合的周期所决定的,只有浊音的产生与声带的闭合开张相关,故要检测基...
    dingtom阅读 3,001评论 0 0
  • 语音信号特征:能量 基音频率 共振峰 处理阶段:数字化预处理端点检测提取语音特征、计算 能量分短时能量和短时平...
    三木仔阅读 1,189评论 0 1
  • 摘要: 为了在保证音频质量的前提下提高音频编码的压缩率,不同的音频编码器基于人的发音模型与感知模型实现了各自的编码...
    myroncml阅读 1,406评论 0 0