摘要: 上文介绍了G711与MPEG-1的声学原理,这类编码器基于人耳感知模型,尽管适用于语音和音乐信号,但主要目的是编码出高质量的音频娱乐信号,如器乐和声乐信号。本文将介绍另一类音频编码器,它们基于发声模型,用于编码语音信号。
1、发音模型
1.1 浊音与清音
浊音产生的机理如下:
当声带(Vocal Cords)闭合时,从肺部排出的空气在声带后面形成压力,直到声带最终被分开。当空气从分开的声带中流出时,根据贝怒利定律(流体系统中,流速越快,流体产生的压力越小),空气压力下降,导致声带再次闭合。声带按准周期进行打开和关闭的循环,形成了准周期的脉冲。通过咽、口和鼻道时,这些脉冲被频率整形。
清音是通过声道的某些位置形成部分收缩,强制空气以足够高的速度通过收缩点产生扰动而产生的。这会产生类似宽带噪声的声音(如单词see)。
如图2所示,浊音可以很容易通过波形的准周期特性识别,这些区域标为V;清音识别比较困难,它们很容易和背景信号混淆,这些区域标为U。
浊音波形中重复波形的局部时间也被称为基音周期。如图3所示,矩形内的波形不断重复,每个矩形持续的时间就是基音周期。
1.2 声门脉冲模型
对于浊音,声门会影响产生的准周期信号的波形。
声门脉冲的建模如图4所示,通过调整脉冲长度可以适应不同的基音周期并建模不同的声门开合比率。
对图4的脉冲模型进行傅里叶变换后的频率响应如图5所示,可以看出声门脉冲本身有低通特性,高频部分会被削弱。
1.3 声道模型
对声道模型主要考虑声道面积、声波在声道中的反射和声波在声门和嘴唇的损失。
1.4 辐射模型
对嘴唇的辐射建模可以假设辐射面处于一个无限延伸的平面障碍中,如图6所示。
1.5 完整模型
2、线性预测编码(LPC)
根据语音的发声模型,只要提供准确的语音参数,就能还原出语音波形。
图8给出了发声模型的一种简化形式。滤波器H(z)不仅包含了声道共振作用,也包含唇部辐射作用,在浊音情况下还包含了声门脉冲形状的谱效应,H(z)被称为声道系统函数。对于浊音,这个系统受一个准周期脉冲串激励,对于清音,系统受随机噪声序列激励。
该模型需要的参数有:
1、浊音/清音分类
2、浊音的基音周期
3、增益参数G
4、H(z)的滤波器系数 {}
浊音/清音分类和基音周期检测有其他方法估计,不在这里讨论。
LPC用线性预测分析方法,通过分析语音信号得到H(z)的滤波器系数 {} 和增益参数G。由于语音信号的时变性,分析程序是取一小段语音帧(10-30ms)来估计滤波器系数(语音有短时平稳的性质)。该分析程序的目的是找出一组滤波器系数,使得预测误差的均方差最小。
模型输出的语音采样s[n]可以用如下的差分方程来表示:
其中加权项为预测信号,e[n]为预测误差:
e[n]的均方预测误差(MSE)定义为:
为了求得使最小的各个值,令,求偏导后可得方程组:
根据该方程组,最小均方误差可以表示为:
写成自相关形式:
方程组可以用托普利兹(Toeplize)矩阵(它是对称的,而且任意一条对角线上的所有元素相等)表示:
对矩阵进行求解可算出滤波器系数。
参考文献
[1] Steven W.Smith.Digital Signal Processing[M]
[2] Lawrence R.Rabiner, Ronald W.Schafer.Theory and Applications of Digital Speech Processing[M]