语音分析有一个重要假设:短时不变。假设在极短的时间,如20ms内,声音信号不发生变化,这个时间片段称为语音的帧。从而我们可以将语音信号离散化,利用这一帧附近信号在时域、频域的分布提取语音在这个时刻的特征。
短时语音模型
image.png
如上篇所述,语音分为两类:清音UnVoiced 和浊音 Voiced,它们的激励源分别发出准周期脉冲信号和随机噪声。
在短时(一帧)内,可以认为激励源和滤波器都有固定的系数,从而
完整发声信号 = 一固定滤波器对激励信号的卷积
image.png
汉明窗
为提取一时刻语音的特征需要利用周围的语音信号。离这个时刻越近则所带权重越大。于是定义了汉明窗
image.png
image.png
汉明窗在时域上越远离关注点取值越低,在频域上为低通滤波的效果,下图举一个信号加窗的例子
窗长40,间隔15
求短时特征的一般方法
求解的基本模式是一个卷积过程
image.png
XnHat:第n帧的参数向量
x:原始信号
w:时域窗
T {}:定义了所求参数的性质
下面列举书中提到的短时特征以及求解方法
1. 短时能量 Short-Time Energy
image.png
短时能量的 T{} 为对窗内采样点的简单平方
2. 短时过零率 zero-crossing rate
以窗为权重对过零次数做加权平均
用下面的数学公式表达其实化简为繁了:
image.png
实例分析
过零率和能量都能用于判断是否发音
image.png
左半unvoice - 右半 voice
由于hamming的低通滤波特性,过零率和能量在时域上都比原始信号平滑,故采样率可以更低
3. 短时自相关函数 Short-Time Autocorrelation Function (STACF)
自相关函数可检测信号周期性,也是谱分析的基本方法
image.png
自相关函数为偶函数,由对称性可得:
image.png
其中:w˜l[m] = w[m]w[m + f].
可看作另一窗函数wBarL的卷积
由 s[n] = e[n] ∗ h[n],和自相关函数的性质可得:
image.png
故对于周期信号(voiced)
image.png
对于噪声(unvoiced)
image.png
实例分析
image.png
4. 短时傅里叶变换 Short-Time Fourier Transform (STFT)
image.png
STFT是对于信号 xnˆ[m] = x[m]w[nˆ − m] 的离散时间傅里叶变换DTFT
是关于两个变量 n^: index of frame,欧米伽^: 频率 的函数
STFT也可看作卷积
image.png