语音分析(二):短时分析

语音分析有一个重要假设:短时不变。假设在极短的时间,如20ms内,声音信号不发生变化,这个时间片段称为语音的帧。从而我们可以将语音信号离散化,利用这一帧附近信号在时域、频域的分布提取语音在这个时刻的特征。

短时语音模型

image.png

如上篇所述,语音分为两类:清音UnVoiced 和浊音 Voiced,它们的激励源分别发出准周期脉冲信号和随机噪声。

在短时(一帧)内,可以认为激励源和滤波器都有固定的系数,从而
完整发声信号 = 一固定滤波器对激励信号的卷积


image.png

汉明窗

为提取一时刻语音的特征需要利用周围的语音信号。离这个时刻越近则所带权重越大。于是定义了汉明窗


image.png

image.png

汉明窗在时域上越远离关注点取值越低,在频域上为低通滤波的效果,下图举一个信号加窗的例子


窗长40,间隔15

求短时特征的一般方法

求解的基本模式是一个卷积过程


image.png

XnHat:第n帧的参数向量
x:原始信号
w:时域窗
T {}:定义了所求参数的性质

下面列举书中提到的短时特征以及求解方法

1. 短时能量 Short-Time Energy

image.png

短时能量的 T{} 为对窗内采样点的简单平方

2. 短时过零率 zero-crossing rate

以窗为权重对过零次数做加权平均
用下面的数学公式表达其实化简为繁了:

image.png

实例分析

过零率和能量都能用于判断是否发音


image.png

左半unvoice - 右半 voice
由于hamming的低通滤波特性,过零率和能量在时域上都比原始信号平滑,故采样率可以更低

3. 短时自相关函数 Short-Time Autocorrelation Function (STACF)

自相关函数可检测信号周期性,也是谱分析的基本方法


image.png

自相关函数为偶函数,由对称性可得:


image.png

其中:w˜l[m] = w[m]w[m + f].
可看作另一窗函数wBarL的卷积

由 s[n] = e[n] ∗ h[n],和自相关函数的性质可得:


image.png

故对于周期信号(voiced)


image.png

对于噪声(unvoiced)
image.png

实例分析

image.png

4. 短时傅里叶变换 Short-Time Fourier Transform (STFT)

image.png

STFT是对于信号 xnˆ[m] = x[m]w[nˆ − m] 的离散时间傅里叶变换DTFT
是关于两个变量 n^: index of frame,欧米伽^: 频率 的函数

STFT也可看作卷积


image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容