语音分析有一个重要假设：短时不变。假设在极短的时间，如20ms内，声音信号不发生变化，这个时间片段称为语音的帧。从而我们可以将语音信号离散化，利用这一帧附近信号在时域、频域的分布提取语音在这个时刻的特征。

短时语音模型

image.png

如上篇所述，语音分为两类：清音UnVoiced 和浊音 Voiced，它们的激励源分别发出准周期脉冲信号和随机噪声。

在短时（一帧）内，可以认为激励源和滤波器都有固定的系数，从而
完整发声信号 = 一固定滤波器对激励信号的卷积

image.png

汉明窗

为提取一时刻语音的特征需要利用周围的语音信号。离这个时刻越近则所带权重越大。于是定义了汉明窗

image.png

汉明窗在时域上越远离关注点取值越低，在频域上为低通滤波的效果，下图举一个信号加窗的例子

窗长40，间隔15

求短时特征的一般方法

求解的基本模式是一个卷积过程

image.png

XnHat：第n帧的参数向量
x：原始信号
w：时域窗
T {}：定义了所求参数的性质

下面列举书中提到的短时特征以及求解方法

1. 短时能量 Short-Time Energy

image.png

短时能量的 T{} 为对窗内采样点的简单平方

2. 短时过零率 zero-crossing rate

以窗为权重对过零次数做加权平均
用下面的数学公式表达其实化简为繁了：

image.png

实例分析

过零率和能量都能用于判断是否发音

image.png

左半unvoice - 右半 voice
由于hamming的低通滤波特性，过零率和能量在时域上都比原始信号平滑，故采样率可以更低

3. 短时自相关函数 Short-Time Autocorrelation Function (STACF)

自相关函数可检测信号周期性，也是谱分析的基本方法

image.png

自相关函数为偶函数，由对称性可得：

image.png

其中：w˜l[m] = w[m]w[m + f].
可看作另一窗函数wBarL的卷积

由 s[n] = e[n] ∗ h[n]，和自相关函数的性质可得：

image.png

故对于周期信号（voiced）

image.png

对于噪声（unvoiced）

image.png

实例分析

image.png

4. 短时傅里叶变换 Short-Time Fourier Transform (STFT)

image.png

STFT是对于信号 xnˆ[m] = x[m]w[nˆ − m] 的离散时间傅里叶变换DTFT
是关于两个变量 n^: index of frame，欧米伽^: 频率的函数

STFT也可看作卷积

image.png

语音分析（二）：短时分析

语音分析（二）：短时分析

短时语音模型

汉明窗

求短时特征的一般方法

1. 短时能量 Short-Time Energy

2. 短时过零率 zero-crossing rate

实例分析

3. 短时自相关函数 Short-Time Autocorrelation Function (STACF)

实例分析

4. 短时傅里叶变换 Short-Time Fourier Transform (STFT)

推荐阅读更多精彩内容