语音信号的时域、频域特性和短时分析技术

姓名：成杰学号：21021210653 学院：电子工程学院

转自：https://zhuanlan.zhihu.com/p/450655248

【嵌牛导读】

语音是人类在讲话时所发出的声音，语音的最小基本单位是音素。由音素构成音节，音节构成不同的词或单词。音素分为元音和辅音。音素是区别单词声音的基础。

【嵌牛鼻子】

音素、人机交互、语音的产生与感知

【嵌牛提问】

如何从语音信号中提取出特征信息？

【嵌牛正文】

2.1 语音信号分帧

分帧的目的：语音信号是快速变化的非平稳参数信号，分帧后，每一帧的信号都可以近似看作平稳信号。一般把帧长取为20~50ms，这样一帧内既有足够多的周期，又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。

帧移存在的目的：语音信号是时变的，在短时范围内特征变化较小，所以作为稳态来处理，但是超出这短时范围语音信号就有变化了。在相邻两帧之间基音发生了变化，如正好是两个音节之间，或者是声母向韵母过渡等等，这时，其特征参数有可能变化较大，但为了使特征参数平滑地变化，需要在两个不重叠的帧之间插入一些帧来提取特征参数，这就形成了帧移。这样帧与帧之间会有重叠，否则，由于帧与帧连接处的信号会因为加窗而被弱化，这部分的信息就丢失了。帧移一般取帧长的1/3~1/2。

设帧移为inc，帧长为wlen，语音时长为N，采样频率为fs，共可分为fn帧。