姓名:成杰 学号:21021210653 学院:电子工程学院
转自:https://zhuanlan.zhihu.com/p/450655248
【嵌牛导读】
语音是人类在讲话时所发出的声音,语音的最小基本单位是音素。由音素构成音节,音节构成不同的词或单词。音素分为元音和辅音。音素是区别单词声音的基础。
【嵌牛鼻子】
音素、人机交互、语音的产生与感知
【嵌牛提问】
如何从语音信号中提取出特征信息?
【嵌牛正文】
2.1 语音信号分帧
分帧的目的:语音信号是快速变化的非平稳参数信号,分帧后,每一帧的信号都可以近似看作平稳信号。一般把帧长取为20~50ms,这样一帧内既有足够多的周期,又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱。
帧移存在的目的:语音信号是时变的,在短时范围内特征变化较小,所以作为稳态来处理,但是超出这短时范围语音信号就有变化了。在相邻两帧之间基音发生了变化,如正好是两个音节之间,或者是声母向韵母过渡等等,这时,其特征参数有可能变化较大,但为了使特征参数平滑地变化,需要在两个不重叠的帧之间插入一些帧来提取特征参数,这就形成了帧移。这样帧与帧之间会有重叠,否则,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息就丢失了。帧移一般取帧长的1/3~1/2。
设帧移为inc,帧长为wlen,语音时长为N,采样频率为fs,共可分为fn帧。

2.2 窗函数
窗函数一般具有低通的特性,不同窗函数的选取会带来不同的带宽和频谱泄露,常见窗函数如下:

2.3 短时时域处理
2.3.1 短时能量和短时平均幅度
主要用途:区分清音段和浊音段(浊音的E(i)值比清音的E(i)值大);区分声母和韵母的分界和无话段与有话段的分界
设语音波形时域信号为x(n),加窗函数w(n)分帧处理后得到的第i帧语音信号为yi(n),则有

计算第 i 帧语音信号yi(n)的短时能量公式为:


语音信号的平均幅度定义为:

M(i) 也是一帧语音信号能量大小的表征,它与E(i)的区别在于计算时不论采样值的大小,不会因取二次方而造成较大差异,在某些领域会带来一些好处。
2.3.2 短时平均过零率
主要应用:判断清音和浊音(浊音过零率较低,清音过零率较高)、有话段和无话段(背景噪声较小时,用平均能量识别更有效,背景噪声较大时,用短时平均过零率识别较有效)
短时平均过零率:一帧语音中语音信号波形穿过横轴(零电平)的次数。
连续语音信号:过零:时域波形通过时间轴
离散信号:过零:相邻的取样值改变符号


2.3.3 短时平均幅度差函数(AMDF)
主要用途:基因周期检测,在基音周期处会出现谷值,并随时间的增加,谷值深度也会减退
每帧数据的短时平均幅度差函数定义为:
