语音信号的时域、频域特性和短时分析技术

姓名:成杰     学号:21021210653    学院:电子工程学院

转自:https://zhuanlan.zhihu.com/p/450655248

【嵌牛导读】

语音是人类在讲话时所发出的声音,语音的最小基本单位是音素。由音素构成音节,音节构成不同的词或单词。音素分为元音和辅音。音素是区别单词声音的基础。

【嵌牛鼻子】

音素、人机交互、语音的产生与感知

【嵌牛提问】

如何从语音信号中提取出特征信息?

【嵌牛正文】 

2.1 语音信号分帧

分帧的目的:语音信号是快速变化的非平稳参数信号,分帧后,每一帧的信号都可以近似看作平稳信号。一般把帧长取为20~50ms,这样一帧内既有足够多的周期,又不会变化太剧烈。每帧信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱。

帧移存在的目的:语音信号是时变的,在短时范围内特征变化较小,所以作为稳态来处理,但是超出这短时范围语音信号就有变化了。在相邻两帧之间基音发生了变化,如正好是两个音节之间,或者是声母向韵母过渡等等,这时,其特征参数有可能变化较大,但为了使特征参数平滑地变化,需要在两个不重叠的帧之间插入一些帧来提取特征参数,这就形成了帧移。这样帧与帧之间会有重叠,否则,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息就丢失了。帧移一般取帧长的1/3~1/2。

设帧移为inc,帧长为wlen,语音时长为N,采样频率为fs,共可分为fn帧。


2.2 窗函数

窗函数一般具有低通的特性,不同窗函数的选取会带来不同的带宽和频谱泄露,常见窗函数如下:


2.3 短时时域处理

2.3.1 短时能量和短时平均幅度

主要用途:区分清音段和浊音段(浊音的E(i)值比清音的E(i)值大);区分声母和韵母的分界和无话段与有话段的分界

设语音波形时域信号为x(n),加窗函数w(n)分帧处理后得到的第i帧语音信号为yi(n),则有


计算第 i 帧语音信号yi(n)的短时能量公式为:




语音信号的平均幅度定义为:

M(i) 也是一帧语音信号能量大小的表征,它与E(i)的区别在于计算时不论采样值的大小,不会因取二次方而造成较大差异,在某些领域会带来一些好处。

2.3.2 短时平均过零率

主要应用:判断清音和浊音(浊音过零率较低,清音过零率较高)、有话段和无话段(背景噪声较小时,用平均能量识别更有效,背景噪声较大时,用短时平均过零率识别较有效)

短时平均过零率:一帧语音中语音信号波形穿过横轴(零电平)的次数。

连续语音信号:过零:时域波形通过时间轴

离散信号:过零:相邻的取样值改变符号



2.3.3 短时平均幅度差函数(AMDF)

主要用途:基因周期检测,在基音周期处会出现谷值,并随时间的增加,谷值深度也会减退

每帧数据的短时平均幅度差函数定义为:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 第三章 语音信号特征分析 语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线...
    锅锅Iris阅读 10,626评论 3 8
  • 语音分析有一个重要假设:短时不变。假设在极短的时间,如20ms内,声音信号不发生变化,这个时间片段称为语音的帧。从...
    Fane_W阅读 2,366评论 0 1
  • reference 《spoken language processing》 1 语音基础 名词解释 pitch ...
    艺术叔阅读 17,147评论 2 48
  • 姓名:成杰 学号:21021210653 学院:电子工程学院 转自:https://zhuanlan.zhih...
    成杰_6fe7阅读 1,094评论 0 1
  • librosa是一个非常强大的python语音信号处理的第三方库,本文参考的是librosa的官方文档,本文主要总...
    魏鹏飞阅读 17,947评论 1 7

友情链接更多精彩内容