Filter Banks & MFCCs

推荐一个非常好的网址,它介绍 filter banks 和 MFCCs 得非常好。

并且我的总结就是来自于这个网址, 并且学习到的代码记录在github


首先 Filter  Banks 和 MFCCs 的原理流程框图如图1 所示。


图1  Filter  Banks 和 MFCCs 的原理流程框图



总结的一些知识点:

1、预加重使用公式  y(t)=x(t)−αx(t−1) , α 一般取 0.95 或 0.97

在存在均值归一化的情况下,预加重可能起到的作用并不大,因此在现在的语音识别系统中并不要求有预加重这一操作。

2、语音处理中的典型帧大小范围为20ms至40ms,连续帧之间具有50%(+/- 10%)重叠。

3、hanming window : w[n] = 0.54 - 0.46cos(\frac{2\pi n}{N-1} ) , 其中 N 是 一帧包含的点数。

4、N 点 FFT 一般 N 取 256 或 512 且功率谱的计算公式为: P = \frac{\vert FFT(x_{i} )^2  \vert }{N}

5、filter banks 的个数即为三角滤波器的个数,一般取 40 。 频率 f 和 mel 频率的映射公式如下,记得在编程时使用小数(例如:700 --> 700.0)


6、三角滤波器的方程及图为:


7、如果机器学习算法不易受高度相关输入的影响,请使用Mel缩放滤波器组。 如果机器学习算法易受相关输入的影响,请使用MFCC。(不太理解这句话的意思。。。)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 理财早已成为一种技能,将现有的资金进行投资理财,细水长流,以财生财。很多年轻人都是月光族,信用卡好几张,理财对于他...
    车呗理财阅读 1,017评论 0 0
  • 元旦寄语 文/翟德生 元旦伊始,万象更新。 春天正悄悄地向我们走来。 看,冰雪渐渐的消融。听,鸟儿们合唱着春天的赞...
    翟德生阅读 460评论 4 10