一段时长30秒的音乐,采样频率为44100Hz,那么每秒钟的时间序列可以表示为44100维向量,整段音乐大约是130万。直接对这样高维的数据进行分类在实际中效果很差,而且给分类器带来很大的计算负担。
经典的声学特征:梅尔频率倒谱系数。
共振峰:声音频谱上能量相对集中的一些区域。
梅尔频率对频谱进行处理得到一组26维的特征。
倒谱是由上述26维特征再做变换,进一步降低到13维,这样就得到了MFCC特征。
语间识别:把人说的话转化为文字或者机器可以理解的指令。
把一系列语音转换为若干音素的过程利用了语言的声学特性,被称为声学模型。从音素到文字的过程,称为语言模型。