这里要用到音频处理库Librosa: https://librosa.github.io/librosa/

声音的特征

过零率:语音信号从正变为负或从负变为正的次数是频率成分的重心
频谱质心:描述音色属性的重要物理参数之一,是频率成分的重心
采样:将连续信号降为一组离散数值
通道数:用几个通道录制,单/双声道比较常见
位深:量化精度,一个样本值采用多少bit来表示
采样频率 :在固定时间中每个通道提取的样本数
幅值:在一段时间内,波形变化的测量
输入512维的声音特征,经过梅尔频率倒谱系数(MFCC:Mel-Frequency Cepstral Coefficients)变化,输出40维的特征。

预加重:正常的音频一般低频成分比高频成分多增加高频部分的能量使得能量分布更加均衡,使频谱光滑
分帧加窗:数字化的语音信号是一个不平稳的时变信号,具有短时平稳性,需要分帧。(通常将每帧的长度设为25ms,相邻两帧之间有10ms的帧移)
离散傅里叶变换(DFT):把音频信号从时域转到频域。
快速傅里叶变换(FFT)短时傅里叶变换(STFT)

Mel滤波:是为了建立 人类的听觉感知的频率到声音实频率的映射。



