语音识别基础

语音是什么

语音基本保存形式可用波形图展现出来，如图1.1。可简单看作是一串上下摆动的数字序列。

图1.1：语音文件波形图

进一步放大波形图，可以清晰看到每个采样点，如图1.2

图1.2: 语音文件的采样点

可使用soxi命令查看文件信息，如图1.3。包含信道、采样率、精度、时长等信息，其中文件大小=格式信息+信道数*采样率*精度*时长

图1.3：语音文件的格式信息

语音是包含时序信息的序列，是时域上的一维信号。通过离散傅立叶变换（DFT）将时域转换到频域，如图1.4。使用傅立叶变换需假设语音的短时平稳性，因此语音的傅立叶变换以帧为单位，25ms为一帧。

图1.4：语音文件的频谱图

基本概念

信噪比（SNR）: 单位分贝，数值越高表示声音越感觉，噪音比例越小。

麦克风阵列：采用两个或两个以上的麦克风，主要实现功能：语音增强、声源定位、去混响、声源信号提取

声音的采样：把模拟信号转换为离散信号，标准是能够重现声音，与原始语音尽量保持一致。

采样率：表示每秒采样点数，单位赫兹（Hz）。采样需满足奈奎斯特定理：当采样率大于信号最高频率的两倍时，采样数字信号能够完整保留原始信号中的信息。

声音的量化：将每个采样值在幅度上再进行离散化处理，变成整形值。量化位数越多，失真越少，单占用存储空间越多，一般采用16位量化。

总结：

声音经采样后，模拟的电压信号变成离散的采样值，采样率要超过声音最高频率的两倍，才不会失真。常用的采样率包括8 kHz和16 kHz。声音的量化过程是指将每个采样值在幅度上进行离散化处理，使其变成整型数值。量化位数代表每次取样的信息量，量化会引入失真，因此要采用足够的位数，一般是16位。将声音的采样率和量化位数相乘得到比特率，其代表了每个样本每秒量化的比特位数。

参考地址：https://mp.weixin.qq.com/s/_jK4eTdboU9A-E785FUBJg