语音是什么
语音基本保存形式可用波形图展现出来,如图1.1。可简单看作是一串上下摆动的数字序列。
图1.1:语音文件波形图
进一步放大波形图,可以清晰看到每个采样点,如图1.2
图1.2: 语音文件的采样点
可使用soxi命令查看文件信息,如图1.3。包含信道、采样率、精度、时长等信息,其中文件大小=格式信息+信道数*采样率*精度*时长
图1.3:语音文件的格式信息
语音是包含时序信息的序列,是时域上的一维信号。通过离散傅立叶变换(DFT)将时域转换到频域,如图1.4。使用傅立叶变换需假设语音的短时平稳性,因此语音的傅立叶变换以帧为单位,25ms为一帧。
图1.4:语音文件的频谱图
基本概念
信噪比(SNR): 单位分贝,数值越高表示声音越感觉,噪音比例越小。
麦克风阵列:采用两个或两个以上的麦克风,主要实现功能:语音增强、声源定位、去混响、声源信号提取
声音的采样:把模拟信号转换为离散信号,标准是能够重现声音,与原始语音尽量保持一致。
采样率:表示每秒采样点数,单位赫兹(Hz)。采样需满足奈奎斯特定理:当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。
声音的量化:将每个采样值在幅度上再进行离散化处理,变成整形值。量化位数越多,失真越少,单占用存储空间越多,一般采用16位量化。
总结:
声音经采样后,模拟的电压信号变成离散的采样值,采样率要超过声音最高频率的两倍,才不会失真。常用的采样率包括8 kHz和16 kHz。声音的量化过程是指将每个采样值在幅度上进行离散化处理,使其变成整型数值。量化位数代表每次取样的信息量,量化会引入失真,因此要采用足够的位数,一般是16位。将声音的采样率和量化位数相乘得到比特率,其代表了每个样本每秒量化的比特位数。
参考地址:https://mp.weixin.qq.com/s/_jK4eTdboU9A-E785FUBJg