语音识别基础

语音是什么

语音基本保存形式可用波形图展现出来,如图1.1。可简单看作是一串上下摆动的数字序列。

图1.1:语音文件波形图

进一步放大波形图,可以清晰看到每个采样点,如图1.2

图1.2: 语音文件的采样点

可使用soxi命令查看文件信息,如图1.3。包含信道、采样率、精度、时长等信息,其中文件大小=格式信息+信道数*采样率*精度*时长

图1.3:语音文件的格式信息

语音是包含时序信息的序列,是时域上的一维信号。通过离散傅立叶变换(DFT)将时域转换到频域,如图1.4。使用傅立叶变换需假设语音的短时平稳性,因此语音的傅立叶变换以帧为单位,25ms为一帧。

图1.4:语音文件的频谱图

基本概念


信噪比(SNR):  单位分贝,数值越高表示声音越感觉,噪音比例越小。

麦克风阵列:采用两个或两个以上的麦克风,主要实现功能:语音增强、声源定位、去混响、声源信号提取

声音的采样:把模拟信号转换为离散信号,标准是能够重现声音,与原始语音尽量保持一致。

采样率:表示每秒采样点数,单位赫兹(Hz)。采样需满足奈奎斯特定理:当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。

声音的量化:将每个采样值在幅度上再进行离散化处理,变成整形值。量化位数越多,失真越少,单占用存储空间越多,一般采用16位量化。


总结:

声音经采样后,模拟的电压信号变成离散的采样值,采样率要超过声音最高频率的两倍,才不会失真。常用的采样率包括8 kHz和16 kHz。声音的量化过程是指将每个采样值在幅度上进行离散化处理,使其变成整型数值。量化位数代表每次取样的信息量,量化会引入失真,因此要采用足够的位数,一般是16位。将声音的采样率和量化位数相乘得到比特率,其代表了每个样本每秒量化的比特位数。



参考地址:https://mp.weixin.qq.com/s/_jK4eTdboU9A-E785FUBJg

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。