文/Mike
1、以前的认识
以前对麦克风的理解非常肤浅,以为就是一个麦克风,把声音转换成电信号,进行放大,可以存储也可以直接通过扬声器输出,最多就是知道麦克风有指向性,比如非常昂贵的话筒,或者是记者采访时用的那种很长的话筒,都是具有一定的指向性,对声源之外的其他方向的声音具有衰减作用。
后来由于一些原因,对麦克风的相关知识进行了调研(特别是麦克风矩阵),了解到麦克风的学问实在是博大精深。语音信号的处理难度一点都不亚于图像处理。
2、麦克风矩阵
那么麦克风矩阵是什么呢?经过调研,我总结为麦克风矩阵就是一组按照特定空间排布的麦克风组合
2.1、麦克风矩阵的发展
上个世纪七八十年代,麦克风阵列技术已经开始应用到语音技术的研究中,2000年左右,业界开始慢慢深入,进行基于麦克风阵列相关算法的专题研究。到了物联网时代,市场的刺激和产品的需求,极大的推动了相关的技术进展,尤其是2014年亚马逊echo的正式发布,这一领先性的语音技术迅速进入到民用级产品的应用范畴中。
2.2、麦克风矩阵的几个关键技术
因为麦克风阵列与单个麦克风相比,多了空间位置一个信息维度,于是对信号的处理就可以从空间、时间、频率三个维度进行处理,这样在噪声抑制、混响抑制、语音分离、语音增强等方面带来较大的提高,并且相对单麦克风,多出了一个声源定位。
- 声源定位
自身的几个麦克风的几何关系是固定的,相当于一个相对参考,那么语音信号到达不同麦克风就会差生时差(相位差),根据声音传播速度,利用简单的距离、速度、时间公式以及麦克风矩阵单元的相对位置关系,可以推算出语音信号源的相对位置。这种理解的定位算法是TDOA。
还有一个定位算法,电扫阵列,通过波束成形,产生有指向性的收音波束,然后对空间进行扫描,扫描到哪里的增益最大,就确定了该声源的方向,可以理解为,拿着一个指向性很好的话筒在空间里面扫描,当话筒接收到的信号最大的时候,我们就认为这是声源的方向。有点像定向雷达搜索目标。
另外一个超分辨谱估计,对协方差矩阵进行特征分解,构造关于方向的空间频谱,谱峰对应的方向即为声源方向。目前暂时不能理解这个定位算法的原理。
- 噪声抑制
麦克风矩阵的噪声抑制,最独特的一个算法就是波束成形,波束成形可以分为CBF和ABF,即常规波束成形和自适应波束成形。常规波束成形就是对阵列里面的各个麦克风的输出进行加权求和,简单理解为离声源近的权值就高,离声源远的权值就低,这样就形成了方向性。对声源方向以外的其他信号就具有一定的抑制特性,因为其他的权值比较低,相当于进行衰减。而自适应波束成形,就是各个通道的幅度权值是可以根据算法进行自动优化的。
延时求和的波束成形也可以用于语音增强,因为具有时间延迟,声音到达每个麦克风的时间其实是不一致的,对这个延时进行补偿,然后把声音信号进行叠加,这样就使得各个麦克风的输出信号在某一个方向上面同相,使得这个方向的入射信号的增益最大化。这样形成了空域滤波,也使得麦克风矩阵有了指向性。
3、关于面试时问题的答案
上次谈到的关于麦克风矩阵怎么可以抑制噪声的问题,主要就是上面谈到的波束形成的方法,每个麦克风单体对某一个入射角度的声音信号进行相位补偿后加权叠加,一方面对这个声源进行了增强,另一方面对其他入射角度的声音信号进行了抑制。