一段声音的旅程(二)头疼的音频信号处理
作者:秋半仙,哼哼
上一篇讲到了语音产品的五大关键环节,有兴趣的童鞋可以自行回顾一段声音的旅程(一)语音产品的五大关键环节。
今天我们来讲讲这五大关键环节的第一个,也就是音频信号处理。
现在智能设备越来越多,有音箱、后视镜、机器人等等,但是语音的效果却参差不齐。有些人会把这个问题归结到“语音供应商”,说这是供应商语音能力不行,以至于今天很多客户在做语音引入的时候往往纠结于语音供应商的选择。从demo的效果上看,感觉各家供应商的产品都是这样的——
可一旦做到设备端里,出来的效果却是这样的——
其实对于语音落地到各种多端设备来说,最难的并不是语音和语义本身,最难的环节就是“音频信号处理”,信号处理出来的音频数据的好与坏,直接影响最终语音的识别效果,而语音的识别效果又直接影响语义的理解结果,这些都是环环相扣的。这就好比你家没买好学区房,你娃就很可能上不了好小学,上不了好小学就可能上不了好中学,上不了好中学就可能上不了好大学,上不了好大学你娃就很可能变成一个啥也干不了只会抠脚啃老的巨婴,是不是想想就好怕怕😱😱😱?(又一不小心暴露了本半仙中年危机买不起房的屌丝心理)
既然买学区房,哦不,既然音频信号处理这么重要,本半仙掐指一算,和本半仙一样爱学习的童鞋一定偷偷上网搜索了一下“信号处理”,一定看到一大堆的原理图、公式、代码,也一定觉得非常的痛苦,完全不知道从何入手……
来来来,不要着急,本半仙早就给各位童鞋算好了出路。学习一个完全不在我们知识体系中的知识,我一般建议从两个方面着手,一个是学以致用,也就是从“用”这个目的出发,可以有针对性地有目的性的快速使用知识;另一个是类比想象,将陌生的东西类比到自己熟悉的东西上,从而降维理解,在认知层面快速理解知识;因为我们不需要去真正实现这些东西,自然我们也就不需要逼着自己去看那些不知道对错的公式,特别是艺术设计类毕业的同学。
“信号处理”作为每次语音体验的开始环节,直接影响了每次语音体验。之所以希望产品人员去了解“信号处理”,是希望他们可以去真正了解那些影响语音产品体验的关键因素到底有哪些,以及每种情况对于产品体验的影响到底有多大,从而在产品设计初期,扩展思维,合理创新。在前期,能够帮助团队有效规避一些前期风险;在中后期时,能够帮助及协调团队正确应对和解决问题~
“人”负责”听清楚“这个环节的是”耳朵“,我们可以回忆生活中关于”人耳“的”听清楚“的一些具体例子,比如:
1、堵住一只耳,只用一只耳听的时候会有什么问题?是不是感觉有点区分不出声音的具体位置?
2、如果隔壁在装修,电钻打得整个房间都在震,你在看电视,想听清楚电视里的声音,是不是会很困难?同样,课堂上大家都在说话,想听清楚老师讲课的内容是不是也很困难?
3、如果一个人感冒了,声音变得很含糊,或者一个性子很急思维很快的人,语速超级快,要听清楚是不是也会很吃力?(此处心疼遇到语速快的演讲者的口译员三秒钟)……
图片源自网络
这里引入两个方法论,“黑箱理论”和“黑箱方法”:
1、“黑箱理论”。所谓“黑箱”,就是指那些既不能打开,又不能从外部直接观察其内部状态的系统,比如人们的大脑只能通过信息的输入输出来确定其结构和参数。
2、“黑箱方法”。黑箱是我们未知的世界,也是我们要探知的世界。我们只能在不直接影响原有客体黑箱内部结构、 要素和机制的前提下通过观察黑箱中“输入”、“输出”的变量,得出关于黑箱内部情况的推理,寻找、发现其内部 规律,实现对黑箱的控制。“黑箱方法”从综合的角度为人们提供了一条认识事物的重要途径,尤其对某些内部结构比较复杂的系统。对迄今为止人们的力量尚不能分解的系统,“黑箱理论”提供的研究方法是非常有效的。
简单来说,就是把一个事物看成是一个既不能打开,也不能观察内部运作的“黑箱”。我们通过在外围观察,来对这个黑箱的“输入”、“输出”进行思考和推理,找寻规律;注意其目的是找规律。我们需要深入去思考,输入具体包含什么,输出具体包含什么,从而得到自己想得到的规律。如果再延伸得复杂一点,黑箱本身也在演进,所以,更深层次的目的则是从中发现规律演变的规律。
看到这儿各位童鞋是不是觉得有点晕?晕就对了!但是我们回忆一下,在以前还没有准确便捷的天气预报的时候,每当我们看到燕子低旋、蚂蚁搬家、鱼儿出水、蜻蜓低飞等等便知道过不了多久就要下雨。“天象”就像一个“黑箱”,我们并不知道为什么会下雨,但是秋半仙和各位的祖先们通过不断的观察和总结,理出了一些规律。“下雨”这个“黑箱”,在下雨前会有一些“输出”,这些输出表现出来就是“燕子低旋”、“蚂蚁搬家”、“鱼儿出水”、“蜻蜓低飞”;祖先们还没有现代的认知水平,对于“下雨”的现象还无法解释,于是秋半仙的祖宗秋大神开始给他的后代秋大仙编,哦不,是传授各种神话故事。慢慢地秋大仙的认知开始不断提升,开始懂得“水汽”、“冷凝”等等知识之后,慢慢地解开了“黑箱”的未知,也认识到秋大神所说的“神话故事”纯属扯淡,其实背后包含了“科学”的“自然现象”。于是秋大仙又把这个结论传授给了秋半仙(诶,怎么感觉我家祖祖辈辈越混越差…… Anyway,本半仙有的时候在想,如果未来我的娃秋小仙进化到一个新的认知高度,会不会回过头推翻他老子认知中的“科学”呢?呵呵~)
前面举的例子中,我们可以把人耳整体看作一个黑箱,那么实验能够告诉我们,耳朵的工作方式里,两只耳朵相互辅助能够有效辨识声源的位置;环境的噪音会极大干扰我们耳朵提取声源内容的效果;声源自身的状态也会极大影响我们耳朵提取内容的效果……
那么这些生活中的观察,在让我们头疼的“信号处理”中会带来什么启发呢?同样把“信号处理”当成一个“黑箱”,我们可以通过大量实验去理解这个“黑箱”的运作规律,扬长避短,并将其最大的潜力运用到极致,给用户带来最极致的体验。或许,这就是今天“产品”的职责和价值所在吧。
以上是本大仙在研究和学习“信号处理”时的思维方法,希望能够帮助大家更好地去“发现规律”。接下来,本大仙将把过去信号处理方面的经验,梳理总结为“五大不安因素”,帮助大家缩短在信号处理上“发现规律”的从0到1的时间。
恩,啥也别说了,点赞吧!