作者:秋半仙,哼哼
咳咳,童鞋们都到齐了吗?那啥,后排的童鞋赶紧找位置做好,我们的分享会马上开始了哈~
今天秋半仙我hin是激动啊~为啥?因为咱们终于快收拾完这信号处理五大刺头了。今天,我们就要花式吊打一下这五大刺头之首——人。(鼓掌👏👏👏~撒花~)
要成为五大刺头之首,没两把刷子是不行的。而“人”的刷子主要有以下几把:
人声。这是信号处理中与人相关的最重要的因素之一。在音频中,人声主要以“声源”和“噪声源”这两种角色存在,而这把刷子的厉害之处就在于这亦正亦邪的双重身份。人家川剧变个脸至少还换了个面具,可人从“声源”变成“噪声源”那整的跟真假猴王似的,啥也没变,就一边嘚瑟一边跟信号处理叫嚣:来抓我呀来抓我呀~ 唉,可是急坏信号处理宝宝了~
人为造成的声音。比如拍手、敲桌子、敲玻璃等这些人为的但不是人发出的声音,有时也会被信号处理误解为人发出的指令而导致识别效果不佳。
人发出的无具体含义的声音。英文中这类声音叫“filler”,如“呃”,“嗯”等。这种声音因为确实是人发出的,且与某些词或者某些词的尾部音节同音,所以很容易给信号处理带来误解。
鉴于后两把刷子和后面要聊的“语音识别”部分有很多交集,而本次分享主要聊“信号处理”,所以本半仙在这里侧重描述人声的问题。
“人声”主要从三个角度来思考:
相对位置。这里的相对位置指的是以设备为中心,多人处于不同区域,以及多人与设备处于线性区域内的情况。
说话方式。这包含语速、音量等,还有连读、轻音、爆破音、轻重音、停顿等,还有多语种混读等等(设想一下让本半仙这种英语渣渣用英语给指令得把信号识别折磨得多惨,mua哈哈哈哈哈哈~)。
自身状态。一些身体不适,比如感冒、呼吸道感染等可能会导致声音严重嘶哑或者断续。
后两个角度相对比较好理解,我这里就不赘述了,这里主要聊聊相对位置:
假设一个场景:场景中包含语音识别设备二傻,说话人哼哼及至少1个人作为噪声源,此处暂定为本半仙我。根据以上场景我们围绕“位置”这个维度的变化来探讨(特例:一个房间,在房间各个角落的某些特定位置放置麦克风来采集房间内的人的声音,这里不属于此类场景):
以二傻为中心,如果噪声源秋半仙和说话人哼哼在不同角度的区域,那二傻处理起信号来就不傻,如下图:
如果噪声源和说话人在同一个角度的线性区域内,这时候二傻可能就会变傻,甚至可能无法区分说话人和噪声源,从而导致信号处理之后,两个人的声音都被混在一起保留下来(这个可能性极大)。具体如下图:
下图为车内多人的真实场景的示意图:主驾后排说话人的声音通过声音的反射,就闯入了有效区域,且和主驾说话人处在了“同一个角度的线性区域内”,从而被当成有效人声被采集。副驾说话人,处在“不同角度区域”内,被成功抑制。
这个地方有很多童鞋都提出过方案:
根据“距离”来将两个声源分开,然后两个声源分别去做语音和语义,根据最终的“语义”的“有效性”来判定哪个是“声源”哪个是“噪声源”。
将这两个声源去做”声纹识别“,可以要求说话人的声纹是已知的,这样就可以根据声纹的比对,来确认”声源“,从而正确响应说话人的指令。
把这两个声源都当成”声源“,依次做出响应。
这几种产品方案看起来都是有可行性的,但他们又一个共同的难点,那就是:”两个声源“如何有效”分离“?
或许不惜成本去做能够做到,但是今天在市面上的商品化的产品中,还没有一款做到了,甚至连演示的demo,本半仙也只是看到了”不同角度区域“依次响应的案例,”同一角度区域“的案例还没见过。如果有哪位童鞋看到过,也烦请分享一下给我。有兴趣的童鞋也可以和信号的算法童鞋聊聊这个话题,大家一起探讨探讨。
但话说回来,“在同一个角度区域中同时说话”的概率其实并不高,所以,”两个人的声音都被混在一起保留下来“的结果也并非不可接受。产品童鞋在产品的设计中,还是要尽量引导用户避免这么去使用语音产品。
再说回说话方式和自身状态。这两点主要是考量对于“人声”的辨识,这是语音的基础工作,语音公司一般都能做到一定程度。这些主要影响后面的语音识别,而且主要的几个思考方向都表述清楚了,可以按照这个思路去验证语音能力的效果。如果效果偏差,可以挑选出具体的场景,安排人员,采集尽可能全面、丰富、高质量的音频数据交给算法的同学,方便他们去优化算法和能力。当然,这个主要涉及下个环节,所以我们下次分享会再细聊。
那“信号处理”具体是怎么实现的?其实本半仙也不知道(对的,本半仙也有算不到的天机,怎么着吧),术业有专攻,这个问题还是留给最专业的人去思考和解决吧。产品作为一个业务的驱动力,虽然不需要真正去实现“信号处理”,但还是需要去深入了解它,这样可以在产品的顶层设计时,就能够帮助整个团队规避大量的前期风险,大大减少花在探索上的时间和金钱,也能减少落地过程中很多潜在的执行风险。产品在驱动整个team协同作战,对每个细节都需要深入了解,才能真正帮助团队创造最大的价值。
—THE END—