一段声音的旅程(七)信号处理五大不安因素-人

作者:秋半仙,哼哼


咳咳,童鞋们都到齐了吗?那啥,后排的童鞋赶紧找位置做好,我们的分享会马上开始了哈~

今天秋半仙我hin是激动啊~为啥?因为咱们终于快收拾完这信号处理五大刺头了。今天,我们就要花式吊打一下这五大刺头之首——人。(鼓掌👏👏👏~撒花~)

要成为五大刺头之首,没两把刷子是不行的。而“人”的刷子主要有以下几把:

人声。这是信号处理中与人相关的最重要的因素之一。在音频中,人声主要以“声源”和“噪声源”这两种角色存在,而这把刷子的厉害之处就在于这亦正亦邪的双重身份。人家川剧变个脸至少还换了个面具,可人从“声源”变成“噪声源”那整的跟真假猴王似的,啥也没变,就一边嘚瑟一边跟信号处理叫嚣:来抓我呀来抓我呀~ 唉,可是急坏信号处理宝宝了~

Δ 图片来自网络

人为造成的声音。比如拍手、敲桌子、敲玻璃等这些人为的但不是人发出的声音,有时也会被信号处理误解为人发出的指令而导致识别效果不佳。

人发出的无具体含义的声音。英文中这类声音叫“filler”,如“呃”,“嗯”等。这种声音因为确实是人发出的,且与某些词或者某些词的尾部音节同音,所以很容易给信号处理带来误解。

鉴于后两把刷子和后面要聊的“语音识别”部分有很多交集,而本次分享主要聊“信号处理”,所以本半仙在这里侧重描述人声的问题。

“人声”主要从三个角度来思考:

相对位置。这里的相对位置指的是以设备为中心,多人处于不同区域,以及多人与设备处于线性区域内的情况。

说话方式。这包含语速、音量等,还有连读、轻音、爆破音、轻重音、停顿等,还有多语种混读等等(设想一下让本半仙这种英语渣渣用英语给指令得把信号识别折磨得多惨,mua哈哈哈哈哈哈~)。

Δ 图片来自网络

自身状态。一些身体不适,比如感冒、呼吸道感染等可能会导致声音严重嘶哑或者断续。

后两个角度相对比较好理解,我这里就不赘述了,这里主要聊聊相对位置:

假设一个场景:场景中包含语音识别设备二傻,说话人哼哼及至少1个人作为噪声源,此处暂定为本半仙我。根据以上场景我们围绕“位置”这个维度的变化来探讨(特例:一个房间,在房间各个角落的某些特定位置放置麦克风来采集房间内的人的声音,这里不属于此类场景):

以二傻为中心,如果噪声源秋半仙和说话人哼哼在不同角度的区域,那二傻处理起信号来就不傻,如下图:

如果噪声源和说话人在同一个角度的线性区域内,这时候二傻可能就会变傻,甚至可能无法区分说话人和噪声源,从而导致信号处理之后,两个人的声音都被混在一起保留下来(这个可能性极大)。具体如下图:

下图为车内多人的真实场景的示意图:主驾后排说话人的声音通过声音的反射,就闯入了有效区域,且和主驾说话人处在了“同一个角度的线性区域内”,从而被当成有效人声被采集。副驾说话人,处在“不同角度区域”内,被成功抑制。

这个地方有很多童鞋都提出过方案:

根据“距离”来将两个声源分开,然后两个声源分别去做语音和语义,根据最终的“语义”的“有效性”来判定哪个是“声源”哪个是“噪声源”。

将这两个声源去做”声纹识别“,可以要求说话人的声纹是已知的,这样就可以根据声纹的比对,来确认”声源“,从而正确响应说话人的指令。

把这两个声源都当成”声源“,依次做出响应。

这几种产品方案看起来都是有可行性的,但他们又一个共同的难点,那就是:”两个声源“如何有效”分离“?

Δ 图片来自网络

或许不惜成本去做能够做到,但是今天在市面上的商品化的产品中,还没有一款做到了,甚至连演示的demo,本半仙也只是看到了”不同角度区域“依次响应的案例,”同一角度区域“的案例还没见过。如果有哪位童鞋看到过,也烦请分享一下给我。有兴趣的童鞋也可以和信号的算法童鞋聊聊这个话题,大家一起探讨探讨。

但话说回来,“在同一个角度区域中同时说话”的概率其实并不高,所以,”两个人的声音都被混在一起保留下来“的结果也并非不可接受。产品童鞋在产品的设计中,还是要尽量引导用户避免这么去使用语音产品。

Δ 图片来自网络

再说回说话方式和自身状态。这两点主要是考量对于“人声”的辨识,这是语音的基础工作,语音公司一般都能做到一定程度。这些主要影响后面的语音识别,而且主要的几个思考方向都表述清楚了,可以按照这个思路去验证语音能力的效果。如果效果偏差,可以挑选出具体的场景,安排人员,采集尽可能全面、丰富、高质量的音频数据交给算法的同学,方便他们去优化算法和能力。当然,这个主要涉及下个环节,所以我们下次分享会再细聊。

那“信号处理”具体是怎么实现的?其实本半仙也不知道(对的,本半仙也有算不到的天机,怎么着吧),术业有专攻,这个问题还是留给最专业的人去思考和解决吧。产品作为一个业务的驱动力,虽然不需要真正去实现“信号处理”,但还是需要去深入了解它,这样可以在产品的顶层设计时,就能够帮助整个团队规避大量的前期风险,大大减少花在探索上的时间和金钱,也能减少落地过程中很多潜在的执行风险。产品在驱动整个team协同作战,对每个细节都需要深入了解,才能真正帮助团队创造最大的价值。

                                                       —THE END—

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容