智能语音在近年一直是个很火的话题,商业应用也在不断增加,在10月10号的深蓝&大咖面对面活动中,我们邀请到了语音界大佬陈果果博士,针对目前语音领域问题进行分享与探讨。
目录
1.嘉宾介绍
2.直播精华
3.精选网友提问
1.嘉宾介绍
陈果果,SEASALT.AI联合创始人,约翰霍普金斯大学博士,清华大学本科。
师从当前最流行的开源语音识别工具Kaldi之父Daniel Povey,以及美国人类语言技术卓越中心(HLTCOE)和约翰霍普金斯语言语音处理中心(CLSP)的Sanjeev Khudanpur教授,主要研究方向是语音识别以及关键词检索方向。
博士期间为Google开发了Google的唤醒词Okay Google的原型,现在已经用到数以亿计的安卓设备上。博士期间同时也参与开发语音识别开源系统Kaldi,以及神经网络开源工具CNTK。
博士毕业后,联合创办KITT.Al,致力于语音唤醒和自然语音交互技术的研究开发,公司曾被CBInsights评选为首届AI 100公司,2017年被百度收购后加入百度度秘事业部,担任主任架构师。2020年离开百度,联合创办Seasalt.Al以及Vobil.com,聚焦于语音识别和自然语言处理相关的企业服务。2020年同时发起志愿者组织SpeechColab,并发布GigaSpeech数据集,包括10000小时带标注的英文语音识别数据,以及33000小时半监督、无监督英文语音识别数据。
2.直播精华
(1).目前语音领域(包括语音识别,唤醒)的进展,以及实际落地中遇到的困难
识别和唤醒的发展还是挺不一样的。关于唤醒的功能,最早我是在google的时候,做了一个基于DNN的唤醒引擎,然后在安卓的手机上进行部署。那时候关于唤醒的工作还相对较少,在功能的实现过程中也遇到了不少挑战,比如怎么降低误唤醒的概率。不过经过这么多年的发展,唤醒的功能已经比较成熟了。
一是从效果上来看非常好,这就体现在高频率唤醒的情况下,误唤醒能保证在一个非常低的概率。第二个是硬件功耗不断减小,早期我们的工作可能需要基于手机或者高性能的芯片,而如今,在电池的支持下,低功耗的设备就能维持唤醒功能的正常运行。所以,从个人角度,我认为唤醒的功能已经发展的很成熟了。
语音识别是类似的,如果你看过去十多年的发展,会发现进度非常快。
我是2010年开始读博的,那时候包括谷歌和微软等企业的一些产品,语音识别的效果还非常糟糕。从工作机会的角度来说,在08年金融危机之后,这部分的工作机会还是相对“僧多粥少”的。但是自从12年Siri的出现,工作岗位越来越多,很多公司的投入也越来越大,语音识别的效果提高也非常快,所以有种观点就是:语音识别是一个已经解决的问题,因为在很多场景下,语音识别已经能实现很高的准确度。
但是如果大家深入研究,就会发现,语音识别其实还是有很多具有挑战性的工作。一是从效果方面看,面对有噪声的场景,比如聚会等,语音识别的效果还是很糟糕,经常会出现一些让人啼笑皆非的判断;二是从计算资源的角度看,比如如何保护用户的隐私?在应用一些规模较大的模型时,如何进行裁剪才能应用到一些小芯片上,并能保证很好的效果?如何实现数据的回流以及迭代?这些都是一些未解决的问题。
总体来看,唤醒是一个我认为已经基本解决的问题,而语音识别在复杂场景下的效果优化,在低功耗设备上的移植等问题上,还是有很多内容值得研究和讨论的。
(2).智能语音在嵌入式设备端落地式,相比于服务端,有哪些需要特别考虑的因素?
我认为数据回流是一个比较头疼的问题。当用户的数据返回到服务器端时,我们可以在保护用户隐私的同时,对模型进行训练迭代,从而让网络的效果越来越好。
而如果在低功耗的芯片上部署时,这些数据很难回传到服务器上,这意味着厂家很难接收到数据进行训练。这就是一个很大的挑战。如何在数据无法回流的情况下,提升模型的效果?我个人认为联邦学习是一个很好的方向,只不过大家目前做的还不够成熟。
第二个是功耗问题,设备端的资源通常是有限的,有时候设备需要依赖电池来进行供电,我们自然更加希望产品的功耗较低,那么这其中就有很多工作可以做。比如,我们在耳机上实现唤醒的功能,就需要做模型的裁剪和压缩,以及指令集的优化;再比如用高效的汇编指令来实现FFT等功能。我个人认为,语音识别在嵌入式设备上的部署,虽然还面临着标准不统一等一些问题,但它仍然是这门技术发展的一个趋势。
(3).对于正在从事语音领域的科研同行以及在校学生,有哪些建议?
语音领域的发展很快,知识的更新迭代也非常快。我认为作为学生,如果能做一个可用的语音识别系统,是非常有锻炼价值的。
我对学生的建议是多参与接近实际的工作,这对找工作和研究都有很大帮助,不要局限于对一些数据集和一些开源方案的魔改。因为很多时候,这些东西难以落地。
比如做Kaldi这个工作的时候,我们就做了很多并行化的工作,从而让系统更加实用且可用。同时我们也注意到了一些问题,当下公司和学校的区别在于公司有海量的计算资源和数据可以使用,而学校资源的不足就可能会让同学们无法展开研究,所以,我们也在通过GigaSpeech等工作去解决这个问题。
(4).关于语音识别数据集GigaSpeech的介绍
其实最早在百度的时候,我们就想做一个大型开源的中文语音开源数据集,但是由于种种原因没有开放。所以,后来,我们就想和小伙伴们做一个更加通用的数据集,也是为了保证数据集的通用性,我们选择了英文作为数据集的语言。
为什么我们想做GigaSpeech这个工作呢?
一个原因是“效果”,语音识别算法在libriSpeech等数据集上已经被优化的非常好,识别准确性也非常高,所以我们希望提供新的数据集作为训练和测试的选择。第二个是因为近些年工业界倾向于采用由公司自己制作的大规模数据集进行训练,而学术界使用的数据集则规模较小。我们工作的初衷,也是想给学术界和工业界提供一个大规模并且开源的数据集,像GigaSpeech这种已经优化充足的。
这个数据集是怎么实现的呢?
第一步就是收集数据,刚开始我们想播客节目来提取语音以及对应的文本,但仅仅是播客的数据源还是不够多,所以我们又从有声书中获得了大量数据,另一个来源是Youtube的各种视频。我们对于这些音频的要求是配有人工生成的文本,而如果文本是通过算法自动生成的,我们也会筛选去除。
第二步是文本的规范化,比如字母大小写的调整,特殊字符的去除,数字到文本的转变。
第三步是强制对齐,这一工作非常重要,因为很多音频和字幕并没有完全对齐。我们后来采取的方式是,把音频和文本信息分别拼接,然后做强制对齐,从而把每个字的时间都标注出来。
第四步的工作是断句,比如对于静音超过一定时间,或者在说话过程中的突然停顿,我们会进行断句,同时,对于单句时间过长或者噪声较大等异常的数据,我们也会选择去除。
第五步是验证,在用简单的解码器做强制对齐后,很多句子会出现错误,比如在一些语句的语气词停顿处,以及面对一些如”I mean“,”you know“的短语,转写可能会发生错误,所以,我们后来应用了自己设计的一个解码图。这个解码图的优点是我们在进行强制对齐的时候,能够允许出现一些预先定义好的语气词和垃圾话。当最后解码的效果和参考一模一样时,我们才会选择保留语句。
接下来的工作是评估,我们对人工标注的测试集进行处理,对于帧级别的分类结果进行分析,并进行调参。为了保证最后有一万小时的可用数据,我们需要把词错误率(word error rate)控制在4%左右。
在数据完成后,我们要对测试集进行人工标注,总共有40小时的测试集,还是相当大的。同时为了避免和libriSpeech的测试集重叠,我们没有包含有声书的测试集。此外,我们还在维护一个排行榜,来展示效果最佳的网络。
而在未来,针对GigaSpeech这个志愿者项目,首先,我们计划添加更多的语种,第二个是希望开放更多的数据进行评测开放,目的是让大家有更多的数据对于实验效果进行公平的评估,第三和第四点是希望开放一些预训练和微调的网络让大家可以更便捷的使用。此外,我们也希望分享一些好用的解码器,还有就是我们也在维护一个代码库,叫PySpeechColab,目前已经实现的是GigaSpeech数据集的下载和安装,其他的功能还在讨论中。
3.精选网友提问
(1).应届生在秋招过程中选择语音方向就业公司的时候,需要重点关注什么?
我不是太有经验,因为我其实也没有在秋招找过工作。从我自己的一些感受来说,我认为团队和管理者很重要。
团队的文化是否和你的个人气质匹配,团队是否会在你感兴趣的方向进一步投入,都是需要考虑的。对于那些突然决定做语音产品然后疯狂招人的公司,大家要慎重,因为可能语音这块的内容和这些公司本身的核心产品不是强相关的,所以之后也很有可能放弃。
另外,我比较关注所在部门是否有很好的管理者,和自己在沟通,未来的规划上是否合拍,这也是很重要的。
(2).是否准备开展中文语音数据集的工作?
我们也确实在做这个工作。关于数据的整理标注,我们这块的处理流程其实已经比较完善了。但是我们现在更关注的其实是数据的源头,数据集是否能包括更多更丰富的数据源头,比如电话语音等,是我们想提高的方面或者解决的问题。也欢迎大家多提意见来共同解决这个问题。
(3).语音识别的未来方向,商业化前景可能有哪些?
按我的理解,语音更多的是一个工具,未来的发展可能更多的把语音作为一个便捷易使用的工具,这意味着语音识别的门槛需要越来越低,使用它也越来越方便。语音目前主要的商业应用主要还是客服中心(call center),很多公司也愿意为它买单。
而关于智能化语音,有音箱,API这类的产品形式,除此之外的盈利方式还包括还有政府的智能化项目和一些云服务。当然,未来可能也会有更多更丰富的商业模式出现,这也是很难预期的。