前几天看了云栖大会·智能语音交互专场的直播,虽然自己作为技术小白很多内容都没听懂(orz....),但也有不少的收获,起码让我对目前智能语音交互领域开始有了些基础的了解~
Overview —— 2017云栖大会·智能语音交互专场
智能语音交互专场一共是有7场分享演讲:先是介绍了学界里研究院、语音实验室等目前对语音交互的研究情况,之后是介绍目前工业界基于语音交互技术的产品研发,再是介绍在2B、2C行业领域和语音交互技术的融合。
1. 技术 —— 现在大牛们在语音交互实验室中倒腾些什么?
第一、第二场,以及在第四场演讲中分享了目前研究院、实验室中对智能语音交互的研究状况。介绍了大牛们在实验室中,是如何通过机器学习(对抗学习、深度神经网络等等)算法,解决在强干扰下语音识别率低、回响时的声音识别等难题的。
作为一个技术小白,听到这些词汇,可以说是相当的一脸懵逼。只能是小本本记下来之后默默补课:
智能语音交互领域关键技术包括语音合成、语音识别、语义理解、麦克风阵列等等:
语音识别
语音识别的目标是将人类语音中的词汇内容转换为计算机可读的输入,也就是让机器明白你说什么。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
语音合成
语音合成的目标是使电脑具有类似于人一样的说话能力。语音合成技术主要是根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。
语义理解
语义理解是衡量人机交互的体验度的一个重要指标,人工智能的核心是认知,而认知的核心是语义理解技术。机器人只有在“懂”了人类的指令后,才能正确执行用户下达的指令。
麦克风阵列
麦克风阵列,从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。这种技术能够使机器人或者被控制产品在嘈杂环境清楚的辨识真正的语音指令,在酒店、马路等公共场所有非常广泛的应用。
A. 语音识别方面,目前的识别率已经挺高了,在手机端上应用或许已经可以满足基本要求了,但是离理想的最终目标还是有很大差距。目前在实验室中致力于解决的问题有:
a. 强干扰下的语音识别。在有强干扰的情况下,语音识别的准确率会大打折扣。e.g.鸡尾酒效应(两个声音一起说话),有回响时的语音识别......
b. 复杂场景下的语音识别。e.g.比如中英混杂说话的情况
c. 关于低资源、缺少标注数据信息。e.g.方言
B. 语音合成的挑战有:
a. 个性化语音。
b. 自然度。语音合成仍缺乏韵律的表达。我们可能听一两句觉得还ok,但要听一大段的篇章内容时,会让人觉得很不喜欢。
c. 缺乏情感表达。
2. 产品研发 —— 从技术到应用,目前工业界基于智能语音交互的产品研发
第三场分享主要介绍了目前阿里在智能语音交互方面的一些产品:e.g.智能语音评审,智能化法庭;e.g.语音审核,监测不良内容,服务于视频直播提供商,降低审核的人工成本;e.g. 淘宝客服,并进行对外输出,与ISV合作;......
分享人提出在智能语音交互产品研发上,“智能语音交互的终极目的,是把互联网技术带到各种各样的端上。”
在第四场Chin-Hui Lee大大的分享上,他除了分享了他再研究的语音交互技术问题,他还提出了一个 adoption chasm 的概念:智能语音交互技术与用户的使用之间有鸿沟,语音交互仍然不能变成我们日常生活中的一部分。
Chin-Hui Lee大大举了个栗子:他女儿买了个智能语音音箱送给他,但是他们用了几天之后就把它搁在一边不再使用了,只是把它当成一个玩具,偶尔玩一玩而已。
Chin-Hui Lee说,人机自然交互(NUI)是技术+场景。对此,他提出的几个问题都非常值得深入思考:
“为什么很多语音产品在一开始很多人会用,但之后使用率会快速下降呢?”
“怎样才能让人们更有黏性地应用语音交互?怎样才能把语音交互培养成用户的使用习惯?”
“有哪些场景是可以让人觉得我一定要用语音交互的呢?”
这里提出的几个问题,在后面的分享“家庭娱乐的人工智能”中,有一个例子能够可以是尝试着回答他提出的问题的~
3. 2B&2C —— 智能语音交互与商业社会和日常生活的不断融合
第五场分享主要是介绍了在法律行业中如何运用智能语音交互。第六场分享“家庭娱乐的人工智能”,在其中有介绍了天猫精灵和阿里电视产品。他分享了一个很好的案例:在阿里电视产品上,时如何找到一个语音交互的切入点的。
分享人认为,目前语音交互技术发展很快,但是它还是非常初级的。现在进行语音交互一般都是“指令型”,它离非常自然的语音交互仍有很大的距离。当用户尝试语音交互产品时,发现效果不理想,那么第二天用户又会返回到传统的控制方式上去,不会再尝试使用语音控制命令。在现在的技术条件下,可以把语音交互做一些减法,不要把它变得好像无所不能一样。语音交互技术的未来前景很好,但目前可以先聚焦到可以解决用户痛点的场景上。
在电视出现到现在,主要还是用遥控器去主导操作,它还是一种比较简单、方便、快捷的一种交互方式的。但我们发现其中一个很大的痛点是:输入法。用户通过遥控器去输入文字,比如搜索影片、输入密码等,是非常麻烦、很痛苦的。我们围绕着视频内容搜索这个场景,从这个点上下功夫去做。在这个场景上,用语音输入的活跃度是非常高的。我们围绕着这个场景,从最初仅仅是影片名字等比较精确的搜索,到比较模糊的搜索,比如演员名字,最近上映的等等,从这个维度上去做扩展,让用户养成在搜索时用语音输入的习惯。从这一点切入上,然后逐步打开用户的使用场景。在阿里电视四代上,我们已经能把这个场景上的语音输入活跃度做得非常高了。