Learned from-2017云栖大会·智能语音交互专场

前几天看了云栖大会·智能语音交互专场的直播，虽然自己作为技术小白很多内容都没听懂（orz....），但也有不少的收获，起码让我对目前智能语音交互领域开始有了些基础的了解~

Overview —— 2017云栖大会·智能语音交互专场

智能语音交互专场一共是有7场分享演讲：先是介绍了学界里研究院、语音实验室等目前对语音交互的研究情况，之后是介绍目前工业界基于语音交互技术的产品研发，再是介绍在2B、2C行业领域和语音交互技术的融合。

智能语音交互专场视频回顾链接：https://yunqi.aliyun.com/2017/hangzhou/videos?spm=a21cy.10467250.880280.768.zvNQpK&wh_ttid=pc#/video/152

1. 技术 —— 现在大牛们在语音交互实验室中倒腾些什么？

第一、第二场，以及在第四场演讲中分享了目前研究院、实验室中对智能语音交互的研究状况。介绍了大牛们在实验室中，是如何通过机器学习（对抗学习、深度神经网络等等）算法，解决在强干扰下语音识别率低、回响时的声音识别等难题的。

作为一个技术小白，听到这些词汇，可以说是相当的一脸懵逼。只能是小本本记下来之后默默补课：

智能语音交互领域关键技术包括语音合成、语音识别、语义理解、麦克风阵列等等：

语音识别

语音识别的目标是将人类语音中的词汇内容转换为计算机可读的输入，也就是让机器明白你说什么。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语音合成

语音合成的目标是使电脑具有类似于人一样的说话能力。语音合成技术主要是根据韵律建模的结果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和修改，最终合成出符合要求的语音。

语义理解

语义理解是衡量人机交互的体验度的一个重要指标，人工智能的核心是认知，而认知的核心是语义理解技术。机器人只有在“懂”了人类的指令后，才能正确执行用户下达的指令。

麦克风阵列

麦克风阵列，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。这种技术能够使机器人或者被控制产品在嘈杂环境清楚的辨识真正的语音指令，在酒店、马路等公共场所有非常广泛的应用。

A. 语音识别方面，目前的识别率已经挺高了，在手机端上应用或许已经可以满足基本要求了，但是离理想的最终目标还是有很大差距。目前在实验室中致力于解决的问题有：

a. 强干扰下的语音识别。在有强干扰的情况下，语音识别的准确率会大打折扣。e.g.鸡尾酒效应（两个声音一起说话），有回响时的语音识别......

b. 复杂场景下的语音识别。e.g.比如中英混杂说话的情况

c. 关于低资源、缺少标注数据信息。e.g.方言

B. 语音合成的挑战有：

a. 个性化语音。

b. 自然度。语音合成仍缺乏韵律的表达。我们可能听一两句觉得还ok，但要听一大段的篇章内容时，会让人觉得很不喜欢。

c. 缺乏情感表达。

2. 产品研发 —— 从技术到应用，目前工业界基于智能语音交互的产品研发

第三场分享主要介绍了目前阿里在智能语音交互方面的一些产品：e.g.智能语音评审，智能化法庭；e.g.语音审核，监测不良内容，服务于视频直播提供商，降低审核的人工成本；e.g. 淘宝客服，并进行对外输出，与ISV合作；......

分享人提出在智能语音交互产品研发上，“智能语音交互的终极目的，是把互联网技术带到各种各样的端上。”

在第四场Chin-Hui Lee大大的分享上，他除了分享了他再研究的语音交互技术问题，他还提出了一个 adoption chasm 的概念：智能语音交互技术与用户的使用之间有鸿沟，语音交互仍然不能变成我们日常生活中的一部分。

Chin-Hui Lee大大举了个栗子：他女儿买了个智能语音音箱送给他，但是他们用了几天之后就把它搁在一边不再使用了，只是把它当成一个玩具，偶尔玩一玩而已。

Chin-Hui Lee说，人机自然交互（NUI）是技术+场景。对此，他提出的几个问题都非常值得深入思考：

“为什么很多语音产品在一开始很多人会用，但之后使用率会快速下降呢？”

“怎样才能让人们更有黏性地应用语音交互？怎样才能把语音交互培养成用户的使用习惯？”

“有哪些场景是可以让人觉得我一定要用语音交互的呢？”

这里提出的几个问题，在后面的分享“家庭娱乐的人工智能”中，有一个例子能够可以是尝试着回答他提出的问题的~

3. 2B&2C —— 智能语音交互与商业社会和日常生活的不断融合

第五场分享主要是介绍了在法律行业中如何运用智能语音交互。第六场分享“家庭娱乐的人工智能”，在其中有介绍了天猫精灵和阿里电视产品。他分享了一个很好的案例：在阿里电视产品上，时如何找到一个语音交互的切入点的。

分享人认为，目前语音交互技术发展很快，但是它还是非常初级的。现在进行语音交互一般都是“指令型”，它离非常自然的语音交互仍有很大的距离。当用户尝试语音交互产品时，发现效果不理想，那么第二天用户又会返回到传统的控制方式上去，不会再尝试使用语音控制命令。在现在的技术条件下，可以把语音交互做一些减法，不要把它变得好像无所不能一样。语音交互技术的未来前景很好，但目前可以先聚焦到可以解决用户痛点的场景上。

在电视出现到现在，主要还是用遥控器去主导操作，它还是一种比较简单、方便、快捷的一种交互方式的。但我们发现其中一个很大的痛点是：输入法。用户通过遥控器去输入文字，比如搜索影片、输入密码等，是非常麻烦、很痛苦的。我们围绕着视频内容搜索这个场景，从这个点上下功夫去做。在这个场景上，用语音输入的活跃度是非常高的。我们围绕着这个场景，从最初仅仅是影片名字等比较精确的搜索，到比较模糊的搜索，比如演员名字，最近上映的等等，从这个维度上去做扩展，让用户养成在搜索时用语音输入的习惯。从这一点切入上，然后逐步打开用户的使用场景。在阿里电视四代上，我们已经能把这个场景上的语音输入活跃度做得非常高了。

最后编辑于：2017.12.11 02:44:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,717评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,501评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,311评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,417评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,500评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,538评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,557评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,310评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,759评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,065评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,233评论 1赞 343
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,909评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,548评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,172评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,420评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,103评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,098评论 2赞 352

Learned from-2017云栖大会·智能语音交互专场

Overview —— 2017云栖大会·智能语音交互专场

1. 技术 —— 现在大牛们在语音交互实验室中倒腾些什么？

2. 产品研发 —— 从技术到应用，目前工业界基于智能语音交互的产品研发

3. 2B&2C —— 智能语音交互与商业社会和日常生活的不断融合

推荐阅读更多精彩内容