AI产品入门之语音交互

这篇文章简单讲述现在常用的语音交互技术涉及到的流程，让初入AI的产品小白或者感兴趣的人了解语音交互是如何实现。

语音交互流程

整个语音技术流程可以看图所示

1、音频采集：听到我说话的过程。该阶段通过回声消除还有降噪等技术获取高质量的目标音频。终端将音频传到语音服务商的服务器进行接下来的语音识别。（比如”今天天气怎么样“）

2、语音识别：知道我说的是什么的过程。各语音识别服务器将音频信息进行解析，变成文本信息。一般的流程是声学特征提取（分析出音频“今天天气怎么样”的音素组成-（jintiantianqizenmeyang)），建立声学模型(把音素组合成音节-(jin- tian- tian- qi\ zen^ me- yang\)），接下来是建立语言模型，形成字符串（今天天气怎么样）。更专业的说明可以跳转[语音识别的技术原理是什么？ - 知乎](https://www.zhihu.com/question/20398418)去了解。

3、语义理解：理解我说话的意思并给出回复的过程。该阶段使用自然语言处理技术，可以将自然语言转化为计算机更容易处理的形式。分析理解用户的说话意图，输出结构化的指令信息，未来方便人理解也为来方便计算机解析，意图表示协议采用JSON语言进行描述，如下图所示

序号1，表示的是意图解析的结果（不同的语义平台有不同的解析表示），其中主要的信息是service:weather。不同场景对应不同的service，比如service:music，是指的播放音乐，service：news，是指的播放新闻，不同的场景匹配不同的信息搜索结果，如图中序号2所展示的那样，这些信息就是针对我说的话进行回复。对于没有明确意图的场景——闲聊场景（service：chat），这个时候应该是通过深度学习让机器人学会针对这样的语句进行回复。比如：我说：我好喜欢吃苹果呀，回复：苹果甜甜的很好吃。

4、语音合成：可以理解为语音识别的逆向过程，将文本合成音频，然后通过音箱播放出来。

国内的语音技术服务商的列表

语音识别技术实力上：讯飞>思必驰=百度>其他。

语义理解匹配度：海知更偏订票业务等，讯飞偏儿童，三角兽的偏成人并且语义库较小。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

AI产品入门之语音交互

AI产品入门之语音交互

相关阅读更多精彩内容

友情链接更多精彩内容