登录注册写文章

车联网-语音方案比对介绍

车联网-语音方案比对介绍

语音方案比对介绍

语音交互是现今应用最多的智能交互方式，在人工智能越来越火的当下应用十分广泛，所以特别针对车内环境，在驾驶员安心驾驶的时候，用语音可以安全的进行操控，所以针对公司的车联网的业务需求，我做了一个语音方案的研究和比对。

语音需求

整体来说语音需求，选择的语音方案至少要满足语音唤醒，语音合成，语义解析三大基础功能

语音唤醒： 能够通过唤醒词，唤醒语音助手，进行后续用户语义的识别，免去手动点击唤醒的操作
语音合成： 俗称TTS(Text To Speech)，支持将文本转换成语音播报出来
语义解析： 支持将用户输入的语音，转换成文本，并进行相应的分析，定位到相应的场景，关键字返回结果帮助我们定位到用户需求。
例如："导航到深圳北站"，除了解析语音返回整句文本之外，还需要定位到这是地图场景，关键字是POI点深圳北站

语音方案

现今市面上比较常用的语音方案有：腾讯云语音，讯飞语音，百度语音，思必驰，云知声，同行者，搜狗语音云

同行者并不同于其他只做语音方案，它提供的更多的是智能设备的整套系统方案，有对外开放SDK，但需要走商务渠道才能试用
思必驰 主要针对场景进行制定化开发，无对外开放平台进行试用，需要走商务合作

所以暂时着重比对介绍一下腾讯云语音，讯飞语音，百度语音, 云知声，搜狗语音云

讯飞语音

讯飞语音开发平台云知声语音开发平台

优点：

支持的语义场景广泛，包括家居，地图，应用，音乐等等27个场景，8个聊天对话类型
语义解析除了整个语句文本外，还提供详细的域名，操作，类型，关键字等Json数据，便于开发
在线功能语义解析，语音合成，命令词识别审核通过后，可以无限制免费使用
讯飞平台可以对接微信公众号,在微信公众账号中增加智能问答的功能。
讯飞和云知声成熟的车载案例很多

缺点：

语音唤醒功能需要收费，最高五万套装机量授权需要 25000，更大的装机量需要定制化开发
唤醒词只支持4-6个汉字，无法更少
有些个别语义关键字，无法正确解析到，但是整句文本都能准确返回
免费的语音合成只支持在线，会耗费很多流量

备注： 云知声的对外开放平台，主要功能和使用形式同讯飞基本一致，唤醒和离线语音合成都需要收费定制化开发

讯飞语音开发平台云知声语音开发平台

讯飞语义场景

讯飞语义场景

讯飞语音识别

讯飞语音识别

讯飞语音服务

腾讯云语音

腾讯云语音

使用腾讯云语音需要注册腾讯云账号，添加项目和服务，云语音只是整个腾讯云中的一个产品，不收费

特点：

没有提供语音唤醒服务
提供实时流式识别，离线语音识别，语音合成功能
离线语音识别功能不是离线语音合成或者离线识别语音，只是支持将录制好的音频上传 RESTful API 进行语音识别，还是需要访问在线API
语音识别和语音合成不是同一个SDK，语音识别是独立的Android SDK,语音合成是一个独立的 RESTful API接口
语音识别成熟的客户案例少，只有五个没有车载行业，语音合成有一个腾讯地图
语音识别需要自己提供关键字，进行识别检索，关键字最多200个

腾讯云产品总览

腾讯云语音识别功能

腾讯云语音合成功能-场景

腾讯云语音合成架构

百度语音

特点：

语音唤醒，语音识别，语音合成三大功能基础服务永久免费
语音识别，语音合成支持离线在线混合SDK，根据网络情况和指令进行自动切换，以及全平台的RESTful API
语音识别的离线SDK支持自定义语义，在线SDK可以设置识别场景
支持开发者上传词库，用以训练识别模型
语音合成 支持多语言多音色选择，可调节语速、音调、音量、音频码率
语音唤醒最多支持十个唤醒词，包括最多三个自定义唤醒词，也叫做基础唤醒词(“小畅你好”)，剩下可选百度提供的命令唤醒词(“上一首，下一首”)

自定义语义

语义数据结构

导出唤醒词

搜狗语音云

搜狗语音云

特点:

无语音唤醒功能，提供三大核心功能，语音识别(离线/在线)，音乐检索，语音合成
语音识别免费提供，搜狗着重在语音识别的准确性，对于语义支持的不是很广泛，支持十个以内的语义场景，离线识别能通过离线的语音包，准确识别到语音
语音合成，只提供离线版，但是需要走商务渠道进行合作，不免费对外开放
音乐检索，可以根据音乐片段检索出整个音乐的歌曲名

总结

经过比对和试用SDK Demo，总体来说，百度语音最适合，，不仅能够满足我们的语音需求，还支持自定义深度优化，相比较其他语音方案，百度语音具有以下三大优势：

免费支持语音唤醒，相对比其他方案，唤醒都是收费的，而且还能够支持最多三个自定义唤醒词
提供离线语音识别和语音合成，其他语音方案只提供在线语音合成和识别，离线都需要收费，百度语音免费提供，能够减少很大的流量消耗
能够自定义语义,我们可以根据自己的业务需求定义一些语义加入到离线识别中，做到深度化定制，给用户更好的体验，
例如："我要点肯德基"，"打开行车记录仪"

最后编辑于：2017.12.08 10:42:39

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

国内值得关注的API集合
项目地址:https://github.com/TonnyL/Awesome_APIs 本页仅收集中国国内可用AP...
Kerry202阅读 1,522评论 0赞 3
绝对干货-国内值得关注的官方API集合，很全很强大（必须收藏）
第一笔记为知笔记(http://www.wiz.cn/manual/plugin/) - 为知笔记Windows...
明谣_罗潇阅读 3,872评论 1赞 21

UIWebView小记
这几天想研究一下JSContext的使用，过程中用UIWebView以如下方式加载本地的html文件: NSStr...
frank_kk阅读 228评论 0赞 0
迷茫的后两年的开端
茫然、压抑、无助，刚过去的一半大学时候刚开始就是这样的感觉。我不知道我想要什么，也不知道该怎样做，只是眼睁睁看着别...
gp52083阅读 201评论 0赞 2
二十几岁
二十几岁的年纪该是什么样的呢？在看到妈妈跟妹妹又一次爆发世界大争吵后，我忽然想到这个问题。为了避免战火烧到我身上...
月半弯sun阅读 177评论 0赞 1

友情链接更多精彩内容

6赞7赞

赞赏

手机看全文