07年之前的互联网时代,我们习惯于借助键盘鼠标跟智能设备进行交互;07年之后的移动互联网时代,我们习惯于借助触摸屏跟智能设备进行交互;如今人工智能技术逐渐成熟,借助智能语音交互系统,我们可通过自然的语音交互来控制设备,实现打电话、听音乐,看电视的需求。相信不久的将来,人和设备的对话交互会变成最自然的输入方式,变成生活中自然的习惯。那么,有没有可能我们自己打造一个属于自己的语音个人助手呢?比如,通过语音来控制家里的灯,风扇,帮我们做日程管理。答案是肯定的,借助DuerOS的能力,普通的开发者也能打造属于自己的个人语音助手。
DuerOS开发当前面临的问题
虽然DuerOS的新闻铺天盖地,但DuerOS具体是怎样的一种形态?具有怎样的能力?DuerOS的开发者网站有很多详细的信息,但对于普通的开发者又该如何开始使用DuerOS呢?是不是你也和我一样有如下的困惑呢?
- 智能语音系统是如何组成的?麦克风阵列、AEC、唤醒、ASR、VAD、NLU、自定义Bot是什么意思?
- 百度的DuerOS从开发者的角度看,是怎样的一种形态?能够提供怎样的能力?
- 亚马逊的AVS是什么?百度的AVS兼容协议是什么?百度的DCS协议跟前两者又有什么区别?
- 认证授权是什么?OAuth2.0是什么?
- Http2.0是什么?为什么选择Http2.0,而不是Http1.1或Http1.0?
- 什么是设备发现?什么是配网?什么是登陆?
- DuerOS中的长链接建立,Ping机制,Directive下发,Event上传是什么?
这个博客系列会包含哪些内容
这个博客系列主要针对初级的开发者,一步一步的展示一个基于DuerOS平台的智能语音交互系统具体实现,在实现的过程中也会逐步解释背后的实现原理。希望能够通过这个博客系列,普通的开发者能够顺利搭建属于自己的智能语音系统。
技术要求
- 硬件平台:树莓派3B+DuerOS阵列版
- 编程语言:Python
当前进度
目前已经基于DuerOS的DCS协议实现了Python版本的初级原型https://github.com/MyDuerOS/MyAssistant
目前还存在一些问题,比如使用SnowBoy训练"小度小度"唤醒词,训练样本太少,唤醒不怎么灵敏,后期会逐步完善。
后期规划
后期会从零开始搭建基于DuerOS的智能语音助手,大概会遵从如下的步骤:
- 智能语音系统的系统组成
- DuerOS开发者个人注册
- 树莓派硬件环境搭建
- DuerOS系统组成
- OAuth2.0认证授权
- DuerOS中长链接建立,Ping机制,Directive下发,Event上传
- 设备发现,配网,认证
- 自定义Bot认证
欢迎搭建提出更多的问题,我会在后续的博客中进行补充。