自定义SpeechService开发指导

概述

悟空机器人在语音识别这块官方只支持中文、英语和韩文，开发者们可能希望让悟空支持更多的语言，为此他们需要接入新的语音服务商（如Alexa, Google Assistant等），如果想让语音交互的体验达到悟空官方版本的效果，开发者需要做大量的开发工作。为此我们开发了一套开发框架SpeechFramework，方便快速接入。该框架把麦克风阵列模块、唤醒模块、识别模块、TTS模块、交互模型整合在一起，并实现各阶段的自动切换。它实现了麦克风阵列的开关，录音数据的读取，声源定位，并实现与机器人中其他模块的通信，实现开机自动启动，休眠时自动关闭麦克风阵列，激活时重新开启的功能。开发者只需要按照我们定义的接口，来实现唤醒、识别、TTS模块（可选），就可以实现完整的与悟空机器人内置语音模块一样的交互表现。

基本框架如下：

speechFramework (1).png

核心模块说明

MicArrayModule：从4-Mic中读取原始的音频数据，经过麦克风阵列前端算法处理后，输出16K HZ、 16bit、单通道的音频数据。

WakeupModule : 实现唤醒功能，通过不断从MicArrayModule读取麦克风数据输入到唤醒引擎中监测是否发生了语音唤醒，当发生了语音唤醒时通过发布唤醒事件来触发RecognizeModule进入到识别阶段。

RecognizeModule:包含ASR、NLP、TTS过程，开发者即可以集成Amazon AVS和腾讯叮当这类端到端的完整语音服务，也可以通过分别接入ASR Api,NLP Api,TTS Api来实现语音交互功能。

Interactive Model: 当机器人被语音唤醒时，当机器人处于识别状态时，当机器人处于等待识别结果阶段时，机器人都有不同的表现，为保证交互的一致性，我们已经实现了标准的交互模型，开发者不需额外开发。
唤醒时：播报唤醒应答音频，眼睛播放微笑动画，转头声源定位；
语音识别阶段：眼睛播放眨眼动画；
NLP识别阶段：眼睛播放左右转动动画；

Note:
开发者可以通过传入音频资源的id来自定义唤醒应答,并允许传入多个;
转头声源定位的时机可以自定义，支持在唤醒时或者语音识别结束时。

编码实现

如何获取访问麦克风阵列访问权限

1.增加标签

在AndroidManifest.xml文件application标签里，加入如下代码，申请访问麦克风阵列

<meta-data android:name="ubt-master-app" android:value="third_part_speechservice"/>

2. 首次安装该apk后，需要重启机器人

机器人在每次开机时会检查安装的apk里有没有third_part_speechservice标记，如果有的话，
则disable系统内置的访问麦克风阵列的应用SpeechService，把麦克风阵列的访问权让给该apk。
系统内置的SpeechService被disable后，用户将无法访问腾讯叮当语音服务。

让出麦克风阵列访问权

1.卸载app或去掉meta-data的标签

2.重启机器人
重启机器人后，系统内置的SpeechService将重新获取麦克风阵列访问权限，用户可以继续使用叮当语音服务。

SDK引入

下载demo工程speechmoduledemo
包含的sdk如下：

micrecord-sdk-release-versionCode.aar
mini-outer-sdk-versionCode.jar
protobuf-java-versionCode.jar
speechFramework-release-versionCode.jar

sdk引入：
在app module的build.gradle文件里配置如下：

android {
    repositories {
        flatDir {
            dirs 'libs'
        }
    }

}


dependencies {
    implementation fileTree(dir: 'libs', include: ['*.jar'])

   implementation(name: 'speechFramework-release', ext: 'aar')
    implementation(name: 'micrecord-sdk-release', ext: 'aar')
    implementation 'org.greenrobot:eventbus:3.0.0'
}

初始化：
在自定义的Application子类的onCreate()的方法中加入如下代码：

        //setting turn head timing and wakeup reply media file
        Config config = new Config.Builder().timing(TurnHeadApi.Timing.AfterRecord).
                wakeupResList(new int[] {R.raw.wakeup_001,R.raw.wakeup_002}).build();

        IModuleManager.Builder builder = new IModuleManager.Builder().recognizeModuleFactory(new DemoRecognizeModuleFactory())
                .ttsModuleFactory(new DemoTtsModuleFactory())
                .wakeupModuleFactory(new DemoWakeupModuleFactory())
                .config(config);

        //inject
        SpeechManager.get().setImpl(new DefaultSpeechServiceImpl(builder));

Config可以设置声源定位转头的时机以及自定义唤醒响应音频，当设置多个音频时则会随机播放一个。音频资源建议放在app工程的res/raw/目录下，支持mp3,wav等格式。
IModuleManager用于设置RecognizeModule的工厂类，WakeupModule的工厂类，TTSModule的工厂类以及设置Config.
SpeechManager.get().setImpl(new DefaultSpeechServiceImpl(builder));用于把`IModuleManager注入到SpeechFramework,由SpeechFramework来实现各个Module的调用。

WakeupModule的实现
1.实现IWakeupModule接口。

public interface IWakeupModule {

    void init(IWakeuperListener listener);
    void destroy();
    void enable();
    void disable();
    boolean isEnable();
    /**
     * @param pcmData the record data after wakeup
     * @param dataLen the record data length
     */
    void writeAudio(byte[] pcmData, int dataLen);
}

所有的接口方法都由SpeechFramework调用，开发者必须要严格按照要求进行重写。
init():
在此方法中实现唤醒模块的初始化，当初始化成功时请调用IWakeuperListener.onInitSuccess()当初始化失败时请调用IWakeuperListener.onInitError(errMsg,errCode). 只有WakeupModule初始化成功，机器人开机时才会播报已经准备好了。

enable():使唤醒模块可用
disable():禁用唤醒模块
isEnable():判断唤醒模块是否可用，只有isEnable() ==true时麦克风数据才会输入到WakeupModule。
writeAudio():用于接收麦克风数据，麦克风数据为16K HZ, 16bit, 单通道。开发者需要把麦克风数据持续写入到唤醒引擎。当唤醒引擎检测到唤醒时，需要调用IWakeuperListener.onWakeup(wakeword)，当SpeechFramework收到onWakeup()回调时Interactive Model会播报唤醒响应音频，并播放唤醒眼睛表情，同时会启动RecognizeModule,进入到语音识别阶段。
destory():模块退出时调用，可以在此释放资源。

实现WakeupModuleFactory接口来实例化WakeupModule对象。

public interface WakeupModuleFactory {
    IWakeupModule factory();
}

RecognizeModule的实现
1.实现IRecognizeModule接口

public interface IRecognizeModule {
    void init(IRecognizerListener listener);
    void destroy();
    void startListening();
    /**
     * stop recognize
     */
    void stopListening();

    /**
     * @param data byte[]
     * @param start start >= 0
     * @param end end < byte.length
     */
    int writeAudio(byte[] data, int start, int end);

    /**
     * @return boolean Is Listening
     */
    boolean isListening();
}

在该Module里可以去接入Amazon AVS、腾讯叮当这样的完整的语音服务，也可以去分别接入ASR、NLP、TTS API.
init():进行初始化。
startListening():启动识别过程，当采用云端识别时，应开始于服务器建立连接，并开始把麦克风数据传输到云端识别服务。
stopListening():中断识别过程，当在识别过程中，用户再次唤醒会调用该方法来中断当前的识别，然后再调用startListening()来启动新一轮的识别。
writeAudio():用于接收麦克风数据，开发者需要把收到的数据持续地传输到识别服务。当isListening()== false时将无法收到麦克风数据。
isListening():判断当前是否在识别阶段。
destory():模块退出时调用，可以在此释放资源。
2.错误处理:
在RecognizeModule可能存在多种错误，在Speech.ErrorCode里我们有定义常见的错误，开发者在回调IRecognizerListener.onError()需要传入正确的错误码。SpeechFramework会把Error Event发布出去，机器人其他模块会进行相应的错误播报。

实现RecognizeModuleFactory接口来实例化RecognizeModule对象。

public interface RecognizeModuleFactory {
    IRecognizeModule factory();
}

TTSModule的实现：
当开发者在RecognizeModule里接入的是Amazon AVS或腾讯叮当这样的完整的语音服务平台时，NLP识别的结果会直接在云端进行tts合成，然后把合成的结果返回给机器人端。这种情况可以不需要实现TTSModule,但机器人其他模块如果需要实现tts播报时就需要实现，比如在一个app里实现了人脸识别的功能，需要把识别的人名播报出来，在另外一个app里实现了开机播报天气预报的功能，都需要使用到tts功能，这时就需要实现TTSModule，在其他app里开发者可以通过我们提供的SpeechApi.playTTS()方法来把tts请求传递给TTSModule。

实现ITtsModule接口

public interface ITtsModule {

    void init();

    boolean destroy();

    /**
     * 启动tts播报
     *
     * @param text 播报文本
     * @param listener 播报状态回调监听
     */
    void startSpeaking(String text, ITTsListener listener);

    /**
     * 停止tts播报
     */
    void stopSpeaking();
}

init():模块的初始化
destory():退出该模块，可以释放资源
startSpeaking():开发者需要在此实现tts合成功能，并把结果通过回调ITtsListener的方法传递给调用者。
``
stopSpeaking():停止播报。

实现TtsModuleFactory接口，实例化TtsModule.

public interface TtsModuleFactory {
    ITtsModule factory();
}

最后编辑于：2019.12.10 19:18:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355