定义会话模式
1、唤醒一问一答
每一问必有需求,且在一轮中能执行完毕并结束。
2、多轮,处在限定任务的场景下,如定闹钟,购买外卖,限定场景的主动听音是带有目的性,如没有获取任务的关键信息会重复询问【关键区别点,假设你有明确的需求】。退出是要谨慎的,因为之前采集的信息如果退出,就会造成用户巨大的输入成本。本质上仍是一问一答式的。
3、连续会话【假设在播报完后你有提需求/继续会话的可能,重点是可能性】
核心目的是解决反复唤醒的痛苦(小孩、老人、投入在对话中感觉反复唤醒机械的人)重要的不是错过对方的指令,错过也没关系,要低误召回>高准确率>高召回率。优先级如下。
4、全双工,是TTS在播的时候的会话,一定是有任务在执行,并且在当前任务下,有一些sub-command可make的,以及一些跨域command要make。
它假设的是【全双工】期间,用户的注意力是持续在音箱上的,因此我可以让音箱做任何事,as it's still actively listening.但是真的如此吗?也许我们只是一开始或结束。
1)如果只是解决一个唤醒的麻烦,却引入了误召回的问题,是得不偿失的。
2)如果全双工的指令是无规律、枚举的,那么用户学习的成本很高,因此一定要有一定的通用性,就像唤醒词一样通用的通用,才会爽。
3)如果sub-command的成功率远低于唤醒command的成功率,那么用户还是会选择唤醒command,而不是无唤醒的sub-command.
4)这会带来什么用户很爽的体验吗,有什么情感的connection,会给用户带来控制感。
5)如何和连续对话的交互保持一致感
6)优先做哪些场景,以及可能要做的场景
7)拓展思考:我们怎么知道用户的注意力是在音箱上的,是否可以让音箱感应到用户在注视它,然后处于一个激活状态,waiting but not asked.
如果音箱能记录用户是否凑在跟前,那么音箱能否记录用户是否在注视着音箱,如果的话,为何还要唤醒呢