语音AI产品用户体验设计四部曲（二）识别（ASR）

引言：

随着时代不断发展，AI技术逐渐深入我们的日常生活之中。我们的生活已经逐渐被AI产品所深透，如chatgpt，生成式大模型等等，他们不仅给我们的生活带来了便捷，也逐渐改变着我们的生活习惯，我们变得比以前更依赖AI技术。而在我们日常使用的AI技术中，不可或缺的一部分便是语音AI产品，用通俗的话来讲便是语音助手，如小爱同学，siri等都是我们熟知的语音助手。当前大部分的研究都基于语音AI产品的技术和底层架构进行分析，却鲜少有人从用户体验的角度对语音AI产品的实现形式进行拆解分析。

因此，本系列将从用户体验设计的角度出发，基于语音AI产品的全链路：语音唤醒（KWS），语音识别（ASR），自然语言处理（NLP）和语音合成（TTS）进行全面的分析，以期能为刚接触语音AI产品和希望能在语音AI行业继续深入研究探索的同学提供一个，从用户体验设计角度出发思考方向。

语音AI产品全链路

正文：

语音识别（ASR，全称Automatic Speech Recognition），根据Ray在《自动语音识别(ASR)技术的理论与应用》中所述，是一项将人类语音转换为文本的人工智能技术。它是语音交互和语音分析的基础，在人机交互、语音助手、会议记录等领域有着广泛的应用。ASR作为语音AI产品的核心部分，不仅承担着承接语音唤醒的工作，提供识别唤醒词的小模型和识别经过语音唤醒以后输入的query，还需要负责将识别的结果传递到语音AI全链路的下游——自然语音处理部分，进行query落域与内容返回。因此，做好语音识别部分的用户产品体验和策略优化是提升用户使用语音AI产品的其中一个关键。

而语音唤醒从用户体验的角度来看，需要做到以下三点才能达到一个比较好的体验。

1. 足够优秀的语音识别性能和效果

既然语音识别是语音AI产品交互体验的前提和关键，那么自然绕不开的就是语音识别的模型效果和能力了。试想一下，当你和语音助手交流的时候，你说的每一句话他都听岔了，结果给你返回的内容根本不符合你的预期。这种情况下你只会觉得他似乎不怎么聪明，答非所问的感觉让人感到疲惫。因此，为了避免用户在语音助手的交互中对语音助手的能力感到不满，我们需要采取一系列提升语音识别性能和效果的手段，来为我们的用户提供一个比较良好的交互体验。

优化语音识别性能和效果的手段有三个：

第一个是进行模型的调优，提高模型对于用户输入的内容的识别准确率。产品经理通过收集更多不同类型的语料给到模型训练，包括不同的噪声场景下用户的说法，不同用户年龄层的语料等等，从而为模型不同场景下的识别提供足够时间数的语料。

其次是从前端入手，和语音唤醒相同的策略，从原始录音入手，利用AEC降噪的手段使原始录音中的人声暴露出来，从而让模型更好地识别出人所说的话，达到准确识别用户query的效果

最后也可以从策略的角度出发，针对不同的场景在识别上面可以通过配置热词的手段，使某些类型的query能够更高优地被识别出来。如针对海外的语音AI产品就可以加强对英文的识别效果，在中文query的识别效果上可以相对放低识别准确度，保证基本使用体验即可，而在英文query的识别上达到较高的识别准确率。

2.合适的语音识别VUI展示

有人在这里可能会疑惑，语音识别不是识别用户的query的环节吗，也会有VUI的展示吗？其实是有的，而语音识别在语音助手中最常见的一个VUI展示就是ASR上屏。他的具体形式就是会将识别出的query展示在屏幕语音助手的对话框中，为用户展示他所说的内容是不是被语音助手准确识别了。

因此，在语音识别上同样需要我们对他的用户体验做出一定的设计，合适的语音识别VUI展示能够有效地提升用户对于自身和语音AI产品的交互感知。而上屏策略是语音识别在VUI阶段最有效能提高用户体验的方式，目前上屏策略市面上的厂商主要采取两种措施。

第一个措施是语音识别不上屏。他的核心逻辑是只给用户展示一些“…”之类的交互，告诉用户语音AI产品正在听你说话，但是不展示上屏的内容。这个方式最好的地方在于他通过隐藏识别效果的方式，使语音助手即使识别错误，也不容易被用户感知。用户在实际体验过程中只会觉得语音助手没有回复自己想听的话，但是却不知道是在语音识别阶段就存在一定的错误识别的情况。

第二种方式则是展示语音识别上屏。他的核心逻辑是告诉用户语音助手识别出你说的这些话，用户在使用过程中从用户感知层面就可以感知到自己是在被听到，比起第一种方式来的更直观。但是这种方式对于语音助手的识别能力要求比较高，目前市面上各大厂有技术实力，在语音识别层面上做的比较好的如小米、字节等都会选择使用语音识别上屏的VUI展示方式，以给用户从使用感知层面就有比较良好的体验。

3.个性化的语音识别能力

个性化的语音识别能力更多是体现在细分场景的识别精确度上。如老人和小孩就是语音识别过程中一个比较大的问题，老人和小孩的声音比起成年人来说更含糊不清，声音分离的困难度更高。因此在语音识别上大部分模型都会针对老人和小孩的语音交互场景加入更多的语料进行训练，以提高与语音助手在识别老人和小孩query上的效果。

除此之外方言和小语种的语音识别也是当下语音AI产品比较热门的发展方向。方言和小语种的使用用户对于他们熟悉的语音交互方式的消费意愿更高，用户粘性也更高。因此针对方言和小语种场景的语音识别也是当下各大车企和3C数码厂商的核心发展方向。

除了场景化策略，语音识别技术的迭代也在为个性化语音识别能力提供一定的方向引导，如端到端大模型的识别等等。这就需要我们跟进当前AI大模型的发展现状，更深入地洞察技术与用户体验的关系，将语音识别技术的迭代真正应用到用户体验设计上，从而为用户提供更好的使用体验。

综上所述，语音AI产品要想在语音识别环节实现用户体验的优化，就需要以上述三点为核心：足够优秀的语音识别性能和效果、合适的语音识别VUI展示和个性化的语音识别能力，来为用户提供一个真正贴近用户使用习惯的语音识别能力，让用户使用语音AI产品的意愿达到较高的水平。

结语：

本篇基于语音AI产品的全链路中语音识别（ASR）的模块，从用户体验设计的角度对语音识别模块的性能和功能设计进行了分析和阐述。本篇着重从用户体验的角度进行分析，在语音识别技术等方面的探索研究有所局限。因此在未来的研究方向上可着重从语音识别技术等层面进行深入探索，以达到更好地为相关从业人员提供可衡量的指标与产品设计设计思路。

参考文献：

[1]刘盛强.全双工连续对话中的多模态拒识技术研究与应用[D].杭州电子科技大学,2023.DOI:10.27075/d.cnki.ghzdc.2023.001543.

[2]Ray.自动语音识别(ASR)技术的理论与应用

语音AI产品用户体验设计四部曲（二）识别（ASR）

推荐阅读更多精彩内容