语音AI产品用户体验设计四部曲(二)识别(ASR)

引言:

        随着时代不断发展,AI技术逐渐深入我们的日常生活之中。我们的生活已经逐渐被AI产品所深透,如chatgpt,生成式大模型等等,他们不仅给我们的生活带来了便捷,也逐渐改变着我们的生活习惯,我们变得比以前更依赖AI技术。而在我们日常使用的AI技术中,不可或缺的一部分便是语音AI产品,用通俗的话来讲便是语音助手,如小爱同学,siri等都是我们熟知的语音助手。当前大部分的研究都基于语音AI产品的技术和底层架构进行分析,却鲜少有人从用户体验的角度对语音AI产品的实现形式进行拆解分析。

        因此,本系列将从用户体验设计的角度出发,基于语音AI产品的全链路:语音唤醒(KWS),语音识别(ASR),自然语言处理(NLP)和语音合成(TTS)进行全面的分析,以期能为刚接触语音AI产品和希望能在语音AI行业继续深入研究探索的同学提供一个,从用户体验设计角度出发思考方向。

语音AI产品全链路

正文:

        语音识别(ASR,全称Automatic Speech Recognition),根据Ray在《自动语音识别(ASR)技术的理论与应用》中所述,是一项将人类语音转换为文本的人工智能技术。它是语音交互和语音分析的基础,在人机交互、语音助手、会议记录等领域有着广泛的应用。ASR作为语音AI产品的核心部分,不仅承担着承接语音唤醒的工作,提供识别唤醒词的小模型和识别经过语音唤醒以后输入的query,还需要负责将识别的结果传递到语音AI全链路的下游——自然语音处理部分,进行query落域与内容返回。因此,做好语音识别部分的用户产品体验和策略优化是提升用户使用语音AI产品的其中一个关键。

        而语音唤醒从用户体验的角度来看,需要做到以下三点才能达到一个比较好的体验。

1. 足够优秀的语音识别性能和效果

        既然语音识别是语音AI产品交互体验的前提和关键,那么自然绕不开的就是语音识别的模型效果和能力了。试想一下,当你和语音助手交流的时候,你说的每一句话他都听岔了,结果给你返回的内容根本不符合你的预期。这种情况下你只会觉得他似乎不怎么聪明,答非所问的感觉让人感到疲惫。因此,为了避免用户在语音助手的交互中对语音助手的能力感到不满,我们需要采取一系列提升语音识别性能和效果的手段,来为我们的用户提供一个比较良好的交互体验。

        优化语音识别性能和效果的手段有三个:

        第一个是进行模型的调优,提高模型对于用户输入的内容的识别准确率。产品经理通过收集更多不同类型的语料给到模型训练,包括不同的噪声场景下用户的说法,不同用户年龄层的语料等等,从而为模型不同场景下的识别提供足够时间数的语料。

        其次是从前端入手,和语音唤醒相同的策略,从原始录音入手,利用AEC降噪的手段使原始录音中的人声暴露出来,从而让模型更好地识别出人所说的话,达到准确识别用户query的效果

        最后也可以从策略的角度出发,针对不同的场景在识别上面可以通过配置热词的手段,使某些类型的query能够更高优地被识别出来。如针对海外的语音AI产品就可以加强对英文的识别效果,在中文query的识别效果上可以相对放低识别准确度,保证基本使用体验即可,而在英文query的识别上达到较高的识别准确率。

2.合适的语音识别VUI展示

        有人在这里可能会疑惑,语音识别不是识别用户的query的环节吗,也会有VUI的展示吗?其实是有的,而语音识别在语音助手中最常见的一个VUI展示就是ASR上屏。他的具体形式就是会将识别出的query展示在屏幕语音助手的对话框中,为用户展示他所说的内容是不是被语音助手准确识别了。

        因此,在语音识别上同样需要我们对他的用户体验做出一定的设计,合适的语音识别VUI展示能够有效地提升用户对于自身和语音AI产品的交互感知。而上屏策略是语音识别在VUI阶段最有效能提高用户体验的方式,目前上屏策略市面上的厂商主要采取两种措施。

        第一个措施是语音识别不上屏。他的核心逻辑是只给用户展示一些“…”之类的交互,告诉用户语音AI产品正在听你说话,但是不展示上屏的内容。这个方式最好的地方在于他通过隐藏识别效果的方式,使语音助手即使识别错误,也不容易被用户感知。用户在实际体验过程中只会觉得语音助手没有回复自己想听的话,但是却不知道是在语音识别阶段就存在一定的错误识别的情况。

        第二种方式则是展示语音识别上屏。他的核心逻辑是告诉用户语音助手识别出你说的这些话,用户在使用过程中从用户感知层面就可以感知到自己是在被听到,比起第一种方式来的更直观。但是这种方式对于语音助手的识别能力要求比较高,目前市面上各大厂有技术实力,在语音识别层面上做的比较好的如小米、字节等都会选择使用语音识别上屏的VUI展示方式,以给用户从使用感知层面就有比较良好的体验。

3.个性化的语音识别能力

        个性化的语音识别能力更多是体现在细分场景的识别精确度上。如老人和小孩就是语音识别过程中一个比较大的问题,老人和小孩的声音比起成年人来说更含糊不清,声音分离的困难度更高。因此在语音识别上大部分模型都会针对老人和小孩的语音交互场景加入更多的语料进行训练,以提高与语音助手在识别老人和小孩query上的效果。

        除此之外方言和小语种的语音识别也是当下语音AI产品比较热门的发展方向。方言和小语种的使用用户对于他们熟悉的语音交互方式的消费意愿更高,用户粘性也更高。因此针对方言和小语种场景的语音识别也是当下各大车企和3C数码厂商的核心发展方向。

        除了场景化策略,语音识别技术的迭代也在为个性化语音识别能力提供一定的方向引导,如端到端大模型的识别等等。这就需要我们跟进当前AI大模型的发展现状,更深入地洞察技术与用户体验的关系,将语音识别技术的迭代真正应用到用户体验设计上,从而为用户提供更好的使用体验。

        综上所述,语音AI产品要想在语音识别环节实现用户体验的优化,就需要以上述三点为核心:足够优秀的语音识别性能和效果、合适的语音识别VUI展示和个性化的语音识别能力,来为用户提供一个真正贴近用户使用习惯的语音识别能力,让用户使用语音AI产品的意愿达到较高的水平。



结语:

        本篇基于语音AI产品的全链路中语音识别(ASR)的模块,从用户体验设计的角度对语音识别模块的性能和功能设计进行了分析和阐述。本篇着重从用户体验的角度进行分析,在语音识别技术等方面的探索研究有所局限。因此在未来的研究方向上可着重从语音识别技术等层面进行深入探索,以达到更好地为相关从业人员提供可衡量的指标与产品设计设计思路。

参考文献:

[1]刘盛强.全双工连续对话中的多模态拒识技术研究与应用[D].杭州电子科技大学,2023.DOI:10.27075/d.cnki.ghzdc.2023.001543.

[2]Ray.自动语音识别(ASR)技术的理论与应用

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容