智能语音机器人应用实践思考

智能语音对话机器人系统架构

image.png

智能语音机器人交互时序流程

智能语音机器人呼叫流程的交互时序流程(以呼入为例),如图2所示,主要流程为:

1.客户拨打电话给智能语音机器人。

2.智能语音机器人接听电话后,呼叫中心平台调用业务流程管理接口,启动并初始化对话流程状态图。

  1. 业务对话流程管理模块初始化对话流程状态图后,发送开场白话术给呼叫中心。

  2. 呼叫中心平台接受到开场白话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知客户。

  3. 客户收到开场白语音后同样做出相应的语音回复,开始进行对话流程。

  4. 呼叫中心平台收到客户的回复语音后通过MRCP协议调用ASR服务进行语音识别。

  5. 呼叫中心收到ASR返回的文字结果后,通过HTTP协议调用业务流程对话管理接口进行对话状态更新。

  6. 业务流程对话管理接收到呼叫中心传来的请求信息后,调用语义解析模块进行语义解析,并根据语义解析的结果选择话术返回给呼叫中心平台并更新对话状态。

  7. 呼叫中心收到当前话术,根据配置选择进行TTS语音合成或者直接播放录制好的录音,并进行放音操作通知客户。

10.根据配置好的业务流程状态图,重复6-9步骤,直至呼叫对话流程结束。

11.业务对话流程结束后,呼叫中心通知ASR服务结束当前的语音转写时间请求。最终通知业务流程对话管理模块挂机操作,并向呼叫管理平台上报呼叫结果。

image.png

智能语音对话机器人模块介绍

1.语音识别ASR

语音识别能够将用户的语音转换成文字。针对语音识别应用中面临的方言口音、背景噪声等问题,在实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据的基础上通过先进的区分训练方法进行语音建模,能够使语音识别在复杂应用场景下均有良好的效果表现。

模型优化包括声学模型优化和语言模型优化。由于声学模型训练需要大量的数据(客户的标注数据不足以训练声学模型),并且同时需要音频及对应的标注文本,声学训练又是一个高计算的任务,需要多台高性能服务器及GPU构成的硬件系统,所以给客户做声学优化不可行。语言模型优化相对声学模型优化,其生成模型方式及硬件要求,可在利用客户标注数据进行,以下是语言模型优化的流程:


image.png

语言模型优化主要分为需求评估、数据准备、模型训练、测试评估、迭代优化五个部分,其中标绿框表示不一定能做(有时候拿不到客户的样本数据),标蓝框表示第一次优化工作需要做的。

2.前端语音处理

前端语音处理,利用信号处理的方法对说话人的语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音,其主要功能包括端点检测VAD、流式语音智能断句和噪音消除。

语音端点检测是对输入的音频流进行分析,确定客户说话的起点和终止点的处理过程。一旦检测到客户开始说话,语音开始流向识别引擎,直到检测到客户说话结束。这种方式能够使得识别引擎在客户说话的同时开始进行识别处理,做到最大限度的即时处理。

n 端点检测过程:

  1. 基于语音信号的特征,用能量,过零率,熵 (entropy) , 音高 (pitch) 等参数以及它们的衍生参数,来判断信号流中的语音/非语音信号。

  2. 在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在商用语音系统中,由于信号的多变的背景和自然对话模式而更容易使得句中有停顿(非语音),特别是在爆发声母前总会有无声间隙。因此,这种开始/结束的判定尤为重要。

n 端点检测目的:

  1. 减少识别器的数据处理量。可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。

  2. 拒绝非语音的信号。对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。

  3. 在需要打断 (barge-in) 功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。

随着语音识别应用的发展,越来越多的系统将打断功能作为一种方便有效的应用模式。而打断功能又直接依赖端点检测。端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时。表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音。系统会表现出没有反应,在用户讲话时还在播放提示音。 端点检测对识别系统的识别效果影响也很大。语音信号的起始点和结束点判断有误,有可能影响整个信号的完整性,在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时,很可能对识别的准确度有特别大影响。不完全的信息会使识别率降低。

n 商用端点检测应具备的特性:

  1. 端点检测的精确度高。

  2. 更好的背景噪声和语音模型:使系统对背景噪声,其它说话人和非语音的声音有很好的拒绝功能。

  3. 默认的系统相关参数有很好的适用性,而在有需要的现实环境中,可以通过系统调节来适应通话环境,改善端点检测的效果。

  4. 对信道有自适应能力:在对话开始后能很快适应当前的信道特征,使得端点检测的准确度有进一步提高。

  5. 独特的识别服务器的反馈和非语音持续时间双重结束点判定功能,有效的改善了语音结束点的判定。特别是对较长的语句效果更加突出。

基于可靠的端点检测技术和智能反馈,智能打断功能不仅应该在一般的环境下工作出色,而且能有效的拒绝环境噪声,非语音的高强噪声(呼吸,关门等) 环境中其它人的声音。

流式语音智能断句

现有的语音处理方案是先用语音活动检测模块对语音进行断句,再将断开的语音进行自动语音识别。但是,在电话语音交互场景中,VAD面临着两个难题:

  1. 可以成功检测到最低能量的语音(灵敏度)。

  2. 如何在多变的复杂噪声环境下成功检测(漏检率和虚检率)。

漏检反应的是原本是语音但是没有检测出来,而虚检率反应的是不是语音信号而被检测成语音信号的概率。相对而言漏检是不可接受的,而虚检可以通过后端的ASR和NLP算法进一步过滤,但是虚检会带来系统资源利用率上升,以及造成响应不及时。

流式语音智能断句模块是主要由语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块构成。其中,语音识别模块用于接收并识别语音实时流,并按照指定的频率输出带有时序的语音识别结果;信息流聚合模块用于对带有时序的语音识别结果进行优化处理,并整合经过优化处理后的带有时序的语音识别结果,以形成语音识别结果序列;动态窗口设定模块用于从语音识别结果序列中选择指定范围的文本,进而将指定范围的文本用于断句分析;断句识别模块用于分析指定范围的文本的语义,并根据语义确定是否进行断句。

参考:https://zhuanlan.zhihu.com/p/86627941

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通...
    郭少悲阅读 27,015评论 2 40
  • 本文转自中国中文信息学会青年工作委员会作者:李林琳,赵世奇(注:本文的第一部分主要内容基于“Review of s...
    MiracleJQ阅读 3,937评论 0 4
  • 我把互联网的共享经济理解为资源的重新配置,所有权和使用权在一定条件下可以置换。 所有权给予了物体一个无形的使用界限...
    sirius欣欣阅读 337评论 0 0
  • 别放弃太早,轻易放弃的人生不会过得太好。 没有谁的人生是一帆风顺的,大部分人都在起起落落落落起起中走...
    高秀英河南省商丘阅读 410评论 3 11
  • 《常德人在深圳活动集.序》 一群酒精考验,热血沸腾,满怀抱负的德国鬼子,不远千里来到广东这片多情的,神奇的热土……...
    雷明杰阅读 2,363评论 11 9