2018-10-29 聊聊藏在AI智能音箱背后的ASR技术

人与人之间的语言交流过程，往往会经过【听音-辨意-表达】的三个步骤，用通俗的话解释，即先用我的“耳朵”听清楚你在说什么？收到你发来的信息后，“大脑”已经开始同步运作，后台解析你说话目的意图（intention）和情绪状态，最后将我想要表达的观点，用“嘴巴”说出来。

人工智能科学家们想要实现的“智能交互”，其实可以看做类似的原理和过程。时至今日，自然语言处理NLP领域也取得了令人惊喜的成果。不过，机器要变得像人一样聪明，能变成像电影里“瓦力”或者终结者“T-800”，还有很长一段路走。无论计算机软硬件技术突破与发展，还是科学家们对语言学、心理学及生物学的深入研究，需要共同努力。但与人类通过自然演化法则，从古代智人一步步进化成为现代人类过程不同，机器人的进化程度是呈指数级发展，它们不断“小步快跑，迭代更新”，随着变量的累积，机器人会越来越聪明。

笔者之前介绍过的自动语音合成TTS，就好比机器人的“嘴巴”，机器人是如何说话的。今天聊聊机器人的“耳朵”，它们是如何听见、听清你说的话，即自动语音识别（Automatic Speech Recognition，ASR），ASR的任务是准确，高效的将语音信号转化为文字信息。

所谓自动语音识别ASR，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来。之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

“Hey~同学，你在说啥？能不能说点人话？”

“哦哦，上面是请教一些技术大咖后的专业解释，我尽可能的用大白话翻译下~”

传统的语音识别和我们现在常见的指纹识别，差不多。比如你说一句“青春万岁”，智能手机会先通过麦克风，收集到我们说话的声音。因为我们说话的声音是属于模拟信号，所以收集到我们的声音之后，要先把模拟信号转化成数字信号。转换完成之后，就要对这个信号进行处理。这个训练的过程和我们大学时军训相似（训练目的标准化和结构化）。军训之前，大家站姿，走路姿势都是千差万别。军训完毕，大家站姿，走路姿势基本一致，我们说话收集到的声音也是一个道理。我们说话的时候，除了有噪音，每个人说话声音的大小和快慢也是不一样的，经过处理之后，让这些声音大体上在声音大小，语速快慢上变得差不多。这样可以后续识别变得更容易。

完成上述步骤，接下去就是要提取语音信号的特征信息。但在提取信息之前，我们要先把语音信号给切成一小块一小块的，然后再提取每一小块的语音特征信息，比如声调这些特征信息。提取完语音特征信息后，会先把语音信号放到一个声学模型里面，这个声学模型里面，就有所有文字的发音。然后在声学模型里面，找到和我们说话声音最匹配的对象。找到声学模型最匹配的声音后，再把它放到另一个语言模型里面，这个语言模型里面放了我们各种说的话，句子，古诗，文言文等等。语音识别系统就在里面找，看哪个句子的发音最接进“青春万岁”。

但这种传统的ASR处理方式，工作量会非常大，你得有尽可能多的语音素材去匹配啊。那有没有更好的解决方式呢？有！

随着2006年之后掀起的深度学习浪潮，使得语音识别技术得到了突飞猛进的发展。2009年，人工智能科学家首次将深度神经网络（Deep Nerual Network，DNN）应用到语音识别中。他们设计了DNN-HMM模型，在3小时的数据集TIMIT上对音素识别任务取得了很好的效果。深度神经网络在语音识别中的作用被一步步更深地挖掘，直接采用HMM-DNN 混合模型便成了更好的选择。在 HMM-DNN 混合模型中，我们将不同状态使用的多个 GMM 模型通过一个深度神经网络代替。

运用深度学习技术，将ASR从传统的“概率图模型”转向计算机机器人的“自我认知”模式。

在过去的几个月里，语音技术（ASR+NLP+TTS）开始受到越来越多人的关注与青睐。从亚马逊的Echo到苹果公司的HomePod，以及就在不久前华为发布的AI智能音箱，每家科技公司都参与了进来。

华为AI智能音箱_腾讯视频

我们不得不面对更根本的问题：语音技术到底增加了什么价值？给我们生活带来了哪些变化？

百度研究显示，2014年至2016年间，API对文本朗读服务的要求增加了20倍以上（http://www.webhostingreviewsbynerds.com/what-does-meekers-internet-trends-report-tell-us-about-voice-search/）。这表明人们不仅仅是向语音提出更多的问题，还期待更多答案。

而在一些日常生活领域，我们也在使用着ASR以及自然语言处理NLP技术带来的高效和便利性，譬如：

1、在改进企业工作流程，自动化数据转录方面。

中国人平均每分钟打字40字，口述为150字左右。尽管如今的千禧一代手工灵敏，但是语音驱动的界面将比敲击键盘快得多。我看到，身边已经有越来越多的年轻人开始使用微信语音转文字功能。医生平均每天花费一到两个小时的时间手动将数据输入到电子健康记录系统中。若使用更好的口授软件，这些宝贵的时间便可以被更好地利用。

2009 年时 Google 便已经利用语音识别技术在 YouTube上提供实时的“自动字幕（Automatic Captions）”功能，让客户可以在避免干扰到他人的前提上在不开启喇叭的状况下观赏网络上各种影片内容，YouTube则利用Google的自动语音识别技术（ASR）给YouTube视频加入字幕。

2、减少了信息导航的时间，包括高德地图驾驶导航：

在一些实体环境中，例如一些工业场地或者正在开车，使用屏幕将会受到限制。在这种情况下，语音驱动界面不仅可以加速对信息服务的访问，还可以使其更加安全。超过三分之一的语音用户已经将其汽车引用为语音应用程序的主要载体。

3、增强员工培训，改善客户服务/销售，使对话透明（语音质检）

一些企业每年跟踪记录数百万小时的客户服务和销售电话。目前，这些记录主要用于监控常规的统计数据，如通话量、解决问题时长和满意度调查分数。然而，只关注统计数据而不是对话内容，将会增大忽视重要见解的风险。通过实际监控这些通话，企业可以发现新的以客户为导向的建议，找出更能引起顾客共鸣的产品介绍。通过语音驱动的分析工具，这些见解可以在一定规模上从那些被认为的茫茫电话录音库数据中提取。

“同学，我看到你不仅提到ASR，还有叫NLP的词，这是啥意思？”

“Bingo，回到开头介绍的人与人之间沟通交流【听音-辨意-表达】三个过程，对于人机交互而言，计算机功能不仅在于听清楚人说的话，更重要的在于，计算机是否能听懂理解人的所述说感，识别分析人的情感和意图，这就是自然语言处理技术NLP”

“很难吗？”

“很难，尤其是中文领域，更需要先行者们去尝试，去突破。”

2018-10-29 聊聊藏在AI智能音箱背后的ASR技术

推荐阅读更多精彩内容