本文是学术阿里巴巴系列的一部分,摘自ICASSP论文“Robust Audio-visual Speech Recognition Using Bimodal DFSMN with Multi-condition Training and Dropout Regularization”。全文可在这里阅读。
自动语音识别(ASR)是近年来取得巨大进展的一个领域,现在有大量的语音操作智能手机助手就是这一事实的证明。然而,在嘈杂的环境中理解语音的能力是一个机器仍然远远落后于人类的领域。
为什么?首先,传统的纯音频语音识别模型无法利用视觉信息来帮助破译所说的话。(换言之,与人类不同的是,他们不会唇读。)这种识别促使研究人员探索视听语音识别(AVSR)的方法,但这仍然是一个相对较新的领域。一方面,由于缺乏公开的视听语料库来训练和测试新系统,另一方面,由于采用先进的神经网络模型缓慢,进展受到阻碍。
现在,随着近年来新的AVSR语料库的推出,阿里巴巴技术团队与西北工业大学合作,提出了一种新的方法。
纯音频语音识别
该团队方法的一个关键方面是采用纯音频语音识别领域的最佳实践,并将其应用于AVSR。
现有的ASVR模型使用相对简单的深层神经网络,而最先进的纯音频模型使用更强大的神经网络,能够模拟语音信号中的长期依赖性。实例包括长短期记忆递归神经网络(LSTM RNNs)、时滞神经网络和前馈序列记忆网络(FSMNs)。
该团队采用了一种称为deep FSMN(DFSMN)的FSMN变体,并复制了该体系结构来处理音频和视频信息。
双模DFSMN提供了集成视听信息的最佳方法
新模型称为双峰DFSMN,它通过一个音频网络和一个视频网络独立地捕获音频和视频信号的深度表示,然后将它们连接到一个联合网络中。这样,模型实现了声、视觉信息的优化集成。
把噪音调大
该模型的进一步改进是引入了多条件训练,即在训练数据中使用多种背景噪声。
新推出的NTCD-TIMIT语料库ASVR包含56个爱尔兰人的视听记录,除了原始的“干净”录音外,它还为每个扬声器提供36个“嘈杂”版本。这些噪声版本是通过六种噪声类型(白噪声、嘈杂声、汽车、客厅、咖啡厅、街道)和六种信噪比(SNRs)的组合产生的。为了产生多条件训练数据,研究小组使用了30组嘈杂环境中150小时的录音。
补偿盲点
在最后一个方面,该模型比以前的模型有所改进,那就是在面对不完整的可视数据时提供健壮的性能。
在实践中,ASVR模型很难在视频的某些片段中捕捉到说话人的嘴区域。为了克服这一点,该团队在训练数据中加入了每帧退学量,以模拟视觉信息缺失的效果,提高了模型的泛化能力。
真正的机器唇读?注意这个地方。
实验结果表明,双模DSFMN在性能上明显优于以往的模型。
如上表所示,在清洁测试和多模态测试期间,测试中的平均电话错误率(PER)是所有测试模型中最低的,甚至前代模型都受益于多模态培训的引入。单独的测试证实,每帧丢失可以提高高信噪比(10%及以上)下的性能。
但测试也证实了机器在实现最纯粹意义上的机器唇读之前还有很长的路要走:所有的模型在纯视频语音识别方面都表现不佳。该团队总结说,希望这一领域的进一步研究将集中于更强大的可视化前端处理和建模,以提高这一领域的性能。