论文-Learning Alignment for Multimodal Emotion Recognition from Speech

1. 简称

论文《Learning Alignment for Multimodal Emotion Recognition from Speech》，作者Haiyang Xu(DiDi Chuxing, Beijing, China)，经典的多模态情绪识别(语音和文本相结合)论文。

2. 摘要

语音情绪识别是一个具有挑战性的问题，因为人类以微妙而复杂的方式传达情感。为了对人类语音进行情感识别，可以从音频信号中提取与情感相关的特征，也可以采用语音识别技术从语音中生成文本，然后应用自然语言处理来分析情感。此外，情感识别将受益于使用音频文本多模式信息，而构建一个可从多模式学习的系统并非易事。可以分别为两个输入源建立模型，并在决策级别将它们组合，但是这种方法忽略了时域中语音和文本之间的交互。

在本文中，我们建议使用一种注意机制来学习语音帧和文本单词之间的对齐方式，旨在产生更准确的多模态特征表示。对齐的多模态特征被输入到用于情感识别的顺序模型中。我们在IEMOCAP数据集上评估了该方法，实验结果表明，该方法在数据集上达到了最先进的性能。

3. 引言

尽管近年来在语音和自然语言理解方面取得了巨大进步，但我们仍然无法自然地与机器进行交互。对于许多人机交互应用程序而言，构建一个了解人类情感的系统至关重要。但是，构建这样的系统非常具有挑战性。

人类通过语音，面部表情，身体姿势等多种方式表达情绪，因此，与单模式方法相比，利用多种模式可以准确地捕捉所表达的情绪并获得更好的识别结果。许多研究着重于使用视听方式进行情绪识别，因为这两种方式在情感表达方面都具有非常丰富的信息功能。但是，在许多实际应用中，访问视听数据是不可行的，仅音频数据可用，例如，呼叫中心的情绪识别或驾驶员的疲劳检测。在这种情况下，仅使用语音信号的情绪识别系统是有利的。

在日常生活中，人类以自然的方式说出一句话，通过声音和内容传达情感状态。尽管有很多关于语音中情感识别和文本中情感分析的研究，但只有少数研究考虑共同进行。此外，在只能访问语音数据的情况下，可以利用自动语音识别（ASR）技术将音频信号转换为文本，然后应用多模式模型从语音和文字中学习情绪。通过这种方式，文本数据由ASR系统创建，该系统通常从另一大量数据集中进行训练以用于语音识别。因此，可以说我们将从另一个数据集中学习的先验知识用于情感识别任务。这可以被认为是一种转移学习方案，类似于自然语言处理（NLP）中的预训练单词嵌入或ImageNet上用于对象识别的预训练模型。

为了有效地利用语音和文本数据，需要设计一种模型来共同学习来自不同领域的特征。尽管一些研究结合了这两种功能并训练了多模式模型，但很少有工作专注于细粒度的语音和文本之间的时间关系。我们认为，由于语音和文本固有地在时间维度上共存，因此使用对齐信息将使多模式系统受益。实际上，在端到端语音识别系统中，该模型采用一种注意力机制来使已解码的单词参与其相应的语音帧。受到这项工作的启发，我们利用注意力网络来学习语音和文本之间的对齐方式。对齐的语音和文本功能在单词级别中组合在一起，并用作表达情感的多模式功能。然后，我们使用循环网络（例如，长期短期记忆（LSTM）网络）为情感识别序列建模。我们强调，尽管ASR系统可以输出对齐结果（即，基于隐马尔可夫模型的系统为硬对齐，基于注意力系统的软对齐），但我们的方法不需要ASR的对齐。对齐是完全通过模型中的注意机制学习的。使用学习的对齐方式有两个优点：首先，我们的方法适用于ASR系统是黑匣子并且只能输出识别的文本的情况，例如使用Google语音识别API。第二，学习对齐是出于情感识别的目的，它可能比语音识别的对齐要好。

4. 相关工作

数十年来，机器学习技术已用于解决语音情感识别问题。先前的研究通常会提取工程化的低层特征或高层统计特征，并将分类器应用于情感识别，例如高斯混合模型，隐马尔可夫模型，支持向量机，神经网络。

最近关于深度学习的研究表明，神经网络能够从原始数据中学习高级特征，越来越多的研究试图使用神经体系结构来构建系统。研究人员证明了使用深度神经网络(DNNs)学习情感特征的有效性。由于语音信号的序列结构，一些研究采用递归神经网络(RNNs)进行情感识别。此外，由于卷积神经网络(CNNs)的设计目的是学习适合在谱域进行特征提取的局部空间特征，因此一些研究利用CNN来提取特征，并结合序贯模型，例如LSTMs。

多模式学习是机器学习中的一个重要主题。在情感识别中，许多研究从音频，视觉或文本域中提取特征，然后将其融合到特征级别或决策级别中。为了利用语音信号和文本序列中的信息，先前的研究Yoon et al. 2018使用神经网络分别对两个序列进行建模，并使用两种模式的直接连接进行情感分类。在Zadeh et al. 2017中，提出了张量融合网络以融合来自不同模态的特征并学习模态内和模态间的动力学。在Poria et al. 2017中，基于LSTM的模型被用来从发声中学习上下文信息以进行情感分析。

注意网络也与我们的工作有关。在Bahdanau et al. 2015中，首先提出了一个注意力网络来对齐输入和输出序列，以便在NLP中进行机器翻译。继这项研究之后，语音领域的研究人员采纳了这一想法，并利用注意力机制进行了端到端语音识别。在语音情感识别中，一些研究已使用注意力网络，但是，他们主要将注意力仅用于顺序建模。据我们所知，我们的工作是第一个利用它来对齐语音和文本序列的工作。

5. 核心

该模型的架构如图1所示。有两条路径可以处理给定的语音信号。一种途径是直接从音频中提取特征以进行语音编码，另一种途径是使用ASR系统生成文本并进行隐式嵌入以进行文本编码。因此，整个模型由语音编码器，文本编码器和包含注意机制和用于分类的LSTM的多模式融合网络组成。我们将在本节中详细描述每个组件。

5.1 Speech Encoder`(语音编码器)`

我们首先在我们的多模式情感识别模型中讨论语音编码器。为了提取声学特征，我们首先将时域语音信号转换为20 ms窗口的帧，并每10 ms移位一次。从每个帧中提取的低级语音特征可以从时域（例如，过零率），频谱域（例如，频谱扩展）或倒频谱域（例如，梅尔频率倒谱系数，即（MFCC）。我们将说话中的特征序列表示为 $[x_1，...，x_N]$ ，其中 $N$ 是话语中的帧数。

对于语音编码，我们选择双向LSTM（BiLSTM）建模语音帧的顺序结构：

这里的前向 $s_i$ 和后向 $s_i$ 分别是双向LSTM的隐藏状态， $s_i$ 是它们的串联，将用于与文本对齐。

我们提到，尽管我们不在本文中重点探讨语音编码器，但我们已经尝试了与先前研究相似的各种神经体系结构，例如具有LSTM的CNN和带有注意力的LSTM。当与建议的多峰模型结合时，我们可以观察到这些架构的可比结果。

5.2 Text Encoder`(文本编码器)`

为了对人类语音进行情感识别，可以使用ASR系统将语音转换为文本。在我们的研究中，我们没有训练特定于语音情感识别数据集的ASR，而是使用公共的Google Cloud Speech API 从语音生成文本，这证明了所提出方法的通用性。请注意，我们的方法可以容忍一些识别错误，并且使用这些不完善的文本来训练模型就足够了。我们将在第6节中分析ASR的影响。

给定单词序列，我们首先将每个单词转换为嵌入向量 $e_j$ ，并将该序列表示为 $[e_1，...，e_M]$ ，其中 $M$ 是句子中单词的数量。然后，我们使用BiLSTM对文本序列进行建模。 BiLSTM的隐藏状态 $h_j$ 编码序列中的第 $j$ 个单词并将用于进一步的多模态对齐。

5.3 Attention Based Alignment`(基于注意力的对齐)`

最初在序列到序列的设置中提出了一种注意力网络，在该网络中，解码器了解编码器应注意的哪些部分并逐步解码单词。在这项研究中，代替解码的目的，我们利用注意力机制来学习语音帧和文本单词之间的对齐权重。这类似于Vaswani et al. 2017中的自我注意方法，但是区别在于我们从两个不同的序列而不是相同的序列中学习注意力。

具体地，第 $i$ 个语音帧和第 $j$ 个单词之间的注意力权重通过文本LSTM的隐藏状态 $h_j$ 和语音LSTM的隐藏状态 $s_i$ 来计算：

$\alpha_{j,i}=tanh(u^Ts_i+v^Th_j+b)\tag{7}$
$\alpha_{j,i}=\frac{e^{\alpha_{j,i}}}{\sum_{t=1}^Ne^{\alpha_{j,t}}}\tag{8}$
$\hat{s_j}=\sum_i\alpha_{j,i}s_i\tag{9}$

其中 $u$ ， $v$ 和 $b$ 是可训练的参数。 $\alpha_{j,i}$ 是语音序列上的归一化注意力权重，表示第 $j$ 个单词和第 $i$ 个语音帧之间的软对齐强度。 $\hat{s_j}$ 是语音LSTM中隐藏状态的加权总和，被视为对应于第 $j$ 个单词的对齐语音特征向量。

然后，我们将对齐的语音特征 $s_j$ 和文本LSTM $h_j$ 的隐藏状态连接起来，形成一个组合的多模态特征向量，将其输入多模态BiLSTM中以进行特征融合：

为了对序列进行情感分类，我们在序列中的所有隐藏状态上应用了一个最大池层，以获取固定长度的向量，然后使用具有整流线性单位（ReLU）的完全收集的层进行非线性转换。每个示例的损失 $L$ 使用带有交叉熵的softmax层进行 $C$ 类分类计算。

$\hat{c}=max_pooling([c_1,...,c_M])\tag{13}$
$z=\phi(W^T\hat{c})\tag{14}$
$p_c=\frac{e^{z_c}}{\sum_{k=1}^Ce^{z_k}}\tag{15}$
$L=-\sum_{c=1}^Cy_clogp_c\tag{16}$

其中 $W$ 是可训练的权重矩阵， $\phi$ 是逐点ReLU转换， $z_c$ 是 $z$ 中的第 $c$ 个元素，如果真正的标签是 $c$ ，则 $y_c = 1$ 否则为0。

6. 实验与评估

我们将在本节中讨论数据集，实施细节和实验结果。

6.1 Data`(数据)`

我们使用交互式情感二元运动捕捉数据库IEMOCA进行实验。该数据集是从十个演员那里录制的，分为五个部分。每个对话框都包含音频，转录，视频和动态捕捉录制，我们在研究中仅使用音频。一个环节中既有即兴表演，又有两个不同性别角色的剧本。录制的对话已被分成语音，分为10类（愤怒，快乐，悲伤，中立，沮丧，激动，恐惧，惊讶，反感，其他）。每种话语都由三个不同的评估者注释。在我们的实验中，我们使用四种情感（愤怒，快乐，中立和悲伤）进行分类，并使用四个会话进行模型训练，其余的用于测试。此设置与先前的研究一致。

6.2 Implementation`(实现)`

对于语音功能，每个发声以16 kHz采样，持续时间范围从0.5到大约20秒。时域信号被转换为20 ms的帧，重叠时间为10 ms。我们使用Python库从每个帧中提取34维特征向量，包括MFCC，过零率，频谱扩展，频谱质心等。

如前所述，对于文本功能，我们首先使用Google Cloud语音服务从语音信号生成文本。根据IEMO-CAP数据集提供的文字记录，Google语音服务的单词错误率为14.7％。对于单词表示，我们使用300维GloVe嵌入作为预训练的文本嵌入。

为了实现该模型，我们在语音编码器，文本编码器和多模式编码器的每个单向LSTM中使用100个隐藏单元，因此BiLSTM中隐藏状态的维数为200。注意网络有5个关注头，每个关注头其中包括40重量。全连接层是一个200×4权重矩阵，对应于隐藏状态数和类数。为了训练模型，我们使用学习率为0.001的Adam优化。

我们采用两种广泛使用的评估指标：加权准确度（WA），即总体分类准确度；未加权准确度（UA），即情感类别的平均召回率。

6.3 Experiments`(实验)`

为了进行比较，我们首先分别训练具有每个模态的模型。对于语音模态，我们使用LSTM对语音帧序列进行建模，并使用注意力机制来学习序列的加权和。这种结构与Mirsamadi et al. 2017中的相同，但是具有不同的语音特征。另外，我们还报告了使用Satt et al. 2017中的CNN + LSTM和Sarma et al. 2018中的TDNN + LSTM进行比较的结果。此外，我们还使用Satt et al. 2017中的CNN + LSTM报告了结果以进行比较。对于文本形式，我们采用具有注意力结构的LSTM，该结构与我们方法中的文本编码器相同。

我们还将我们的方法与其他多模态方法进行了比较。要将语音和文本结合起来，一种简单的方法是分别为每个模态训练LSTM，然后使用汇集或注意力来聚合隐藏状态，以获得每个序列的固定长度向量。这两个向量可以串联在一起用于序列级别分类。这种“Concat”方法类似于Yoon et al. 2018中的方法，但有不同的特点，我们在文中给出了结果以供比较。

如表1所示，语音中的“ LSTM + Attn”和文本中的“ LSTM + Attn”是与我们的多模态方法相对应的两个单模态模型。通过结合语音和识别的文本，多模式方法极大地提高了WA和UA。为了与多模式方法进行比较，所提出的方法优于直接串联方法，显示了语音和文本之间学习对齐的优势。我们还报告了其他原始论文中显示的结果，并且所提出的方法在WA和UA上均达到了最佳结果。

由于IEMOCAP提供了文字记录和单词级对齐，因此我们进行了一些实验来分析影响。首先，我们不会更改所提出模型的结构，而只是将已识别的文本替换为转录文本。这被认为是所提出方法的上限，因为它使用了oracle文本。另一个实验是使用提供了对齐方式的oracle文本。使用单词级对齐时，不必使用注意力机制。对于文本序列中的每个单词，我们只需将语音LSTM中的隐藏状态平均化为相应的帧，然后将其与文本LSTM中的隐藏状态连接起来。这是所提出方法硬对齐的一种形式。为了进行比较，我们也使用oracle文本来训练单模态模型和串联模型，如Yoon et al. 2018中所示。

表2显示了使用提供的转录文本和对齐的结果。与表1中的结果相比，与纯文本方法和直接连接方法相比，Oracle文本贡献了大约3%的改进。Yoon et al. 2018还使用oracle文本进行实验，并获得了比我们的实现更好的结果。带有oracle文本的建议方法在数据集中获得了最佳结果，表明可以通过更准确的语音识别来实现进一步的改进。将所提出的注意对齐与硬对齐进行比较很有趣。尽管硬对齐方法利用真实的对齐来聚合语音特征，但是其性能低于基于注意力的方法，这表明注意力网络被优化用于情感识别而非语音识别。

7. 结论

在本文中，我们旨在解决语音中的情感识别问题。借助ASR系统，我们可以从语音信号生成文本并建立用于情感识别的多模态模型。我们提出了一种注意机制来学习原始语音和识别的文本之间的对齐方式，然后将其用于融合两种方式的特征。将融合的特征输入到序列模型中以进行情感分类。实验结果表明，该方法在情感识别方面优于其他方法。实验表明，提出的方法在数据集上获得了最新的结果。

8. 重点论文

J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng, “Multimodal deep learning,” in Proceedings of the 28th international conference on machine learning (ICML-11), 2011, pp. 689– 696.
T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Advances in neural information processing sys- tems, 2013, pp. 3111–3119.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large scale visual recognition challenge,” International journal of computer vision, vol. 115, no. 3, pp. 211–252, 2015.
D.Neiberg,K.Elenius,andK.Laskowski,“Emotionrecognition in spontaneous speech using GMMs,” in Ninth International Conference on Spoken Language Processing, 2006.
A. Nogueiras, A. Moreno, A. Bonafonte, and J. B. Marin ̃o, “Speech emotion recognition using hidden markov models,” in Seventh European Conference on Speech Communication and Technology, 2001.
E. Mower, M. J. Mataric, and S. Narayanan, “A framework for automatic human emotion classification using emotion profiles,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 5, pp. 1057–1070, 2011.
A. Stuhlsatz, C. Meyer, F. Eyben, T. Zielke, G. Meier, and B. Schuller, “Deep neural networks for acoustic emotion recognition: raising the benchmarks,” in 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2011, pp. 5688–5691.
Y.KimandE.M.Provost,“Emotionclassificationviautterance- level dynamics: A pattern-based approach to characterizing affective expressions,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013, pp. 3677– 3681.
K. Han, D. Yu, and I. Tashev, “Speech emotion recognition using deep neural network and extreme learning machine,” in Fifteenth annual conference of the international speech communication as- sociation, 2014.
J. Lee and I. Tashev, “High-level feature representation using recurrent neural network for speech emotion recognition,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015.
S. Mirsamadi, E. Barsoum, and C. Zhang, “Automatic speech emotion recognition using recurrent neural networks with local attention,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 2227– 2231.
M. Sarma, P. Ghahremani, D. Povey, N. K. Goel, K. K. Sarma, and N. Dehak, “Emotion identification from raw speech signals using DNNs,” Proc. Interspeech 2018, pp. 3097–3101, 2018.
P.Li,Y.Song,I.McLoughlin,W.Guo,andL.Dai,“Anattention pooling based representation learning method for speech emotion recognition,” Proc. Interspeech 2018, pp. 3087–3091, 2018.
G.Trigeorgis,F.Ringeval,R.Brueckner,E.Marchi,M.A.Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network,” in 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2016, pp. 5200– 5204.
A. Satt, S. Rozenberg, and R. Hoory, “Efficient emotion recognition from speech using deep learning on spectrograms.” in INTERSPEECH, 2017, pp. 1089–1093.
C. Busso, Z. Deng, S. Yildirim, M. Bulut, C. M. Lee, A. Kazemzadeh, S. Lee, U. Neumann, and S. Narayanan, “Analysis of emotion recognition using facial expressions, speech and multimodal information,” in Proceedings of the 6th international conference on Multimodal interfaces. ACM, 2004, pp. 205–211.
M. Wo ̈llmer, A. Metallinou, F. Eyben, B. Schuller, and S. Narayanan, “Context-sensitive multimodal emotion recognition from speech and facial expression using bidirectional lstm modeling,” in Proc. INTERSPEECH 2010, Makuhari, Japan, 2010, pp. 2362–2365.
S. Poria, E. Cambria, R. Bajpai, and A. Hussain, “A review of affective computing: From unimodal analysis to multimodal fusion,” Information Fusion, vol. 37, pp. 98–125, 2017.
S. Yoon, S. Byun, and K. Jung, “Multimodal speech emotion recognition using audio and text,” in IEEE SLT, 2018.
A. Zadeh, M. Chen, S. Poria, E. Cambria, and L.-P. Morency, “Tensor fusion network for multimodal sentiment analysis,” in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, pp. 1103–1114.
S. Poria, E. Cambria, D. Hazarika, N. Majumder, A. Zadeh, and L.-P. Morency, “Context-dependent sentiment analysis in user- generated videos,” in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), vol. 1, 2017, pp. 873–883.
D.Bahdanau,K.Cho,andY.Bengio,“Neuralmachinetranslation by jointly learning to align and translate,” in Proceedings of ICLR, 2015.
A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems, 2017, pp. 5998–6008.
C. Busso, M. Bulut, C.-C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. N. Chang, S. Lee, and S. S. Narayanan, “IEMOCAP: Interactive emotional dyadic motion capture database,” Language resources and evaluation, vol. 42, no. 4, p. 335, 2008.
T. Giannakopoulos, “pyAudioAnalysis: An open-source Python library for audio signal analysis,” PloS one, vol. 10, no. 12, 2015.
J.Pennington,R.Socher,andC.Manning,“Glove:Globalvectors for word representation,” in Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532–1543.

9. 代码编写

# 后续追加代码分析

参考文献

Xu, H., Zhang, H., Han, K., Wang, Y., Peng, Y., & Li, X. (2019, September 6). Learning Alignment for Multimodal Emotion Recognition from Speech. arXiv.org.

论文-Learning Alignment for Multimodal Emotion Recognition from Speech

1. 简称

2. 摘要

3. 引言

4. 相关工作

5. 核心

5.1 Speech Encoder(语音编码器)

5.2 Text Encoder(文本编码器)

5.3 Attention Based Alignment(基于注意力的对齐)