摘要:
语言识别(LID)系统用于对给定音频样本中的口语进行分类,并且通常是许多口语处理任务(如自动语音识别(ASR)系统)的第一步。 如果没有自动语言检测,语音话语无法正确解析,语法规则无法应用,导致后续的语音识别步骤失败。 我们提出一个LID系统来解决图像域中的问题,而不是音频域。 我们使用混合卷积循环神经网络(CRNN),它可以对提供的音频片段的频谱图进行操作。 我们在广泛的实验中证明了这一点我们的模型适用于一系列嘈杂的场景,并且很容易扩展到以前未知的语言,同时保持其分类准确性。 我们发布我们的代码和一个大规模的训练集LID系统给社区
引言:
Siri1或Google Assistant2等智能助手依赖于ASR。目前的ASR系统要求用户手动指定系统的正确输入语言才能正常工作。然而,作为一个合理的预处理步骤,我们可以使用自动LID系统推断口语。传统的LID系统利用音频信号处理领域的专业领域专业知识从音频样本中提取手工制作的特征。最近,深度学习和人工神经网络已成为许多模式识别问题的最新技术。深度神经网络(DNN)已经成为计算机视觉任务范围(如图像分类[17,18]或物体检测和识别[14,15])的最佳执行方法。在本文中,我们从计算机视觉的角度来解决语言识别问题。我们通过利用由卷积神经网络(CNN)和递归神经网络(RNN)组成的混合网络来提取给定音频样本的目标语言。我们的贡献可以总结如下:(1)我们提出一个混合CRNN,合并CNNs具有捕获RNNs时间特征能力的描述能力。 (2)我们对我们提出的网络进行了广泛的实验,并且展示了它适用于一系列场景及其对于新语言的可扩展性。(3)我们发布我们的代码和LID系统的大规模训练集3
仅基于对MelFrequencyCepstral Coefficients(MFCC)等输入特征应用神经网络的方法表明,它们达到了最先进的结果,而不那么复杂。目前对使用DNN的语言识别系统的研究主要集中在使用不同形式的LSTM,关于变换音频数据的输入序列。 Zazo等人文献[19]使用Mel频率倒谱系数和增量Delta系数(MFCC-SDC)特征作为其单向LSTM的输入,该直接连接到softmax分类器。 softmax分类器的最后预测包含预测的语言。 Gelly等人。 [5]使用BLSTM网络从输入中捕获语言信息(音频转换为感知线性预测(PLP)系数及其一阶和二阶导数)。所得到的序列特征被融合在一起并用于分类输入样本的语言。两种方法都只考虑功能序列作为其网络的输入。 Lozano-Diez等人[10]在CNN的帮助下进行语言识别。作者将输入数据转换为包含MFCC-SDC特征的图像。该图像的x轴表示时域,y轴表示单个频率点。除了使用CNN对输入语言进行简单分类之外,他们还使用CNN作为身份向量的特征提取器。作者在结合CNN特征和身份向量时可获得更好的性能。我们的研究与以上提到的作品不同之处在于:(1)我们利用基于VGG [17]或Inception-v3 [18]架构的强卷积特征提取器。 (2)我们使用提取的卷积特征
输入到BLSTM并仅基于深度模型生成我们的预测。
为了使我们收集的数据与我们的LID系统兼容,我们需要做一些预处理。作为第一步,我们将所有音频文件编码为未压缩的无损WAVE格式,因为这种格式允许进行未经处理的操作,而不会使信号质量出现任何劣化。为了将我们的音频片段视为图像,我们需要将数据传输到图像域。我们将音频数据转换为光谱图表示以训练我们的模型。频谱图使用Hann [2]窗口和沿频率轴(y轴)的129个频率仓进行离散化。由于大多数英语语音在对话语音中不超过3 kHz,因此我们只在频谱图中包含高达5 kHz的频率。时间轴(x轴)呈现为每秒50个像素。我们将每个音频序列分成不重叠的十秒段,并丢弃所有短于十秒的段,因为我们不想引入填充,这可能类似于非自然的暂停或沉默。生成的图像保存为灰度,无损500×129 PNG文件,频率强度映射到8位灰度范围
结构:
对于我们的网络架构,我们遵循Shi等人提出的网络的整体结构。 [16]在他们的现场文字识别工作。这个网络体系结构由两部分组成。第一部分是卷积特征提取器,它将音频文件的光谱图像表示作为输入(参见第3.2节)。该特征提取器分几步卷积输入图像,并生成高度为1的特征图。该特征映射沿着x轴切片,并且每个切片被用作随后的BLSTM网络的时间步骤。卷积特征提取器的设计基于众所周知的VGG体系结构[17]。我们的网络使用5个卷积层,其中每个层次都跟随着ReLU激活函数[12],BatchNormalization [8]和2×2最大汇集,步长为2.每个卷积层的内核大小和滤波器数量分别为7×7,16),(5×5,32),(3×3,64),(3×3,128),(3×3,256)。 BLSTM由两个单独的LSTM组成,每个单元具有256个输出单元。我们将两个输出连接到一个512维矢量,并将其输入到具有4/6输出单元作为分类器的完全连接层。图1提供了网络架构的示意图
环境:
我们使用Keras [3]和Tensorflow [1]实现了我们提出的模型,后端。 我们将数据集分成培训(70%),验证(20%)和一个测试集(10%),所有文件在语言之间平均分配。欧洲语音数据集共产生大约19 000个训练图像,
这相当于大约53个小时的语音音频。 YouTube新闻数据集共产生约194 000个训练图像,或540小时的语音音频。
为了训练我们的网络,我们使用了Adam [9]的优化器并使用在微调期间使用随机梯度下降。 我们观察到以下情况
指标:准确度,召回率,精确度和F1分数。 我们指出使用的网络按照以下方式:(1)CNN - 仅由提议的网络组成的网络卷积特征提取器没有经常性部分。 (2)CRNN - 从3.3节提出混合CRNN模型。
结论:
在本文中,我们提出了一种语言识别系统,它解决了图像域中的语言识别问题,而不是音频域。 我们提出了一种由卷积特征提取器和RNN组成的混合CRNN,该RNN结合随时间提取的特征。 使用这种架构,我们对不同的数据集进行了多次实验,以展示我们的模型对各种场景的广泛适用性及其对新语言的可扩展性。 为了弥补缺乏免费提供的语言识别数据集,我们从中收集了超过1508个小时的音频数据欧盟语音知识库和YouTube,并将其提供给研究界
摘要:在这项工作中,我们设计了一个神经网络来识别语音中的情绪,使用标准的IEMOCAP数据集。 在音频分析的最新进展之后,我们使用了一个涉及卷积层的体系结构,从原始谱图中提取高级特征,以及用于汇总长期相关性的经常性特征。应用数据增强技术,分层学习速率调整和批量归一化, 竞争结果,对四种情绪具有64:5%的加权准确性和61:7%的非加权准确性。 此外,我们表明模型的表现与标签置信度密切相关,这凸显了情感识别的基本困难。
引言:
在人与机器之间提供高质量的交互是一个非常具有挑战性和活跃的研究领域,具有众多应用。 这个领域的一个重要部分是通过计算机系统来识别人类的言语情绪。 在过去的几年中,通过深度学习(Amodei等,2015; Medennikov等,2016; Saon等,2016; Liptchinsky等,2017)在语音识别方面取得了令人瞩目的进展。 这些成就还包括对语音情感识别(SER)的重要结果,参见例如 (Kim等,2013; Lee&Tashev,2015; Sattet等,2017)。
在这项工作中,我们为IEMOCAP数据集上的SER构建了一个神经网络(Busso et al。,2008),并取得了与现有技术水平极具竞争力的结果。 1在深度学习中处理SER问题时,可以创建用作神经网络输入的手工声学特征(MFCC,音高,能量,ZCR ...),或者在一些预处理后发送数据(例如傅立叶变换),直接到神经网络。我们通过将音频信号转换为频谱图来应用第二种策略,该频谱图然后被用作卷积层的输入,然后是经常性的。这种最近表现出非常有竞争力的表现的建筑学选择(Amodei等,2015; Satt等,2017),受到以下事实的启发:训练深长的短期记忆(LSTM,(Hochreiter&Schmidhuber, 1997))或门控线性单元(GRU,(Cho et al。,2014))网络非常困难。从这个意义上说,在网络开始阶段添加少量卷积层是降低数据维数的有效方法,并且可以显着简化训练过程。另一方面,也可以使用深CNN来提取高级特征,然后将其馈送到RNN用于最终时间聚合。我们针对卷积(1-6层)和复发模块(1-4)测试了各种不同深度的体系结构,在4 + 1场景中实现最佳分数2。为了解决类别失衡和数据稀缺的挑战,我们研究了数据增强的声道长度扰动,并证明它改善了性能。根据(Laurent等,2016; Amodei等,2015; Cooijmans等,2016; Ba等,2016),我们将批量归一化应用于复发层并分析其对所考虑数据的作用。我们证明,即使保守地应用批量规范化,它仍可能导致数据失真,导致更快的过度拟合和性能下降。我们还使用软标签来反映这样一个事实,即可以将多个标签分配给IEMOCAP数据集的每个样本。虽然我们没有设法通过考虑这些信息来获得更好的结果,但我们证明了该模型的明确依赖性
表现在数据标签上的信心。最后,我们的实验表明,每层学习速率调整似乎是模型性能的关键因素,这可能与特定的体系结构选择或更一般的现象有关。
数据集描述:
在南加州大学(USC)收集的IEMOCAP(交互式情绪二进制动作捕捉)(Busso等人,2008)是用于情绪识别的标准数据集之一。它由十名专业演员(五名女性和五名男性)进行了十二小时的音频和视频录制,并在不同性别的两位演员之间进行了五次对话,不论是演奏剧本还是即兴演奏。该数据集还提供文本对应于记录和脸部图像。但是,在这项工作中,我们只处理音频数据。音频集的每个样本都是与情绪标签关联的话语。标记由USC的六名学生制作,每次三个,每次发表一次。如果有必要,注释者被允许分配多个标签。如果具有最高票数的情感类别是独特的,则每个话语的最终真实标签由多数票选出。由于注释者在标注即兴创作时(83.1%)比脚本创作者(66.9%)(Busso et al。,2008)更经常达成共识,因此我们只关注即兴创作的数据集部分。为了与最先进的方法进行比较,我们预测了四种最具代表性的情绪:中性,悲伤,愤怒和快乐,这给我们留下了2280个话语。
语谱图:
这里我们简要讨论我们使用的数据预处理。 该信号通过具有16kHz上限截止频率的短时傅里叶变换(STFT)和Hann开窗(这是用于右波段频谱分析的标准选择)被转换为频谱图:
语音增强:
处理IEMOCAP数据集时遇到的主要困难之一是类别不平衡(见图1)。最丰富的类对应于中性情绪。此外,假设情绪中性言语可以作为标记情绪的背景出现在其他话语中是合理的。这增强了区分中性和其他情绪的挑战。 (Lee&Tashev,2015)中提出了一个有趣的方法来解决这个问题。根据连接主义时间分类(CTC)方法(Graves et al。2006)的精神,作者为每个时间步长分配一个随机标签,取值为话语或对应于非情感框架的空标签,以这种方式建模可以出现在话语中的其他情绪。通过期望最大化算法进行训练,作者将加权和未加权的精确度提高了2-3%。另一种方法已应用于(Satt等,2017),其中预测程序分两步实现。在主要模型预测中性情绪的情况下,话语被引导至在中性和其他情绪之一之间执行二元分类的另外三个模型。这种策略导致未加权准确性增加2.5%,但反过来将加权准确性降低了1.5%。除了类别失衡之外,IEMOCAP数据集还存在另一个主要缺点:它比较小,这使得验证过程不稳定。为了应对这两种障碍,我们通过声道长度扰动(VTLP)检查了数据增强,同时对数据集中表现最差的类别 - 快乐和愤怒进行了过采样。 VTLP基于(Lee&Rose,1998)中所考虑的说话人正规化技术,该技术的实施旨在减少说话者间的差异。人耳声道长度的差异可以通过在频率轴上重新定标有效成分的峰值来进行建模,其因子α取大概范围内的值(0:9; 1:1)。因此,为了摆脱这种可变性,应该估计每个说话者的因子并相应地对谱图进行归一化。相反地,相同的想法可以用于数据增强(Jaitly&Hinton,2013; Cui等,2014; Harutyunyan&Sanogh,2016):为了产生新的样本,人们必须执行原始谱图的重新缩放沿着频率轴,同时保持比例因子在范围内(0:9; 1:1)。两种方法,归一化和增强,都追求相同的目标:强化模型对说话者相关特征的不变性,因为它们与分类标准无关。然而,增强更容易实现,因为我们不需要估计每个扬声器的缩放因子,因此我们坚持这个选项。频率的重新调整如下进行
我们尝试了两种数据增强策略。在第一种情况下,在每个时期对单个均匀分布的值α2(0:9; 1:1)进行采样,并用于对所有训练样例进行重新缩放,并且没有重新缩放应用于验证集。在第二个策略中,每个频谱图都重新调整了单独生成的α值以用于训练以及验证集。为了评估,我们在α= 0:9的测试集的11个副本上使用了模型预测的多数票; 0:92; 0:94; :::; 1:1。我们介绍了第二次增强策略获得的分数,它提供了最好的结果。
模型的描述和实验:
如上所述,IEMOCAP数据集由五个会话组成,每个会话是一个男人和一个女人之间的对话,共有10个发言者。 为了了解该模型对不同演讲者的推广情况,我们将验证和测试集合对应于其中一个会话的两个不同发言人。 训练集由剩余的四场会议组成。 在实验过程中,我们观察到性能在很大程度上取决于为测试集选择了哪些扬声器(请参见表2)。 因此,我们选择10倍交叉验证策略,以平均测试集的所有可能选择。 有趣的是,据我们所知,在IEMOCAP数据集上报告的所有其他结果都是通过5倍交叉验证获得的。 在这种情况下,验证和测试集的选择并不严格定义和分数
这样得到的结果是不可能与之比较的。为了评估模型的性能,我们选择了加权(WA)和未加权(UA)的精度。 WA是在整个测试集上计算的标准精度。 UA是分别针对每种情绪计算的平均精度。首先,我们计算每个折叠的度量标准,然后将所有折叠的平均值作为分数。由于对于不平衡的数据集,UA是一个更相关的特征,我们相当集中努力获得高UA,与IEMOCAP上的大多数其他作品一致。我们考虑了具有1-6个卷积层,1-4个Bi-LSTM层和在网络顶部具有softmax非线性的密集层的架构(参见图3)。作为优化程序,我们使用了Nesterov动量的随机梯度下降。对于权重的正则化,我们使用L2正则化。由于在数据样本中的重大变化时间长度(对于窗口大小N = 64ms和偏移S = 32ms,从21到909个时间步长),我们沿时间轴执行采样的零填充。为了避免Bi-LSTM人工添加时间步骤的聚集,我们在卷积和BiLSTM模块之间放置了一个掩模层。掩模的大小是从相应频谱图的时间大小以及卷积步幅的作用导出的。最后,我们根据数据集的一般统计数据对样本进行归一化处理:
其中x ^和σ是在时间和频率轴上的整个数据集上计算的频谱图像素的平均值和标准偏差。这种归一化显着地提高了模型的收敛时间。然而,应用于小深度网络(≤2个卷积层),导致了较强的过拟合。如上所述,我们进行了各种不同深度的卷积和BiLSTM模块的实验我们研究了不同的情景:“浅CNN +深Bi-LSTM”,“深CNN +浅Bi-LSTM”和“深CNN +深层”,并且在实验开始时被丢弃。碧LSTM”。通过选择4个卷积和1个Bi-LSTM层可以获得最好的结果。在表1中,我们给出了最佳模型的结果以及对所应用技术性能的贡献。可以看出,过采样允许UA增加0:9%,但是导致WA降低3:2%。使用VTLP进行数据增加会导致这两个指标的增加UA和WA相应地分别为0:9%和1:7%。我们在本节中讨论,通过对网络进行逐层梯度分析,我们想出了明智调整学习率的思路。 这导致UA显着提高1:4%。 最后,考虑到更大范围的频率(8kHz),UA增加了0:9%。 尽管使用了批次,但更深的Bi-LSTM模块的实验并没有带来任何改进标准化(参见第3.1节)
归一化:
不同类型的技术已被用于复发层的归一化(Laurent等,2016; Amodei等,2015; Cooijmans等,2016; Ba等,2016)。在某些情况下,它们是成功的,在其他一些案例中(见Laurent et al。,2016),它们表现出加速了融合和更好的表现,它们导致更强烈的过度拟合和结果退化。我们假设结果中的这种不确定性可能是由所考虑数据的特征造成的。当应用于图像时,批量归一化技术被证明是非常有效的,通常这些图像的特征是存在非常清晰和强大的相关性。与图像不同,时间序列数据(如语音)更加脆弱,应用标准化技术可能会导致重要信息的破坏。最具潜在破坏性的归一化是所谓的逐帧方式(参见例如(Laurent等,2016)),当分别为每个特征和每个时间步骤累计统计数据时:
如果隐藏部分和输入部分按照(Cooijmans et al。,2016)分开处理。 在这里,BN代表标准批量规范化操作(Ioffe&Szegedy,2015),a(π),ht,xt是激活,隐藏状态和输入,Wh,Wx是相应的权重。 由于平均仅沿批处理轴执行,因此逐帧归一化可能会导致强烈的信号失真btf是bt和特征号的乘积。这里应用批量标准化(12)。在这种情况下,归一化按照层次进行(如(Ba et al。,2016))并同时分批执行(此外,为了简单起见,我们将此归一化方法称为分层批量归一化)。我们检查了适用于具有4个卷积和1-4个Bi-LSTM层的模型的递归模块的分层批处理归一化。小批量实验与基线相比,b = 16表现出更快的过度拟合和性能下降。批量标准化不仅适用于批处理,而且也适用于层面,因此应该减少批量大小的影响,这在使用批量标准化时非常重要。但是,在实验批量较大的情况下,我们意识到,就我们而言,它是这样仍然会严重影响性能(见表3)。因此,这是可能的进一步增大批量会导致更好的结果。不幸的是,由于GPU内存限制,我们无法验证它
当加深基线模型的卷积模块(从3-4个卷积层开始)时,我们观察到性能退化而不是改善。然后,通过分析对应于不同层的梯度,我们注意到一个有趣的现象:关于卷积模块权重的梯度显着大于关于Bi-LSTM权重的梯度(见图4)。因此,为了使卷积模块学得更好,我们增加了卷积层权重的学习率。为了补偿这种行为可能的过度拟合效应,我们还增加了卷积权重的正则化。这种修改显着改善了性能(见表1),并且允许缩短收敛时间。有趣的是,最近观察到同样的现象(Kwiatkowski&Chang,2017)。考虑到不同类型的神经网络,作者表明,通过网络深度降低学习速率可以显着提高收敛速度。因此,这种观察可能取决于更普遍的现象
标注和软标签
自然人类言语的情感内容是复杂的,是不同情绪交织在一起的。另外,对人类情绪的感知是相当主观的。这就是为什么IEMOCAP数据集的标签由多个注释者执行,他们被允许分配多个情感标签(Busso et al。,2008)。 (Mower等,2009)的作者考虑到了这种多标签分配。他们根据彼此之间注释者的同意将数据集分组。遵循这个想法,我们引入两个数据子集。当所有三位评估者就一个共同的标签达成一致时,我们将标签称为一致(原型(Mower et al。,2009))。当评估者对情绪不一致时,我们将标签称为含糊不清(在Mower等人,2009)中的非原型多数赞成共识)。在IEMOCAP即兴发音中,只有36:5%被一致标记,而63:5%构成了不明确的子集。特别是,对于被标记为中性和幸福的话语,一致性样本的百分比分别下降到30:1%和18%(见表4),这表明这些类别的标签含糊不清。
在本节中,我们分析了我们最佳模型的每类绩效,并根据样本所属的哪个子集(一致或模糊不清)来说明它如何变化。 表6总结了预测结果。 人们可以看到,每班准确率主要不是由可用样本的数量决定的(例如,虽然悲伤被认为比中性情绪好得多,即使它在数据集中表现得少得多),但也涉及到注释。 事实上,最好的预测情绪是具有最高标准样本比例的情况(见表4)。 虽然过度抽样,但幸福是迄今为止最不被认可的
情感(28:9%),而愤怒(73%)和悲伤(83:2%)最常被正确预测。最佳模型的UA为61:7%,在一致(+4:5%)和不明确(-3:5%)子集之间存在显着差异。分别考虑每种情绪,每个类别的准确性在一致子集上高于模糊子集(中性情感除外),愤怒的最大差异为22:5%(见表6中的阴影列)。当分类器未能正确预测时,我们检查网络排名第二的情绪(查看softmax输出)是否正确(请参见表6中的第-2列)。我们观察到,对于快乐和中性情绪(类别预测最不自信),预测作为模型的第二选择的标签通常与真实标签一致。在这种情况下,提高分数的可能补充技术是已经在Satt等人(2017)中测试过的两步预测。但是,在这项工作中,我们探索了另一种改进分类的方法。我们通过在培训期间引入软标签来考虑可用的多标签注释。为了反映给定标签的置信度,我们根据注释者为相应话语给出的多个标签分配一个概率(例如参见表5中的阴影列)。例如,如果一个话语被两个注释者标记为中性情绪,而被第三个标记为悲伤,那么它的硬标签是“中性”的(它可以用一个热点向量编码为(1,0,0,0 )),而它的软标签是两种情绪的混合物:中性情绪,67%的重量和33%的重量(可以编码为(0.67,0,0.33,0))的悲伤。有时候,注释者会从我们正在考虑的集合中分配一个标签(例如“兴奋”)。为了将其考虑在内,我们使用适当的权重。当分配给话语的所有多标签属于所述感兴趣的集合时,话语具有权重1,而具有该组外的至少一个多标签的话语具有更小的权重(参见表5)。训练过程的损失函数仍然是分类交叉熵,但软标签取代了硬标签。结果显示在表6中。查看每班课程性能,可以看出,唯一受益于软标签的课程是中性情绪。其他班级的表现明显更差。由于中性情绪类是丰富类,这导致了更高的WA,但UA下降。
结论:
在这项工作中,我们研究了几种技术来增强谱图中的语音情感识别,显示出高度竞争的表现。此外,对结果进行仔细分析可以解释每种应用技术的贡献。我们的工作涉及超参数优化以及数据的探索。遵循语音分析的现代趋势,我们使用混合CNN-LSTM架构,利用卷积层的能力从原始输入中提取高级表示。有趣的是,我们注意到卷积和LSTM层的参数训练速度非常不同,这阻碍了模型潜能的开发。因此,学习率调整对于充分利用这种架构至关重要。这项技术占未加权准确度的1.2-1.4%的改善。我们还调查了批量标准化的效果,这是大多数图像识别任务中不可缺少的工具。但是,并不总是建议将批量归一化应用于时间序列数据,并可能导致数据失真。为了尽可能地保留信号结构,我们按层进行标准化以及批处理。尽管如此,我们并没有设法提高性能,这可能是由于我们必须使用小批量才能适应可用的GPU内存。收集和标记与自动情感识别相关的语音数据是困难的。尽管这项任务是标准和适当的数据集之一IEMOCAP仍然存在缺陷和阶级失衡的缺陷。因此,正如前面的工作所指出的那样,交叉验证对模型性能的无偏测量是至关重要的,因为根据哪个扬声器支持测量精度,结果会有很大差异。在这里,我们主张支持10倍而不是5倍交叉验证,这样就不会导致结果模糊。我们利用数据增强和次要类别过度抽样,这证明可以成功地增强对代表不足的类别的检测。这两种技术的结合导致1.8%的增长相对于基线的未加权准确度。最后,除了数据集的局限性之外,任务本身也存在固有的困难,反映在大多数情况下,人类注释者本身并不同意情绪。结果,我们的神经网络经常对模糊样本错误分类。为了克服这个问题,我们试图通过引入软标签来利用各个注释器的可用信息。然而,这对于未加权的准确性是有害的,因为它仅有利于检测主要类。鉴于用于情感识别任务的混合CNN-LSTM架构的成功,未来工作的可能方向将是使用卷积LSTM(Shi et al。2015),其中定义LSTM分量的矩阵乘积用卷积代替。鉴于数据增强的重要性,另一个有希望的想法是使用生成对抗网络(Goodfellow等,2014)来实现数据增强。这种方法在图像分类(Shrivastava等,2017)中已被证明是成功的,它将成为VLTP的替代品,用于合成新的现实样本。
情绪识别Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms
基本参数:
win:20ms 40ms
帧:10ms
DFT: 800/1600
输出:M*N矩阵
评估方法和模型:
我们使用了两个通用评估标准:
总体准确度 - 数据集中的每个句子具有相同的权重,AKA加权准确度
类精度 - 首先评估每种情绪的准确度,然后进行平均,即不加权的精度
为了比较以下四个情绪被使用:愤怒,幸福,中立和悲伤。 我们测试了几十种拓扑和参数的组合。 我们评估了卷积式拓扑,范围从2层到8层,具有时间窗口大小和频率网格分辨率的不同组合。 我们还评估了具有一至六个卷积层的拓扑结构有一个和两个LSTM层。 下表总结了最佳拓扑结构,仅与卷积和LSTM卷积。
实验结论:
关于上面的表1,我们使用了以下内容
参数:
1、窗口大小设置为40毫秒; 一个20毫秒的窗口产生了类似的结果,在不同的拓扑结构中降低0-2% 双向LSTM包含128x2节点; 使用64x2节点,精度下降1-3%;
3、频率网格分辨率设置为10Hz; 较低分辨率(20Hz)的精度降低1-3%;
4、发现卷积网络的最佳拓扑结构包括5层(我们尝试了2-8层),而最好的混合拓扑结构包括3个卷积层和一个LSTM层(我们尝试了1-6个卷积层和 1-2层LSTM层);
5、对深度网络进行了优化,以最大限度地提高总体精度(这在下面进行了讨论)
IEMOCAP语料库显着不平衡;应对对于不平衡的数据,我们尝试了以下技术:
1、训练网络以最大化类精度而不是整体精度,总体精度的惩罚使得它不太有用;
2、为随机梯度赋予不同的权重,与类大小成反比,它将整体和类别精度都提高了13%;
3、使用统计过采样来获得同等规模的训练类增加了最小类准确度(开心),但不是整体和班级准确度。我们还尝试了两步预测,基于:
演示了一个过滤器,倾向于了解声谱图中较不相关的区域,包括沉默和低能区。这种激活解释了深度网络如何将光谱图的相关部分与不太重要的区域分开。为了进一步提高所提出的解决方案的识别精度,我们试图在LSTM层中增加一个一维的关注机制。基于图像对象识别中二维注意机制的成功[25-26],我们的动机是找到与情感识别相关的语音信号的时间段。不幸的是,我们还没有获得任何精度的改进,因此得出结论,在我们的例子中,卷积和LSTM层似乎从对数谱图中有效地检测了相关的时间段。
结论:
我们在有限的延迟约束(<= 3秒)的情况下,从语音中演示了一个情感识别系统,与以前的作品相比,在无延迟约束的情况下,通用基准测试数据集IEMOACP具有最先进的准确性:其中一个测试网络拓扑达到了67.3%和62.0%,与之前的工作相比,达到了63.9%和62.8% , 分别。 该系统基于端到端深度神经网络,直接应用于原始谱图而无需特征提取步骤。 使用原始谱图使我们能够轻松地组合基于谐波滤波的降噪解决方案,该解决方案可以处理高噪声级别,如SNR = 0dB- 我们在背景非语音噪音的情况下证明了这个水平的稳健性。