情绪识别--Emotion Recognition from Human Speech Using Temporal Information and Deep Learning

Emotion Recognition from Human Speech Using Temporal Information and Deep Learning

原文链接:https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1132.pdf

摘要

    情绪识别是使机器具备同理心的一种重要技术,传统方法在提取各种声音特征方面做了许多工作和贡献,但是确都没有利用到短时信息。本文就是利用了传统的一些声音特征和声音的时序特征,利用深度学习方法,进行情感分析。本文提出的方案是具有最佳的准确率的方案之一,准确率达到了88.9%。

1 背景简介

2 本文方案--EmNet模型

图1(a)EmNet模型结构 (b)已训练64 filter local conv权重

2.1 特征提取

    本文使用eGeMAPS[2]特征集中88个特征里的20个特征,它们分别是:过零率,对数帧能量,帧能量熵,谱质心,光谱扩散,光谱熵,光谱通量,光谱滚降,梅尔频率倒谱系数(MFCC)C1~C5,发声概率,音调,共振峰带宽,共振峰增益,和三个谐波能量比(第一个的对数能量比)谐波到第二到第四的对数能量谐波)。

    这些特征提取使用的是40ms汉明窗,窗口移动为30ms。生成的序列特征维度为20,为了保留音频信息,这些特征被直接输入网络。

2.2 规范化

    本文使用[2,8]中的特征处理方法,特征使用了说话者所有音频的均值和标准差进行处理。

    为了便于处理,所有序列长度被剪切或用0补充到512(512*10*0.001=5.2秒)维,即最终输入网络的维度为:20*512。

2.3 局部卷积层

    不同于图像处理的卷积方式使用方块状的卷积,本文使用的是沿时间方向的条状卷积,这是因为输入的20维特征之间并没有相关关系(它们不同特征组合)。所以如图1a中,本文用的是1*6的卷积核,滤波器数为64的卷积,而后是ReLU激活函数,之后是跨度为4的池化层。

    经过恰当训练后,我们希望每个独立的滤波器能够对应一些重要的短时信息,从而有利于后面的情绪识别。例如利用本文所列数据训练的模型,其滤波器权重如上图1b所示。

2.4 全局卷积层

    局部卷积输出的特征会输入到全局卷积层中,全局卷积层拥有更大的感受野(2帧,对应80毫秒),用于提取更抽象的信息。全局卷积层采用的是128滤波器卷积核,同样后面接的是ReLU激活函数,之后是跨度为2的池化层。此时,一个特征所代表的连续时长为160毫秒。

2.5 LSTM和前向传播层

    全局卷积层输出结果输入到2层LSTM层,LSTM设置节点数为48,同时设置dropout为0.25。之后,输入一层全连接层,全连接层设置节点为7(情绪类别数),最后用softmax进行分类。

3 相关实验

3.1 数据集

    EmNet的性能在柏林情感语音数据库(EMO-DB)[8]上进行了验证,该数据库是最广泛使用的情感识别数据库之一。 它包含535个语音音频文件,由5个女性和5个男性说话者组成,每人包含10个短句。 其中每个文件都标有七种情绪中的一种:愤怒,快乐,悲伤,中立,无聊,厌恶和恐惧。

3.2 模型训练和验证

    使用采用留一法进行验证(随机9成训练,一成验证),最后取平均作为最终结果。

    本文训练了一个基准模型来证明引入短时信息的有效性。该基准模型使用的特征是40维音频特征,包括上述原始的20维特征和规范化后的20维特征,使用的是SVM分类器。

    本文使用的优化器为Adam,Batchsize设置为64,上述网络参数是实验了98组参数后得到的最优参数。

3.3 实验结果与分析

图2 不同参数识别率

        图2显示了98种不同参数的识别率,带×号的是最好的结果。

表1  EMO-DB数据集实验结果比对

    表1展示了不同模型在 EMO-DB数据集上的表现,我们设置的SVM准确率为77.3%,相对于ComParE+SVM结果差很多的原因估计是因为所用特征太少,因为ComParE+SVM用的特征数是6373个。另外,本文所用方法达到了88.9%的最佳效果。

图3 对比基准模型识别效果

    图3对比了基准模型(40维+SVM)和本文模型,结果显示本文模型相对而言有很大的提升。另外发现,对于高兴这一情绪,提升效果不是很明显。

图4 实验结果混肴矩阵

    图4 表示了某些比较容易错分或混淆的情况,比如生气和高兴这两种情绪。


图5 用t-SNE可视化情绪空间

    图5展示了情绪特征(LSTM最后一个输出)可视化的结果,显示不同情绪能够比较好的分开。

4 总结

    本文所提出的方法取得了很好的实验结果,但是由于所用数据集不是很大,可能存在过拟合情况,后期可以考虑用更大数据集进行验证,同时,可以实验用 eGeMAPS的其他特征进行实验。    

5 参考文献

[1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.

Ringeval, M. Chetouani et al., “The INTERSPEECH 2013

Computational Paralinguistics Challenge: Social Signals,

Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,

France, 2013.

[2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.

Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.

Truong, “The Geneva Minimalistic Acoustic Parameter Set

(GeMAPS) for Voice Research and Affective Computing,” IEEE

Transactions on Affective Computing, vol. 7, no. 2, 2016.

[3] I. Murray and J. Arnott, “Toward the simulation of emotion in

synthetic speech: A review of the literature on human vocal

emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,

1993.

[4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,

A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.

Kingsbury, “Deep neural networks for acoustic modeling in

speech recognition: The shared views of four research groups,”

IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,

November 2012.

[5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,

long short-term memory, fully connected deep neural networks,”

in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April

2015.

[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”

Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

[7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.

Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional

recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.

[8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion

classification of speech using modulation features,” in Proc.

European Signal Processing Conference (EUSIPCO), 2014.

[9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.

Weiss, “A database of German emotional speech,” in Proc.

INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.

[10] D. Kingma and J. Ba, “Adam: A method for stochastic

optimization,” in Proc. ICLR, San Diego, USA, 2015.

[11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition

Using Auditory Attention Features,” in Proc. INTERSPEECH,

2016.

[12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech

Emotion Recognition,” in Proc. ICASSP, 2016.

[13] F. Chollet, keras, in GitHub, GitHub repository,

https://github.com/fchollet/keras, 2015.

[14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional

data using t-SNE,” J. Machine Learning Research, vol. 9, pp.

2579-2605, 2008.

[1] B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F.

Ringeval, M. Chetouani et al., “The INTERSPEECH 2013

Computational Paralinguistics Challenge: Social Signals,

Conflict, Emotion, Autism,” in Proc. INTERSPEECH. Lyon,

France, 2013.

[2] F. Eyben, K. Scherer, B. Schuller, J. Sundberg, E. Andre, C.

Busso, L. Devillers, J. Epps, P. Laukka, S. Narayanan, and K.

Truong, “The Geneva Minimalistic Acoustic Parameter Set

(GeMAPS) for Voice Research and Affective Computing,” IEEE

Transactions on Affective Computing, vol. 7, no. 2, 2016.

[3] I. Murray and J. Arnott, “Toward the simulation of emotion in

synthetic speech: A review of the literature on human vocal

emotion,” J. Acoust. Soc. Am., vol. 32, no. 2, pp. 1097-1108,

1993.

[4] G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly,

A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, and B.

Kingsbury, “Deep neural networks for acoustic modeling in

speech recognition: The shared views of four research groups,”

IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82– 97,

November 2012.

[5] T. Sainath, O. Vinyals, A. Senior, and H. Sak, “Convolutional,

long short-term memory, fully connected deep neural networks,”

in Proc. ICASSP, Brisbane, Australia, pp. 4580–4584, April

2015.

[6] S. Hochreiter and J. Schmidhuber, “Long short-term memory,”

Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

[7] G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.

Nicolaou, B. Schuller, and S. Zafeiriou, “Adieu features? end-toend speech emotion recognition using a deep convolutional

recurrent network,” in Proc. ICASSP, pp. 5200-5204, 2016.

[8] T. Chaspari, D. Dimitriadis, and P. Maragos, “Emotion

classification of speech using modulation features,” in Proc.

European Signal Processing Conference (EUSIPCO), 2014.

[9] F. Burkhardt, A. Paeschke, M. Rolfes, W. Sendlmeier, and B.

Weiss, “A database of German emotional speech,” in Proc.

INTERSPEECH, Lisbon, Portugal, pp. 1517–1520, 2005.

[10] D. Kingma and J. Ba, “Adam: A method for stochastic

optimization,” in Proc. ICLR, San Diego, USA, 2015.

[11] O. Kalinli, “Analysis of Multi-Lingual Emotion Recognition

Using Auditory Attention Features,” in Proc. INTERSPEECH,

2016.

[12] R. Lotfidereshgi and P. Gournay, “Biologically Inspired Speech

Emotion Recognition,” in Proc. ICASSP, 2016.

[13] F. Chollet, keras, in GitHub, GitHub repository,

https://github.com/fchollet/keras, 2015.

[14] L. Van der Maaten and G. Hinton, “Visualizing high-dimensional

data using t-SNE,” J. Machine Learning Research, vol. 9, pp.

2579-2605, 2008.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,928评论 6 523
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,032评论 3 410
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 173,382评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,580评论 1 304
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,558评论 6 403
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,018评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,261评论 3 432
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,328评论 0 281
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,858评论 1 328
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,843评论 3 351
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,954评论 1 358
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,565评论 5 352
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,251评论 3 342
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,677评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,834评论 1 278
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,558评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,033评论 2 368

推荐阅读更多精彩内容

  • 本文转自中国中文信息学会青年工作委员会作者:李林琳,赵世奇(注:本文的第一部分主要内容基于“Review of s...
    MiracleJQ阅读 3,968评论 0 4
  • 2018年9月4号,傍晚5点多,我亲爱的外婆,就这么走了。从老年医院到安置房,一天都没呆到。对不起,没能送你离开,...
    Yomianan阅读 489评论 0 0
  • 皮鞋已擦亮 语言已上膛 为了梦想 诗和远方 Com。On
    在路上走着看天空阅读 152评论 0 0
  • 文/杂货铺的造雨人 思念,是一场孤独的旅行 无尽星空, 每一颗忽闪忽灭的星辰, 都如旅人在流浪 有的人,很...
    杂货铺的造雨人阅读 412评论 0 0
  • 逃离西安大火炉, 直奔终南寻谷幽。 金仙观前来合照, 十八罗汉各千秋。 靳工糖枣沙甘甜, 妙善西瓜舒心头。 土地梁...
    孔中窥天阅读 408评论 0 1