情感语音识别

  1. 语音信号特征:
    能量 基音频率 共振峰

  2. 处理阶段:

    • 数字化预处理
    • 端点检测
    • 提取语音特征、计算
  3. 能量分短时能量和短时平均振幅能量
    短时能量对高电平敏感

  4. 基音频率
    声带振动的周期性频率
    高兴和愤怒的基音频率都比较高
    基音是浊音的独有特性,所以需要判断清浊音

浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期。

基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基音频率还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。

第一共振峰对基音频率影响也很大,所以需要经过端点检测和通过带通滤波器预处理

  1. 判断清浊音
    利用短时平均振幅能量计算能量门限M
    如果某一帧的能量<M,判定为清音,基音频率为0
    如果某一帧的能量>M,判定为浊音,基音频率用自相关法计算

  2. 共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。

不同情感发音的共振峰位置不同

  1. SVM算法
    支持向量机
    特点是将低维度的非线性的语音特征映射到高维度的线性的空间,将不可计算的低维度向量转化为高维度的空间向量,构造一个分类超平面。

将四种情感两两作为子类分类器,愤怒和平静,愤怒和高兴......统计票数

  1. 训练模型
    提取短时平均能量最大值、最小值、均值、变化率、变化率的变化率
    提取基音频率的最大值,最小值,均值、差分、方差
    提取第一共振峰的均值、方差、变化率
    将等到的特征参数归一化投入训练
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • reference 《spoken language processing》 1 语音基础 名词解释 pitch ...
    艺术叔阅读 16,769评论 2 48
  • 承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别...
    我偏笑_NSNirvana阅读 23,616评论 6 67
  • 图像识别意义: 图像是指物体的描述信息,数字图像是一个物体的数字表示。视觉是人类感知外部世界的最重要手段,据统计,...
    木木口丁阅读 8,471评论 1 21
  • Tutorial - 1 (a) 为什么e时代需要生物特征识别我们在信息时代面临诸多问题,如病毒、黑客、计算机盗窃...
    ShellyWhen阅读 2,296评论 0 4
  • 表格部分笔记: *Tabla Gráfico de barra Gráfico de linea Modelo (...
    倾盖如故CD阅读 666评论 0 1