TF-LSTM、Grid-LSTM

一、简介

F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式,通过一个小的滑动窗来捕获语音的平移不变性。

因为使用Peephole方式的LSTM效果更好一些,因此本文提到了LSTM都是使用Peephole连接方式。
通过对比实验,Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多,但同时计算速度也慢很多。

T/F-LDNN

二、T-LSTM

T-LSTM就是原始的LSTM,沿着时间轴,将每帧输入LSTM中进行预测。即上图横向。

三、F-LSTM

F-LSTM的形式与T-LSTM类似,只不过输入有变化,其中的
x0 = xt0:Fx1 = xt1:1+Fx2 = xt2:2+F,......,
即将每帧语音按照长为 F的滑动窗 进行分割,并且 步长为S,输入到F-LSTM中。
则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。

形式化表述:

其中:

  • ij :输入门
  • fj :遗忘门
  • cj:memory cell
  • oj:输出门
  • mj:LSTM的输出
F-LSTM单元引入了如下信息:
  • 当前时刻输入xj
  • 上一时刻输出mt-1
  • 上一时刻memoryct-1

优点:

  1. 与CNN类似,也是采用权值共享减少参数个数;
  2. 可以提取频带局部结构;
  3. 卷积通过pooling捕获频率的平移不变性,F-LSTM能够实现类似max-pooling的作用,并且省去了对pooling操作调参的步骤;

四、TF-LSTM

手绘示意图

因为语音的时域和频域存在相关性,因此对时频同时建模来引入时频之间的相关性。

形式化表述:
TF-LSTM单元引入了如下信息:
  • 当前时刻输入xt,k
  • 当前时刻第k-1个block的输出mt,k-1
  • 上一时刻第 k 个block的输出mt-1,k
  • 上一时刻第 k 个block的memoryct-1,k

五、Grid-LSTM

TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元,而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
Grid-LSTM分别得到时域和频域的输出,然后将两者拼接(concatenate)到一起。

但是两个LSTM单元在训练时计算量很大,导致Grid-LSTM训练速度比TF-LSTM慢很多,但是也可以令gF-LSTM和gT-LSTM的权值共享,可以加快LSTM的训练速度,降低计算开销。

形式化表述:
Grid-LSTM单元引入了如下信息:
  • 当前时刻输入xt,k
  • 当前时刻第k-1个block的输出mt,k-1
  • 上一时刻第 k 个block的输出mt-1,k
  • 上一时刻第 k 个block的memoryct-1,k
  • 当前时刻第k-1个block的memoryct,k-1
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容