TF-LSTM、Grid-LSTM

一、简介

F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具，来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式，通过一个小的滑动窗来捕获语音的平移不变性。

因为使用Peephole方式的LSTM效果更好一些，因此本文提到了LSTM都是使用Peephole连接方式。
通过对比实验，Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多，但同时计算速度也慢很多。

T/F-LDNN

二、T-LSTM

T-LSTM就是原始的LSTM，沿着时间轴，将每帧输入LSTM中进行预测。即上图横向。

三、F-LSTM

F-LSTM的形式与T-LSTM类似，只不过输入有变化，其中的
x₀ = x_t^0:F，x₁ = x_t^1:1+F，x₂ = x_t^2:2+F，......，
即将每帧语音按照长为 F的滑动窗 进行分割，并且 步长为S，输入到F-LSTM中。
则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。

形式化表述：

其中：

i_j ：输入门
f_j ：遗忘门
c_j：memory cell
o_j：输出门
m_j：LSTM的输出

F-LSTM单元引入了如下信息：

当前时刻输入：x_j
上一时刻输出：m_t-1
上一时刻memory：c_t-1

优点：

与CNN类似，也是采用权值共享减少参数个数；
可以提取频带局部结构；
卷积通过pooling捕获频率的平移不变性，F-LSTM能够实现类似max-pooling的作用，并且省去了对pooling操作调参的步骤；

四、TF-LSTM

手绘示意图

因为语音的时域和频域存在相关性，因此对时频同时建模来引入时频之间的相关性。

形式化表述：

TF-LSTM单元引入了如下信息：

当前时刻输入：x_t,k
当前时刻第k-1个block的输出：m_t,k-1
上一时刻第 k 个block的输出：m_t-1,k
上一时刻第 k 个block的memory：c_t-1,k

五、Grid-LSTM

TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元，而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
Grid-LSTM分别得到时域和频域的输出，然后将两者拼接(concatenate)到一起。

但是两个LSTM单元在训练时计算量很大，导致Grid-LSTM训练速度比TF-LSTM慢很多，但是也可以令gF-LSTM和gT-LSTM的权值共享，可以加快LSTM的训练速度，降低计算开销。

形式化表述：

Grid-LSTM单元引入了如下信息：

当前时刻输入：x_t,k
当前时刻第k-1个block的输出：m_t,k-1
上一时刻第 k 个block的输出：m_t-1,k
上一时刻第 k 个block的memory：c_t-1,k
当前时刻第k-1个block的memory：c_t,k-1

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

TF-LSTM、Grid-LSTM

TF-LSTM、Grid-LSTM

一、简介

二、T-LSTM

三、F-LSTM

形式化表述：

F-LSTM单元引入了如下信息：

优点：

四、TF-LSTM

形式化表述：

TF-LSTM单元引入了如下信息：

五、Grid-LSTM

形式化表述：

Grid-LSTM单元引入了如下信息：

相关阅读更多精彩内容

友情链接更多精彩内容