最近做一个关于用电负荷预测的项目,想用循环神经网络试一下,具有时间特性的数据预测当然非LSTM莫属了啦,但是感觉自己对LSTM的输入和输出不是很明白,就学习顺便整理一下吧。
此处属于我个人理解,可能有不正确的地方欢迎大家指正。
Cell
说到LSTM当然先来一张cell的图了:
图中看起来是三个cell,其实是一个cell在不同时刻上的拼接,也就是说其实是一个cell在不同时刻的状态。我们就以中间那个cell为例进行说明吧。
其中,四个黄色的小矩形就是普通神经网络的隐藏层结构,其中第一、二和四的激活函数是
sigmoid
,第三个的激活函数是tanh
。t
时刻的输入X
和t-1
时刻的输出h(t-1)
进行拼接,然后输入cell中,其实可以这样理解,我们的输入X(t)
分别feed进了四个小黄矩形中,每个小黄矩形中进行的运算和正常的神经网络的计算一样(矩阵乘法),有关记忆的部分完全由各种门结构来控制(就是0和1),同时在输入时不仅仅有原始的数据集,同时还加入了上一个数据的输出结果,也就是h(t-1)
,那么讲来LSTM和正常的神经网络类似,只是在输入和输出上加入了一点东西。cell中可以大体分为两条横线,上面的横线用来控制长时记忆,下面的横线用来控制短时记忆。关于LSTM我通过参考画了一张图,如下:输入和输出
输入
下面我们就来说说输入问题,在Keras中,LSTM的输入shape=(samples, time_steps, input_dim)
,其中samples
表示样本数量,time_steps
表示时间步长,input_dim
表示每一个时间步上的维度。我举一个例子吧,现在有一个数据集有四个属性(A,B, C, D)
,我们希望的预测标签式D
,假设这里的样本数量为N
。如果时间步长为1,那么此时的输入shape=(N, 1, 4)
,具体的数据是这样的[A(t-1), B(t-1), C(t-1), D(t-1)]
(此处表示一个数据样本),样本标签为[D(t)]
;如果时间步长为2,那么此时的输入shape=(N, 2, 4)
,具体的数据是[[A(t-2), B(t-2), C(t-2), D(t-2)], [A(t-1), B(t-1), C(t-1), D(t-1)]]
(此处仍表示一个样本数据)。输出
关于Keras中LSTM的输出问题,在搭建网络时有两个参数,一个是output_dim
表示输出的维度,这个参数其实就是确定了四个小黄矩形中权重矩阵的大小。另一个可选参数return_sequence
,这个参数表示LSTM返回的时一个时间序列还是最后一个,也就是说当return_sequence=True
时返回的是(samples, time_steps, output_dim)
的3D张量,如果return_sequence=Flase
时返回的是(samples, output_dim)
的2D张量。比如输入shape=(N, 2, 8)
,同时output_dim=32
,当return_sequence=True
时返回(N, 2, 32)
;当return_sequence=False
时返回(N, 32)
,这里表示的时输出序列的最后一个输出。
多层LSTM
使用LSTM搭建多层LSTM网络还是比较方便的,我们只需要使用Sequential()
进行堆叠即可。
在进行多层LSTM网络时,需要注意一下几点:
需要对第一层的LSTM指定
input_shape
参数。将前N-1层LSTM的
return_sequence
设置为True
,保证每一曾都会想下一层传播所有时间步长上的预测,同时保证最后一层的return_sequence
为False
(如果只需要最后一个输出的话)。其实,在第二层时,不用指定
input_shape
,因为根据上一层的output_dim
和当前层的output_dim
可以得出当前层中权重矩阵的大小。
def build_model(lstm_layers, dense_layers):
model = Sequential()
model.add(LSTM(output_dim=32,
input_shape=(2, 3),
activation='relu',
return_sequences=True))
for i in range(lstm_layers - 1):
model.add(LSTM(output_dim=32 * (i+1),
activation='relu',
return_sequences=True))
for i in range(dense_layers - 1):
model.add(Dense(output_dim=256,
activation='relu'))
model.add(Dropout(0.5))
model.compile(loss='mae', optimizer='adam', metrics=['accuracy'])
model.summary()
return model
参数lstm_layers=5
, dense_layers=3
,结果如下:
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_1 (LSTM) (None, 2, 32) 4608
_________________________________________________________________
lstm_2 (LSTM) (None, 2, 32) 8320
_________________________________________________________________
lstm_3 (LSTM) (None, 2, 64) 24832
_________________________________________________________________
lstm_4 (LSTM) (None, 2, 96) 61824
_________________________________________________________________
lstm_5 (LSTM) (None, 2, 128) 115200
_________________________________________________________________
dense_1 (Dense) (None, 2, 256) 33024
_________________________________________________________________
dropout_1 (Dropout) (None, 2, 256) 0
_________________________________________________________________
dense_2 (Dense) (None, 2, 256) 65792
_________________________________________________________________
dropout_2 (Dropout) (None, 2, 256) 0
=================================================================
Total params: 313,600
Trainable params: 313,600
Non-trainable params: 0
_________________________________________________________________
参数量计算
前面提到了LSTM的计算其实和普通神经网络类似,那我们就来推一下参数量,看是否符合我们的预期。
1. 输入的shape=(N, 2, 3)
2. 网络结构:
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_1 (LSTM) (None, 2, 4) 128
=================================================================
Total params: 128
Trainable params: 128
Non-trainable params: 0
_________________________________________________________________
3. 输出的shape=(N, 2, 4)
- 首先cell的输出为
[2, 4]
,也就是输出的维度为4
(其中2表示步长),输入的数据为[2, 3]
,所以真正输入cell中的数据维度应该是[2, 7]
,也就是[2, 3+4]
(因为要拼接t-1时刻的输出和t时刻的输入); - 接下来每个cell中有四个小黄矩形,也就是四次矩阵乘法,又因为输出的维度是
4
,所以矩阵乘法就是[2, 7]*[7, 4]=[2, 4]
,所以一个小黄矩形所需的参数为7x4=28
,四个也就是28x4=112
; - 最后加上每一个小黄矩形后的激活函数的偏置
4x4=16
。
最终,总共的参数值为112+16=128
。和程序打印出来的结果一致。
通过上面的推导我们发现,其实实际的参数量和步长是没有关系的,这一点我也验证了一下,通过改变输入shape=(samples, time_steps, input_dim)
中的time_stpes
的值,参数量不会发生变化。如下(输入shape=[N, 2, 3]
,time_steps=10
):
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_1 (LSTM) (None, 10, 4) 128
=================================================================
Total params: 128
Trainable params: 128
Non-trainable params: 0
_________________________________________________________________