Keras中的LSTM

最近做一个关于用电负荷预测的项目,想用循环神经网络试一下,具有时间特性的数据预测当然非LSTM莫属了啦,但是感觉自己对LSTM的输入和输出不是很明白,就学习顺便整理一下吧。

此处属于我个人理解,可能有不正确的地方欢迎大家指正。


Cell

说到LSTM当然先来一张cell的图了:

LSTM结构图

图中看起来是三个cell,其实是一个cell在不同时刻上的拼接,也就是说其实是一个cell在不同时刻的状态。我们就以中间那个cell为例进行说明吧。
其中,四个黄色的小矩形就是普通神经网络的隐藏层结构,其中第一、二和四的激活函数是sigmoid,第三个的激活函数是tanht时刻的输入Xt-1时刻的输出h(t-1)进行拼接,然后输入cell中,其实可以这样理解,我们的输入X(t)分别feed进了四个小黄矩形中,每个小黄矩形中进行的运算和正常的神经网络的计算一样(矩阵乘法),有关记忆的部分完全由各种门结构来控制(就是0和1),同时在输入时不仅仅有原始的数据集,同时还加入了上一个数据的输出结果,也就是h(t-1),那么讲来LSTM和正常的神经网络类似,只是在输入和输出上加入了一点东西。cell中可以大体分为两条横线,上面的横线用来控制长时记忆,下面的横线用来控制短时记忆。关于LSTM我通过参考画了一张图,如下:
image.png


输入和输出

  1. 输入
    下面我们就来说说输入问题,在Keras中,LSTM的输入shape=(samples, time_steps, input_dim),其中samples表示样本数量,time_steps表示时间步长,input_dim表示每一个时间步上的维度。我举一个例子吧,现在有一个数据集有四个属性(A,B, C, D),我们希望的预测标签式D,假设这里的样本数量为N。如果时间步长为1,那么此时的输入shape=(N, 1, 4),具体的数据是这样的[A(t-1), B(t-1), C(t-1), D(t-1)](此处表示一个数据样本),样本标签为[D(t)];如果时间步长为2,那么此时的输入shape=(N, 2, 4),具体的数据是[[A(t-2), B(t-2), C(t-2), D(t-2)], [A(t-1), B(t-1), C(t-1), D(t-1)]](此处仍表示一个样本数据)。

  2. 输出
    关于Keras中LSTM的输出问题,在搭建网络时有两个参数,一个是output_dim表示输出的维度,这个参数其实就是确定了四个小黄矩形中权重矩阵的大小。另一个可选参数return_sequence,这个参数表示LSTM返回的时一个时间序列还是最后一个,也就是说当return_sequence=True时返回的是(samples, time_steps, output_dim)的3D张量,如果return_sequence=Flase时返回的是(samples, output_dim)的2D张量。比如输入shape=(N, 2, 8),同时output_dim=32,当return_sequence=True时返回(N, 2, 32);当return_sequence=False时返回(N, 32),这里表示的时输出序列的最后一个输出。


多层LSTM

使用LSTM搭建多层LSTM网络还是比较方便的,我们只需要使用Sequential()进行堆叠即可。
在进行多层LSTM网络时,需要注意一下几点:

  1. 需要对第一层的LSTM指定input_shape参数。

  2. 将前N-1层LSTM的return_sequence设置为True,保证每一曾都会想下一层传播所有时间步长上的预测,同时保证最后一层的return_sequenceFalse(如果只需要最后一个输出的话)。

  3. 其实,在第二层时,不用指定input_shape,因为根据上一层的output_dim和当前层的output_dim可以得出当前层中权重矩阵的大小。

def build_model(lstm_layers, dense_layers):
    model = Sequential()

    model.add(LSTM(output_dim=32, 
                   input_shape=(2, 3),
                   activation='relu',
                   return_sequences=True))
    for i in range(lstm_layers - 1):
        model.add(LSTM(output_dim=32 * (i+1),
                       activation='relu',
                       return_sequences=True))

    for i in range(dense_layers - 1):
        model.add(Dense(output_dim=256,
                        activation='relu'))
        model.add(Dropout(0.5))
    model.compile(loss='mae', optimizer='adam', metrics=['accuracy'])
    model.summary()
    return model

参数lstm_layers=5, dense_layers=3,结果如下:

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_1 (LSTM)                (None, 2, 32)             4608      
_________________________________________________________________
lstm_2 (LSTM)                (None, 2, 32)             8320      
_________________________________________________________________
lstm_3 (LSTM)                (None, 2, 64)             24832     
_________________________________________________________________
lstm_4 (LSTM)                (None, 2, 96)             61824     
_________________________________________________________________
lstm_5 (LSTM)                (None, 2, 128)            115200    
_________________________________________________________________
dense_1 (Dense)              (None, 2, 256)            33024     
_________________________________________________________________
dropout_1 (Dropout)          (None, 2, 256)            0         
_________________________________________________________________
dense_2 (Dense)              (None, 2, 256)            65792     
_________________________________________________________________
dropout_2 (Dropout)          (None, 2, 256)            0         
=================================================================
Total params: 313,600
Trainable params: 313,600
Non-trainable params: 0
_________________________________________________________________

参数量计算

前面提到了LSTM的计算其实和普通神经网络类似,那我们就来推一下参数量,看是否符合我们的预期。

1. 输入的shape=(N, 2, 3)
2. 网络结构:
    _________________________________________________________________
    Layer (type)                 Output Shape              Param #   
    =================================================================
    lstm_1 (LSTM)                (None, 2, 4)              128       
    =================================================================
    Total params: 128
    Trainable params: 128
    Non-trainable params: 0
    _________________________________________________________________
3. 输出的shape=(N, 2, 4)
  1. 首先cell的输出为[2, 4],也就是输出的维度为4(其中2表示步长),输入的数据为[2, 3],所以真正输入cell中的数据维度应该是[2, 7],也就是[2, 3+4](因为要拼接t-1时刻的输出和t时刻的输入);
  2. 接下来每个cell中有四个小黄矩形,也就是四次矩阵乘法,又因为输出的维度是4,所以矩阵乘法就是[2, 7]*[7, 4]=[2, 4],所以一个小黄矩形所需的参数为7x4=28,四个也就是28x4=112
  3. 最后加上每一个小黄矩形后的激活函数的偏置4x4=16

最终,总共的参数值为112+16=128。和程序打印出来的结果一致。
通过上面的推导我们发现,其实实际的参数量和步长是没有关系的,这一点我也验证了一下,通过改变输入shape=(samples, time_steps, input_dim)中的time_stpes的值,参数量不会发生变化。如下(输入shape=[N, 2, 3]time_steps=10):

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_1 (LSTM)                (None, 10, 4)             128       
=================================================================
Total params: 128
Trainable params: 128
Non-trainable params: 0
_________________________________________________________________

参考
  1. keras:4)LSTM函数详解
  2. LSTM梳理,理解,和keras实现 (一)
  3. LSTM神经网络输入输出究竟是怎样的?
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • 从这篇开始介绍Keras的Layers,就是构成网络的每一层。Keras实现了很多层,包括核心层、卷基层、RNN网...
    readilen阅读 2,089评论 1 3
  • 上一篇介绍了卷基层,可以用来构建很常见的卷积神经网络等模型。那么今天将要介绍的是递归层,是一个可以用来构建递归网络...
    readilen阅读 1,143评论 0 0
  • 李克勤一首《单车》的翻唱大获好评,而这首歌也成了我最近耳边频率最高的单曲循环。这一年来经历过亲人的病与死,让我更加...
    尚恩_阅读 338评论 0 0
  • ■王郝近雷 知了声声叫 惊动了 秋天的我 带上几片落叶和白云 走寻天下 寻找天下的先生 花溪 前方的远山 ...
    蜗牛向前行123阅读 126评论 0 10
  • 今天是2018年12月22日,星期六,农历冬月十六。 今天,2018考研开始了,祝考研的学长学姐考试顺利、金榜题名...
    火锅即生活阅读 328评论 0 2