题目:基于时间卷积网络的时间序列预测
随着社会生活的发展,预测变得越来越重要。作为新兴的序列建模模型,时间卷积网络已被证明在诸如音频合成和自然语言处理等任务上表现出色。但是很少用于时间序列预测。在本文中,我们将时间卷积网络应用于时间序列预测问题。门控线性单位允许梯度通过线性单位传播而无需缩放,因此我们将其引入时间卷积网络。为了提取更多有用的特征,我们提出了一种多通道门控时间卷积网络模型。我们使用该模型进行股票收盘价预测,Mackey-Glass时间序列数据预测,PM2.5预测和电器能耗预测。实验结果表明,与传统方法LSTM和GRU相比,时间卷积网络,门控时间卷积网络和多通道门控时间卷积网络收敛更快,并且具有更好的性能。
关键词—时间卷积网络;时间序列预测;门控线性单元
长期以来,处理深度学习中的预测问题的主要方法是递归神经网络(RNN)。 Jozefowicz等[1]。我们已经搜索了成千上万的RNN网络结构,得出的结论是,如果有比长期短期存储网络“ LSTM”更好的网络结构,则不值得寻找。克劳斯等人[2]。在研究了大量的LSTM结构后,也认为没有任何变体可以显着改善标准LSTM结构。这表明了RNN的重要性。然而,由于固有的长期梯度流,RNN面临梯度消失问题,大量参数和高计算成本的问题。由于这些门,LSTM有效地缓解了梯度消失问题。
时间卷积网络(TCN)是一种具有完全卷积结构的新型神经网络。事实证明,它在诸如音频合成,字符级和单词级语言建模等任务上表现出色。时间卷积网络可以很好地处理序列化数据,并且仅使用先前的数据来生成未来的数据。时间序列预测要求只能使用过去的数据来预测未来的数据,因此TCN非常适合于时间序列预测。我们将门控线性单元(GLU)引入TCN,因为它有助于梯度流过图层。为了提取更多信息,我们提出了多通道门控时间卷积网络(M-GTCN)。
许多学者将卷积神经网络与递归神经网络相结合来进行预测。杜等。 [3]结合了卷积网络和长期短期记忆网络,提出了一种混合模型来预测交通流量。在此模型中,卷积和池运算用于局部趋势学习,可以保留时间序列的空间和时间局部性。 CNN主要考虑局部趋势特征,并为混合模型提供更多融合特征。吕等人。 [4]提出了一种查找卷积,将道路网络的拓扑嵌入到卷积中以捕获更有意义的空间特征。之后,他们将提取的特征输入到长期短期存储网络中,以从时间序列数据中提取长期依赖关系。然后,他们将长期依赖性与完全连接层提取的周期性信息和环境信息的特征相结合,以预测最终的交通速度。 Wang等。 [5]提出了eRCNN网络,该网络使用矩阵表示时空信息,并引入单独的错误反馈神经元来预测交通速度。这些方法通常使用卷积神经网络来提取特征并将特征输入LSTM以进行预测。
Li等。 [6]提出了一种使用时间卷积网络和递归神经网络进行视频运动分割的混合网络,取得了很好的效果。 Colin Lea等。 [7]提出了一个时间卷积神经网络,并将其应用于行为识别和检测,取得了比RNN更好的结果。 Vijayaditya等。 [8]使用时域卷积网络进行声学建模,其性能优于最新的低帧频(LFR)BLSTM模型。 Kim等。 [9]使用时间卷积网络来执行三维人体运动识别。最终模型Res-TCN在最大的三维人体运动识别数据集NTU-RGBD上获得了最先进的结果。 Google DeepMind团队提出的WaveNet [10]使用类似于时间卷积网络的结构来生成声音。
Bai等。 [11]系统地总结了以前的工作,并使用了因果卷积,膨胀卷积,残差连接和完全连接的网络等结构来形成TCN。在诸如手写识别,音频合成和自然语言处理等任务上,TCN已被证明优于循环网络。他们提出在时间卷积网络中必须遵守两个原则。首先,在卷积结构中,不会存在“信息泄漏”,即在计算时间t的输出时,只能涉及时间t之前的输入。其次,网络结构可以采用任意长度的序列。由于TCN没有信息泄漏,并且可以很好地处理序列数据,因此非常适合时间序列预测。
时间卷积网络是完全由卷积结构组成的网络。在不使用递归结构的情况下,在序列建模任务中取得了良好的效果。但是,时间卷积网络使用膨胀卷积,这会导致细节特征丢失。在本节中,我们将介绍TCN,GTCN和多通道门控时间卷积网络。
可以将时间卷积网络视为一维卷积和因果卷积的组合。然后引入扩张的卷积以增加接收场。时间卷积网络中的重要结构包括因果卷积[12],膨胀卷积[13]和残差连接[14]。
门控线性单元
门控线性单元(GLU)已被证明在自然语言处理中非常有效[16]。它允许梯度在不缩放的情况下通过线性单位传播,同时保持图层的非线性功能。 GLU可以表示为 X⊗σ(X)。 GLU的梯度计算为。
多通道门控时间卷积网络
为了获得更完整的特征,我们提出了一种多通道门控的时间卷积网络MGTCN。
如图2所示,一维卷积,权重归一化[15],门控线性单元[16]和DropOut [17]被连接以形成卷积模块。将两个卷积模块堆叠在一起,并添加到1 ×1卷积中以形成残差结构。所使用的残留结构可以解决输入和输出通道之间不匹配的问题。我们使用多层残差结构和一个完全连接的层来形成门控时间卷积网络(GTCN)。
与传统的卷积神经网络不同,GTCN不使用二维卷积和池化层。它还不仅用于提取时间序列预测中的特征。它可以通过因果卷积结构提取隐藏在时间序列数据中的特征,然后直接生成预测结果。传统的卷积神经网络要服从固定的接受场。 GTCN使用膨胀的卷积使接收场以较小的代价扩展。感受野可以通过扩张的卷积改变。因此,随着层数的增加,接收场将变大。与RNN及其变体相比,GTCN可以并行化,处理速度具有明显的优势,RNN遭受爆炸和消失梯度的困扰。 GTCN具有反向传播路径,使用GLU激活功能和残留结构来避免梯度爆炸和消失。
M-GTCN将残留结构的多个层放在一起以形成通道。每个通道在提取特征时都会随机忘记该特征。使用每个通道分别提取特征,然后融合特征以获得更多信息。然后,我们使用完全连接的层来输出预测。图3显示了M-GTCN的结构
为每个通道提取的特征被复制。为了减少重复特征的影响,我们使用融合矩阵。可训练的融合矩阵使用反向传播训练。它随着功能部件的更改而更改,以减少功能部件的冗余。融合矩阵如下。
我们使用(4)进行融合,其中混合是由混合网络生成的特征,而是由第通道生成的特征。可训练的是与第i个通道相对应的系数。是逐元素乘法。在融合过程中不需要干预。端到端的过程提高了融合效率和手动调整的复杂性。我们的M-GTCN可以通过反向传播进行训练,以通过最小化预测值和真实值之间的均方误差来预测.
总结