时间序列对机器学习算法来说是一种具有挑战性的数据类型,因为它们在实践中具有高度可变的长度和稀疏标记。在本文中,我们提出了一种学习时间序列通用嵌入的无监督方法来解决这一挑战。与之前的作品不同,它的长度是可伸缩的,我们通过深入的实验和比较证明了学习表征的质量、可转移性和实用性。为此,我们将基于因果扩张卷积的编码器与采用基于时间的负采样的新型三重损耗相结合,获得变长和多元时间序列的通用表示。
背景:
很少有文章在没有对非时间数据进行结构性假设的情况下明确地处理时间序列的通用表示学习。
总结:文中提出课一种锚定法(ref),使得pos接近ref/ neg远离ref,组成三元loss,进而实现表征学习。
方案:
文章中提出了一种无监督的方法来学习多元时间序列的通用表示,这些表示符合所研究的时间序列的变化和可能的高长度的问题。
Unsupervised Training
目的是确保相似的时间序列得到相似的表示,而不需要监督来学习这种相似性。我们考虑(见图1)给定时间序列yi的随机子序列 xref。xref的表示应该接近于它的任何子系列xpos(一个正例子)。如果我们考虑另一个随机选择的子序列xneg(一个反面例子),它的表示应该远离xref的表示。与word2vec类似,xpos对应一个单词,xref对应其上下文,xneg对应一个随机单词
最小化这样的成本,本质上是pos接近ref ,但是 neg 远离ref
Encoder Architecture
我们选择使用具有指数扩张因果卷积的深度神经网络来处理时间序列。我们的模型堆叠扩展的因果卷积。将一个序列映射到一个相同长度的序列,对于所有I,这样输出序列的第I个元素只使用输入序列的第I个元素之前的值来计算
Experimental Results