时间序列的最新变形器调查

时间序列 20/02/2023

三个要点
✔️ 回顾时间序列的变压器，强调其优点和局限性
✔️ 从网络结构和应用方面总结变压器
✔️ 对未来发展的建议

Transformers in Time Series: A Survey
written by Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, Liang Sun
(Submitted on 15 Feb 2022 (v1), last revised 10 Feb 2023 (this version, v4))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Signal Processing (eess.SP); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

变换器在自然语言处理和计算机视觉的许多任务中表现出优异的性能，在时间序列应用中也有很大的兴趣。在变形器的多种优势中，捕捉长距离依赖和相互作用的能力对时间序列建模特别有吸引力，导致了各种时间序列应用的显著进步。本文系统地回顾了用于时间序列建模的变压器方案，强调了其优点和局限性。

特别是，它从两个角度研究了时间序列转换器的发展。从网络结构的角度，它总结了为应对时间序列分析的挑战而对转化器进行的调整和修改。从应用角度来看，它根据预测、异常检测和分类等常见任务对时间序列转换器进行了分类。作为实际例子，提供了鲁棒性分析、模型大小分析和季节性趋势分解分析，以审查转化器在时间序列中的表现。最后，讨论并提出了未来的方向，以提供有用的研究指导。

关于本文所评论的文章的原始来源，请参考原始文章的参考文献。

介绍。

深度学习中的转化器创新[Vaswani等人，2017]，由于其在自然语言处理（NLP）[Kenton和Toutanova，2019]、计算机视觉（CV）[Dosovitskiy等人，2021]、语音处理[Dong等人。., 2018]，以及其他领域[Chen et al., 2021b]，由于其在这些领域的优越性能，最近引起了极大的兴趣。在过去的几年中，已经提出了一些变压器的变体，以显著推进各种任务中的最先进的性能：在NLP应用[Qiu et al., 2020; Han et al., 2021]，CV应用[Han et al,2020；Khan等人，2021；Selva等人，2022]，高效转化器[Tay等人，2020]，注意力模型[Chaudhari等人，2021；Galassi等人，2020]等，从不同方面，相当多文献综述。

变形金刚对连续数据中的长距离依赖和相互作用表现出了出色的建模能力，因此被应用于时间序列建模。为了解决时间序列建模中的特殊挑战，已经提出了许多类型的变形器，包括预测[Li et al. 2019; Zhou et al. 2021; Zhou et al. 2022]、异常检测[Xu et al. 2022; Tuli et al,2022]，分类[Zerveas等人，2021；Yang等人，2022]。例如，季节性和周期性是时间序列的重要特征[Wen等人，2021a]。另一方面，如何有效地模拟长、短距离的时间依赖性并同时捕捉季节性仍然是一个挑战[Wu et al., 2021; Zhou et al., 2022]。由于时间序列的转化器是深度学习中的一个新兴挑战，系统而全面的调查将大大有利于时间序列社区。目前存在一些与时间序列的深度学习相关的调查，包括预测[Lim和Zohren，2021；Benidis等人，2020；Torres等人，2021]、分类[Ismail Fawaz等人，2019]、异常检测[Choi等人2021；Bl ́ azquez-Garc ́a等人，2021]和数据增强[Wen等人，2021b]，但用于时间序列的变形器几乎没有被提及。

本文旨在通过总结时间序列变换器的主要发展来填补这一空白。在网络修改和应用领域方面，提出了一个新的时间序列变换器的分类法。对于网络修改，本文讨论了为优化时间序列建模的性能而对转化器的低层次（即模块）和高层次（即结构）所做的改进。在应用方面，对包括预测、异常检测和分类在内的常见时间序列任务的转化器进行了分析和总结。对于每个时间序列转换器，都分析了它的见解、优势和局限性。为了提供关于如何有效使用转化器进行时间序列建模的实用指南，进行了广泛的实证研究，考察了时间序列建模的多个方面，包括稳健性分析、模型大小分析和季节性趋势分解分析。最后，讨论了时间序列变换器未来可能的方向，包括时间序列变换器的诱导偏差、时间序列变换器和GNNs、时间序列变换器的预训练以及时间序列变换器和NAS。这是对用于模拟时间序列数据的变换器的主要发展的第一次全面和系统的回顾。

按时间顺序对变形金刚进行分类。

为了组织现有的时间序列变换器，在网络修改和应用领域方面提出了一个分类法，如图1所示。基于这一分类法，对现有的时间序列转换器进行了系统的审查。在网络修改方面，我们总结了为解决时间序列建模中的特殊挑战而在变压器的模块和结构层面上所做的改变。从应用角度来看，它根据预测、异常检测、分类和聚类等应用任务对时间序列变换器进行了分类。

时间序列的网络修改。

位置编码

由于变换器是互换等价的，而且时间序列的顺序很重要，因此将输入时间序列的位置编码到变换器中是非常重要的。一个常见的设计是首先将位置信息编码为矢量，然后将其与输入的时间序列一起作为附加输入注入模型。在变压器中对时间序列进行建模时，如何获得这些矢量可以分为三个主要类别�

香格里拉的位置编码。

一些研究[Li et al., 2019]简单地引入了[Vaswani et al., 2017]中使用的香草位置编码，并将其添加到输入时间序列的嵌入中，以反馈给转化器。虽然这种简单的应用允许从时间序列中提取一些位置信息，但它未能充分地利用时间序列数据的重要特征。

启用学习的位置编码。

由于香草位置编码是手工制作的，表现力和适应性较差，一些研究表明，从时间序列数据中学习适当的位置编码是比较有效的。与固定的香草位置编码相比，学习的编码更加灵活，可以适应特定的任务。

[Zerveas等人，2021]在变换器中引入了一个嵌入层，其中每个位置指数的嵌入向量与其他模型参数共同学习。[Lim等人，2019]使用LSTM网络对位置嵌入进行编码，目的是为了更好地利用时间序列中的顺序信息。

时间戳编码

当在现实世界的场景中建立时间序列模型时当在现实世界的场景中建立时间序列模型时，时间戳信息通常以日历时间戳（如秒、分、小时、周、月、年）和特殊时间戳（如假期、事件）的形式来获取。这些时间戳虽然在实际应用中非常有用，但在虚构的变换器中却很少被利用。为了缓解这个问题，Informer[Zhou等人，2021]提出通过使用可学习的嵌入将时间戳编码为额外的位置信息。类似的时间戳编码方案也被用于Autoformer[Wu et al, 2021]和FEDformer[Zhou et al, 2022]。

注意力模块

转换器的核心是自我注意模块。它可以被看作是一个全连接层，其权重是根据输入模式的成对相似度动态生成的。因此，它与全连接层具有相同的最大路径长度，但参数要少得多，使其适合于建立长期依赖关系的模型。

香草型变压器自注意模块的时间和内存复杂度为O(L2)（其中L为输入时间序列长度），在处理长时间序列时，这是一个计算瓶颈。为了降低这种次级复杂度，人们提出了一些高效的转化器，它们主要分为两类。

(1）那些在注意力机制中明确引入稀疏性偏差的机制，如LogTrans [Li et al., 2019] 和 Pyraformer [Liu et al., 2022] 。

(2）Informer[Zhou等人，2021]和FEDformer[Zhou等人，2022]，它们探索自我注意矩阵的低秩属性以加快计算速度；表1提供了一个一般的它总结了转化器的时间和内存复杂性。

建筑层面的创新

除了调整Transformer的单个模块来模拟时间序列外，一些研究[Zhou et al, 2021; Liu et al, 2022]也试图在架构层面上创新Transformer。最近的工作在考虑到时间序列的多分辨率方面，为Transformer引入了分层结构：Informer[Zhou et al, 2021]在注意块之间插入了一个跨度为2的最大集合层，并将序列下切成其半片状采样。

Pyraformer[Liu et al., 2022]设计了一个基于C-ary树的关注机制，最细的尺度节点对应原始时间序列，较粗的尺度节点代表较低分辨率的序列 Pyraformer开发了尺度内和尺度间关注，以更好地捕捉为了更好地捕捉不同分辨率下的时间依赖性，Pyraformer同时开发了尺度内和尺度间的关注。除了能够整合来自不同多分辨率的信息之外，分层结构还得益于高效的计算，特别是对于长时间序列。

时间序列变压器的应用

回顾了变压器在重要时间序列任务中的应用，如预测、异常检测和分类。

预测中的变压器。

这里考虑了三种类型的预测任务：时间序列预测、空间和时间预测以及事件预测。

时间序列预测

预测是时间序列最常见和最重要的应用；LogTrans [Li et al., 2019]提出了卷积自注意力，通过采用因果卷积来生成自注意力层中的查询和键。这在自我注意模型中引入了一个稀疏的偏差（Logsparse mask），将计算复杂度从O(L)降低到O(Llog L)。

Informer[Zhou等人，2021]通过基于查询和密钥的相似性选择O(log L)主导查询，而不是明确引入稀疏性偏差，实现了与LogTrans类似的计算改进。

它实现了与LogTrans相同的计算改进。它还设计了一个成型的解码器，直接生成长期预测，避免了长期预测的一步式预测所造成的累积误差。

AST[Wu et al., 2020]使用了一个生成式对抗编码器-解码器框架。编码器-解码器框架被用来学习时间序列预测的稀疏变换器模型。它通过直接形成对抗性的输出分布来改善时间序列预测。通过直接形成网络的输出分布，并避免因一步到位的推理而导致的错误积累。

Autoformer[Wu et al., 2021]设计了一个简单的季节性趋势分解架构，其中的自相关机制充当了一个注意力模块。设计了一个简单的季节性趋势分解架构，其中的机制作为一个注意模块。自相关块不是一个传统的注意块。它测量输入信号之间的时延相似性，并聚集前k个相似的子序列来产生一个输出，将复杂度降低到O(Llog L)。

FEDformer [Zhou et al., 2022] 将傅里叶变换和小波变换应用于注意力操作的频域。它通过随机选择一个固定大小的频率子集来实现线性复杂度；值得注意的是，Autoformer和FEDformer的成功使得社区更加关注探索时间序列建模的频域自我注意机制值得注意的是。

TFT[Lim等人，2021]设计了一个带有静态协变量编码的多跨度预测模型。包括静态协变量编码器、门控特征选择、时间自我注意解码器和时间自我注意解码器的多跨度预测模型。它从各种协变量中编码并选择有用的信息进行预测。它还保留了全球纳入的可解释性。此外，它还保留了包含时间依赖性、事件等的可解释性。

SSDNet [Lin et al., 2021]和ProTran [Tang and Matteson, 2021]结合了Transformer和状态空间模型来提供概率预测；SSDNet首先使用Transformer学习时间模式并估计SSM的参数。估计状态空间模型的参数，然后应用状态空间模型进行季节性趋势分解以保持可解释性。

Pyraformer [Liu et al., 2022]设计了分层的金字塔式注意力模块，其路径遵循二叉树，以线性时间和内存复杂性捕捉不同范围的时间依赖。

Aliformer[Qi等人, 2021]使用知识引导的注意力和分支来修改和去噪注意力图，对时间序列数据进行顺序预测。

空间-时间的预测

空间-时间预测需要考虑时间和空间的依赖性，以实现准确的预测，Traffic Transformer[Cai等人，2020]设计了一个自我注意模块来捕捉空间-时间的依赖性，并设计了一个带有神经网络模块的Graph设计了一个带有神经网络模块的编码-解码器结构。用于交通流预测的Spatialtemporal Transformer [Xu et al., 2020]更进一步。除了引入一个时间变换器模块来捕捉时间上的依赖性外，还设计了一个空间变换器模块和一个图卷积网络来更好地捕捉空间上的依赖性。空间-时间图变换器 [Yu等人, 2020]设计了一个基于注意力的图卷积机制，可以学习复杂的时间-空间注意力模式来提高行人轨迹预测�

事件预测

在现实世界的应用中，自然会观察到具有不规则和不同步的时间戳的事件序列数据。这与具有相等采样间隔的正常时间序列数据形成对比。事件预测的目的是

事件预测旨在从过去事件的历史中预测未来事件的时间和标记，通常由时间点过程（TPP）建模[Shchur等人, 2021]。

最近，一些神经TPP模型已经开始纳入变压器，以提高事件预测的性能。

自注意霍克斯过程（SAHP）[Zhang et al., 2020]和变换器霍克斯过程（THP）[Zuo et al., 2020]总结了历史事件的影响，并计算出事件预测的强度函数。变换器编码器架构被采用来做这件事。他们通过将时间间隔转换为正弦函数来修改位置编码，从而使事件之间的间隔可用。后来，有人提出了一个更灵活的关注神经Datalog through time（A-NDTT）[Mei等人，2022]，扩展了SAHP/THP方案，将所有可能的事件和时间嵌入关注中。实验表明，与现有的方法相比，它能更好地捕捉到复杂的事件依赖关系。

异常检测中的变压器。

深度学习也能引发异常检测的新发展[Ruff等人，2021]。由于深度学习是一种表征学习，重建模型在异常检测任务中发挥着重要作用。重构模型的目的是训练一个神经网络，将向量从简单的预定义源分布Q映射到实际的输入分布P+，其中Q通常是高斯或均匀分布。异常得分是由重建误差定义的。直观地说，重建误差越大，即与输入分布的可能性越小，异常得分越高。设置一个阈值来区分异常和正常。

最近，[Meng等人，2019]揭示了与其他传统的时间依赖模型（如LSTM ）相比，使用变换器进行异常检测的优势。除了更高的检测质量（以F1衡量），基于变压器的异常检测的效率明显高于基于LSTM的方法，这主要是由于变压器架构TranAD[Tuli等人，2022]的并行计算，MT-RVAEs [Wang et al., 2022], TransAnomaly [Zhang et al., 2021]等，在一些研究中，研究人员将该方法用于异常检测中更好的重建模型，如VAEs [Kingma and Welling, 2013] 和 GANs [Goodfellow等人，2014]等都提出了将神经生成模型与变换器耦合。

TranAD提出了一个对抗性学习程序来放大重建误差，因为简单的基于变压器的网络往往会错过小的异常偏差；采用了一个GAN形式的对抗性学习程序，用两个变压器编码器和两个个变压器解码器设计，以获得稳定性。隔离分析的结果显示，当变压器编码器-解码器被替换时，F1得分下降了近11%，表明变压器结构对异常检测很重要。

MT-RVAE和TransAnomaly结合了VAE和TransAnomaly，但它们有不同的目标：通过结合VAE和TransAnomaly，TransAnomaly可以实现更多的并行化，并将学习成本降低近80%。在MT-RVAE中，多尺度变换器被设计用来提取和整合不同尺度的时间序列信息。它们克服了传统变压器的缺点，即只提取局部信息并按顺序进行分析�

一些时间序列转化器已被设计用于多变量时间序列，将转化器与基于图形的学习架构相结合，如GTA [Chen et al, 2021d]MT-RVAE也用于多变量时间序列，但维度较少或序列之间的关系不够紧密。

这种情况是指维度较少或序列之间没有足够的密切关系，以致于图神经网络模型不能很好地工作。因此，MT-RVAE修改了位置编码模块，并引入了特征学习模块：GTA具有图卷积结构，并对影响传播过程进行建模；与MT-RVAE一样，GTA考虑了 "全局 "信息，但采用了香草式多头注意力。相反，它采用了一个多分支注意机制，即全局学习注意、香草多头注意和邻域卷积的组合。

换句话说，它是全局学习注意力、香草多头注意力和邻域卷积的结合。

AnomalyTrans[Xu等人, 2022]将变压器与高斯先验关联结合起来，使罕见的异常现象更容易区分；它与TranAD有着相似的动机，但AnomalyTrans以一种非常不同的方式实现了这一目标。以不同的方式实现这一目标。洞察力在于，与正常情况相比，异常情况很难与整个系列建立强有力的关联，而可以很容易地与邻近的时间点建立关联；在AnomalyTrans中，先前的关联和系列关联同时被建模。除了重建损失外，异常模型还通过最小化策略进行优化，以约束先验和序列关联，使之更具有区分性。

分类中的变形金刚。

变换器已被证明对各种时间序列分类任务有效，因为它们能够捕获长期的依赖关系。分类变压器通常采用一个简单的编码器结构，其中自我注意层进行表征学习，前馈层为每个类别生成概率。

GTN [Liu et al., 2021]使用一个由两个塔组成的变压器，每个塔分别作用于时间步长和通道步长的注意力；为了整合两个塔的特征，使用了可学习的加权联系（也称为 "门控"）。也称为'门控'）被用来整合两座塔的特征。在13个多变量时间序列的分类中，所提出的变换器扩展取得了最佳结果。[Rußwurm和Korner, 2020]研究了一个基于自我注意的变压器，用于原始光学卫星时间序列的分类，并与递归和卷积神经网络进行了比较，取得了最佳效果。

在分类任务中也研究了预训练的变换器。[Yuan和Lin, 2020]研究了用于原始光学卫星图像的时间序列分类的变换器。由于标记的数据有限，作者使用了一个自我监督的预训练模式。[Zerveas等人，2021]介绍了一个无监督的预训练框架，其中模型是在按比例屏蔽的数据上预训练的。预训练的模型在下游任务中进行微调，如分类。

[Yang等人，2021]提出使用大规模预训练的语音处理模型进行下游时间序列分类问题，在30个常见的时间序列分类数据集上产生了19个主导结果。

实验评估和讨论

在这一节中，我们进行了一项实证研究，以分析转化器在时间序列数据上的表现。具体来说，在一个典型的基准数据集ETTm2[Zhou等人，2021]上以不同的配置测试不同的算法。

稳健性分析

然而，这些研究使用短的固定尺寸输入获得了最好的结果。这种有效的设计是否在实践中使用是值得怀疑的。因此，我们用较长的输入序列进行了实验，以测试长输入序列的预测能力和稳健性。

如表2所示，对较长输入列的预测结果的比较表明，各种基于变压器的模型迅速退化。这种现象意味着许多精心设计的变压器对于长期预测任务来说是不实用的，因为它们不能有效地利用长输入信息。需要进行更多的研究，以确保长的、连续的输入不只是被执行，而是被充分地利用。

模型尺寸分析

在引入时间序列预测领域之前，Transformer在NLP和CV社区显示了主导性的性能。[Vaswani等人，2017；Kenton和Toutanova，2019；Qiu等人，2020；Han等人，2021；Khan等人，2021；Selva等人，2022]。变压器在这些领域的关键优势之一是能够通过增加模型容量来提高预测能力。通常情况下，模型容量由变压器的层数控制，对于CV和NLP来说，层数通常设置在12到128之间。

然而，如表3的实验所示，当比较不同层数的Transformer模型的预测结果时，具有3至6层的最浅的Transformer的预测结果要好于其他模型。这就提出了一个问题：如何设计适当的具有更深层的变压器结构，以增加模型的容量并获得更好的预测性能。

季节性趋势分解分析

在最新的工作中，研究人员[Wu et al., 2021; Zhou et al., 2022; Lin et al., 2021; Liu et al., 2022]已经开始意识到季节性趋势分解对时间序列预测中变压器性能的重要性。表4使用[Wu et al., 2021]中提出的移动平均趋势分解架构测试了各种注意模块，作为一个简单的实验，如图所示季节性趋势分解模型可以显著提高模型的性能，从50％到80％。这是一个独特的区块，这种因分解而产生的性能提升似乎是变压器应用中时间序列预测的一个一致现象，值得进一步研究。

未来的研究机会

在这里，我们强调了在时间序列中研究变压器的一些潜在的有前途的方向。

对按时间顺序排列的变压器的诱导性偏见。

香草转化器对数据的模式或属性不做任何假设。它是一个用于模拟长距离依赖关系的通用网络，但代价是，它需要大量的数据来训练变换器，以避免过度拟合数据。时间序列数据的一个重要特征是季节性/周期性和趋势模式[Wen等人，2019；Cleveland等人，1990]。最近的一些研究表明，在时间序列变换器中加入序列周期性[Wu et al., 2021]和频率处理[Zhou et al., 2022]可以显著提高性能。因此，未来的一个方向是基于对时间序列数据和具体任务特征的理解，研究如何更有效地将诱导偏差引入变压器。

时间序列的变压器和GNN

多变量和时空时间序列正变得越来越普遍，需要高维处理技术，特别是捕捉维度之间潜在关系的能力。图形神经网络（GNN）的引入是建立空间依赖性和维度之间关系的自然方式。最近，一些研究表明，GNNs和变换器/注意力的结合不仅提供了显著的性能提升，如交通预测[Cai等人，2020；Xu等人，2020]和多模态预测[Li等人，2021]，而且还提供了对时空动态的更好理解和对潜在巧合的更好理解也已被证明。将变换器和GNN结合起来对时间序列进行有效的时空建模是未来的一个重要方向。

时间序列的预学习转化器。

大规模的预训练转化器模型已经大大改善了NLP[Kenton和Toutanova，2019；Brown等人，2020]和CV[Chen等人，2021a]中各种任务的性能。然而，关于时间序列的预训练变换器的研究是有限的，现有的工作主要集中在时间序列分类上[Zerveas等人，2021；Yang等人]。因此，如何为时间序列中的不同任务开发合适的预训练转化器模型仍然是未来研究的课题。

带有NAS的时间序列的变压器。

超参数，如嵌入尺寸、头数和层数，对变压器的性能有很大影响。手动设置这些超参数很耗时，而且往往会导致次优的性能。神经架构搜索（NAS）[Elsken等人，2019；Wang等人，2020]是一种发现有效的深度神经架构的流行方法，在NLP和CV中使用NAS进行变压器设计的自动化已经被也见于[So等人，2019；Chen等人，2021c]。对于工业规模的时间序列数据（可能是高维和长数据）来说，自动发现内存和计算效率都很高的变压器架构具有实际意义，是时间序列变压器的重要未来方向。