Timeline Transformers Review

Transformer 09/05/2022

三个要点
✔️ 对近年来开始发表的时间序列数据的变形器进行全面审查
✔️ 从网络结构和应用（预测、异常检测和分类）两方面进行分类，回顾了Transformer的优势和局限性。
✔️ 未来的发展在预学习、GNN和NAS组合方面进行了描述。

Transformers in Time Series: A Survey
written by Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, Liang Sun
(Submitted on 15 Feb 2022 (v1), last revised 7 Mar 2022 (this version, v3))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Signal Processing (eess.SP); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

背景

自从Transformer在2017年发表以来，它已经被应用于许多领域，包括 NLP、 CV和对话处理。最近还发表了大量的论文评论。^(NLP1,2,^CV3,4,5, Efficient Transformer,Attention^Models6,7)

Transformer对于时间序列数据建模也很有吸引力，因为它已经证明有能力对序列数据中的长期范围依赖和相互作用进行建模。Transformer已经进行了改造，以应对时间序列数据所特有的挑战。主要的挑战之一是捕捉长期和短期的依赖性，以及季节性和周期性。到目前为止，Transformer在一些时间序列的深度学习评论中也有涉及，但还没有找到关于Transformer的全面评论。

本文总结了时间序列变换器的主要发展情况"。在对 "普通 "变压器作了简短介绍后，介绍了从网络修改和应用方面的分类。对于网络来说，低级和高级都将被触及。在应用方面，将对常见的时间序列任务预测、异常检测和分类进行分析。对于每一种，都分析了Transformer的优势和局限性。作为一种实践指导，进行了一项广泛的实验研究，调查了时间序列建模的许多方面。这包括稳健性分析、模型规模分析和季节性趋势分解分析。最后，讨论了未来潜在的扩展。

变形金刚》回顾。

它有一个 "vanilla "变压器编码器-解码器结构，是最具竞争力的神经系列模型。每个编码器和解码器都有几个相同的块。每个编码器模块由一个多头自注意模块和一个逐位前向传播模块组成。另一方面，解码器由一个多头的自我关注和逐个位置的前向传播模块，而解码器则包含一个交叉注意力模型，其中包含了来自编码器的输入。

输入编码和位置编码

与LSTM和RNN不同，Transformer没有递归或卷积。相反，它使用添加到输入嵌入的位置编码来模拟序列信息。以下是一些位置编码的总结。

绝对位置编码。

在香草变压器中，对于每个位置索引t，编码向量由以下方式给出

其中ωi是每个维度都有手工制作的频率。是。另一种方法是为每个位置学习一套更灵活的位置嵌入。

相对位置编码

根据输入元素之间成对的位置关系比元素位置更具信息量的直觉，相对位置编码方法已经被提出。例如，这种方法之一是在注意力机制的关键处添加可学习的相对位置嵌入。除了绝对位置编码和相对位置编码，另一种方法是使用混合位置编码，将它们结合起来。通常情况下，位置编码被添加到标记嵌入中，并被发送到转化器。

多头关注

在Query-Key-Value（QKV）模型中，Transformer使用的内积的比例损耗由以下公式给出

其中，查询^{_{Q∈RN×Dk，}}密钥^{_{K∈RM×Dk，}}值^{_{V∈RM×Dv，}}N、M表示查询和密钥（或值）的长度，_Dk、_Dv表示密钥（或查询）和值的尺寸。转化器不是一个单一的注意功能，而是可以作为一个的学习投影。H不同套的多头关注。

前向传播和残余网络

逐个位置的前馈网络是

这些模块完全连接，如其中H'是前一层的输出，而^W1∈^_RDm×Df，^W2∈^_RDf×Dm，^b1∈^_RDf，^b2∈^_RDm为可学习参数。在更深的模块中，每个模块周围都插入了一个剩余连接模块和后续的层级规范化模块。换句话说。

在那里，自己的注意力(.)表示一个自我关注的模块，而LayerNorm（.）表示一个层的正常化操作。

时间序列变压器的分类。

为了组织现有的时间序列变压器，我们准备了一个在网络修改和应用方面的分类，如图1所示。根据这一分类，对时间序列变压器进行了系统的审查。根据该分类法，对现有的时间序列变形器进行了系统的审查。从网络变化的角度来看，它总结了Transformer在模块和架构层面的变化，以应对时间序列建模的特殊挑战。从应用的角度来看，它根据预测、异常检测、分类和聚类等应用任务对时间序列转化器进行了分类。

对时间序列的网络进行修改。

位置编码Transformer相当于permutation，由于时间序列的顺序很重要，所以将输入时间序列的位置编码到Transformer中是非常重要的。一个常见的设计是首先将位置编码为矢量，然后将它们与输入的时间序列一起作为附加输入注入模型。使用变形器对时间序列进行建模时，获得这些向量的方式可以分为三大类。

位置编码器

香草位置编码。

有些工作只是引入了虚无的位置编码，随后将其添加到输入的时间序列嵌入中并送入转化器。这个简单的应用可以从时间序列中提取一些位置信息，但没有充分利用时间序列数据的重要特征。

学习促成的位置编码。

由于香草式的位置编码是手工制作的，表现力和适应性较差，一些研究发现，从时间序列数据中学习合适的位置嵌入要有效得多。与固定的香草位置编码相比，学习的嵌入更加灵活，可以适应特定的任务。 Zerveas等人在Transformer中引入了一个嵌入层，它为每个位置索引与其他模型参数一起学习一个嵌入向量。 Lim等人使用LSTM网络对位置嵌入进行编码，目的是为了更好地利用时间序列的顺序排列信息。

时间戳编码

在现实世界的场景中对时间序列进行建模时，你通常可以获得时间戳信息，如日历时间戳（如秒、分、小时、周、月、年）和特殊时间戳（如假期和事件）。这些时间戳在实际应用中非常有用，但很少被vanilla Transformers所利用。为了缓解这个问题，信息者提议使用可学习的嵌入层将时间戳编码为一个额外的位置编码。在Autoformer 和FEDformer 中也使用了类似的时间戳编码方案。

注意模块

转化器的核心是自我关注模块。它可以被看作是一个全连接层，其权重是根据输入模式对的相似性而动态生成的。因此，它与全连接层的最大路径长度相同，但参数少得多，适合于建立长期依赖关系的模型。香草转化器自附着模块的时间和内存复杂度为O^(L2)，其中L为输入时间序列的长度，在处理长序列时是一个计算瓶颈为了降低二阶复杂度，人们提出了一些高效转化器，并它们可以分为两个主要类别它们可以分为两个主要类别。(1) 在注意力机制中明确引入稀疏性偏差，如LogTrans 和Pyraformer ；(2)信息员和FEDformer如Informer和FEDformer。探索自我关注矩阵的低秩属性，以加快计算速度。表1总结了应用于时间序列建模的常见变形器的时间和内存复杂性。

架构层面的创新

除了解决用于时间序列建模的变形金刚的各个模块外，一些工作还试图在架构层面上改造变形金刚。最近的工作为Transformer引入了一个分层结构，以考虑到时间序列的多分辨率方面。 Informer 在注意力块之间插入了一个最大跨度为2的集合层。这就把该系列降格为半个片断。 Pyraformer 设计了一个基于C-ary树的注意力机制。在这个机制中，具有最细刻度的节点对应于原始时间序列，而具有较粗刻度的节点代表较低分辨率的序列。 Pyraformer开发了尺度内和尺度间的关注，以更好地捕捉不同分辨率的时间依赖性。除了能够整合不同多分辨率的信息外，分层结构还具有高效计算的优势，特别是对于长时间序列。

时间序列变换器的应用。

预测

时间序列预测

预测是时间序列的最常见和最重要的应用。 LogTrans提出了卷积式自我关注，通过使用因果卷积来生成自我关注层中的查询和密钥。这为自我注意模型引入了一个稀疏的偏差（Logsparse mask），将计算复杂性从O^(L2)降低到O(L log L)。 Informer 没有明确引入稀疏性偏差，而是根据查询和密钥的相似性选择O(log L)的密钥查询，在计算复杂度上实现了与LogTrans相似的改进。它还设计了一个生成式解码器，直接生成长期预测和当使用单一前向预测进行长期预测时。避免累积性错误。

AST 使用生成式对抗编码器-解码器框架来训练用于时间序列预测的稀疏转化器模型。它表明，对抗性训练可以通过直接塑造网络的输出分布来改善时间序列预测，并避免因一步到位的推理而导致的错误积累。

Autoformer设计了一个简单的季节性趋势分解架构，其自相关机制作为一个关注模块。自相关区块不是一个传统的注意力区块。它测量输入信号之间的时延相似性，并聚集前k个相似的子系列，以产生一个复杂度降低为O(L log L)的输出。

FEDformer 使用傅里叶和小波变换，在频域中应用注意力操作。它通过随机选择一个固定大小的频率子集实现了线性复杂度。值得注意的是，Autoformer和FEDformer的成功使得社会各界更加关注在时间序列建模的频域中探索自我注意机制。

TFT 设计了具有静态协变量编码器、门控特征选择和时间性自我注意解码器的多跨度预测模型。它从各种协变量中编码和选择有用的信息并进行预测。它还通过纳入全局性的时间依赖和事件来保持可解释性。

SSDNet 和ProTran 将Transformer与状态空间模型相结合，提供概率预测。 SSDNet首先使用Transformer来学习时间模式并估计SSM参数，然后应用SSM来进行季节性趋势分解并保持可解释能力。 ProTran设计了基于变量推理的生成模型和推理程序。

Pyraformer 设计了具有路径跟踪二叉树的分层金字塔式注意力模块，以线性时间和内存复杂度来捕捉一系列的时间依赖。

Aliformer 使用基于知识的注意力和分支来修改和去噪注意力图，从而为时间序列数据提供顺序预测。

空间-时间的预测

空间-时间预测要求同时考虑时间和空间-时间的依赖性，以便产生准确的预测。流量变换器设计了一个编码器-解码器结构，使用一个自我注意模块来捕捉时间-时间的依赖性，以及一个图神经网络模块来捕捉空间依赖性。用于交通流预测的时空变换器更进一步。除了引入一个时间转换块来捕捉时间上的依赖外，还设计了一个空间转换块和一个图卷积网络来更好地捕捉空间上的依赖。时空图转化器设计了一个基于注意力的图卷积机制，可以学习复杂的时空注意力模式，以改善行人轨迹预测。

事件预测

在许多实际应用中自然会观察到具有不规则和不同步时间戳的事件序列数据。这与具有相等采样间隔的正常时间序列数据形成鲜明对比。事件预测或预报的目的是，考虑到过去事件的历史，预测未来事件的时间和标志，通常以时间宝洁过程（TPP）为模型。最近，一些神经TPP模型开始加入Transformer来提高事件预测性能。自我关注霍克斯过程（SAHP）和变压器霍克斯过程（THP）采用变压器编码器架构来总结历史事件的影响，并计算出事件预测的强度函数。他们通过将时间间隔转换为正弦函数来修改位置编码，从而使事件之间的间隔可以得到。随后，提出了一个更灵活的名为Attentive NeuralDatalog（A-NDTT）的方案，它通过仔细嵌入所有可能的事件和时间来扩展SAHP/THP方案。实验表明，与现有的方法相比，它能更好地捕捉到高级事件的依赖性。

检测异常情况

深度学习也引发了异常检测的新发展。由于深度学习是一种表征学习，重建模型在异常检测任务中发挥着重要作用。重构模型的目的是学习一个神经网络，将一个矢量从一个简单的预定义的源分布Q映射到一个实际的输入分布^P+。 Q通常是一个高斯或均匀分布。异常得分是由重建误差定义的。直观地说，重建误差越大，异常得分越高，意味着由输入分布引起的可能性越小。阈值的设置是为了区分不正常和正常。最近，Meng等人确定了使用Transformer进行异常检测比其他传统模型（如LSTM）具有时间依赖性的优势。除了更高的检测质量（以F1衡量），基于变压器的异常检测比基于LSTM的方法明显更有效率，这主要是由于变压器架构的并行计算。在一些研究中，包括 TranAD 、MT-RVAE 和TransAnomaly ，研究人员已经使用 Transformer VAE和GAN用于异常检测中更好的重建模型。异常检测中更好的重建模型。

TranAD提出了一个对抗性的训练程序来放大重建误差，因为简单的基于Transformer的网络往往会错过异常情况的小偏差。设计了一个GAN式的对抗性训练程序，用两个Transformer编码器和两个Transformer解码器来获得稳定性。隔离研究表明，更换基于Transformer的编码器-解码器后，F1得分性能下降了近11%，而变形器架构对异常检测的重要性。

MT-RVAE和TransAnomaly都结合了VAE和TransAnomaly，但目标不同。 TransAnomaly结合了VAE和Transformer，实现了更多的并行化，并将学习成本降低了约80%。在MT-RVAE中，多尺度转化器被设计用来提取和整合不同尺度的时间序列信息。这克服了传统变形金刚的缺点，即只提取局部信息进行顺序分析。有几个时间序列变形器是为多变量时间序列设计的，其中变形器与基于图形的学习架构（如GTA）相结合。请注意，MT-RVAE也适用于多变量时间序列，但维度较少或序列之间关系不够紧密，图神经网络模型不能很好地发挥作用。为了解决这些问题，MT-RVAE修改了位置编码模块并引入了一个功能学习模块。 GTA包括一个用于模拟影响传播过程的图卷积结构。与MT-RVAE一样，GTA考虑了 "全局 "信息，但用多分支注意机制取代了普通的多头注意--全局学习注意、普通的多头注意和邻居卷积的结合。

AnomalyTrans 结合了Transformer和Gaussian Prior-Association来更好地识别罕见的异常情况。尽管动机与TranAD相同，但AnomalyTrans以一种非常不同的方式实现了这一目标。它使人们了解到，在整个系列中建立异常现象的强烈关联是很困难的，但在相邻的时间点上，与正常情况相比则比较容易。在AnomalyTrans中，预关联和系列关联是同时建模的。除了重建的损失外，异常模型还通过最小化策略进行优化，由于更多可辨识的关联差异，制约了预关联和系列关联。

分类。

事实证明，变形金刚在各种时间序列分类任务中是有效的，因为它们具有捕捉长期依赖关系的出色能力。分类变压器通常采用一个简单的编码器结构，其中自我注意层进行表征学习，前馈层为每个类别生成概率。

GTN使用一个双塔式变压器，每个塔分别进行逐时关注和逐信道关注。为了整合两座塔的功能，使用了一个可学习的加权协处理器（也称为 "门控"）。所提出的变形器的扩展在13个多元时间序列分类中取得了SOTA的结果。 Rußwurm等人研究了一个基于自我注意的Transformer，用于原始光学卫星时间序列分类，与RNN和CNN相比获得了最好的结果。

在分类任务中也研究了预学习转化器。 Yuan等人研究了用于原始光学卫星图像的时间序列分类的转化器。由于标记的数据有限，作者使用了一个自我监督的预训练模式。 Zerveas等人引入了一个无监督的预训练框架，在这个框架中，模型被按比例掩盖的数据进行预训练。预训练的模型在下游任务中进行微调，如分类。 Yang等人提出使用大规模预训练的语音处理模型进行下游时间序列分类问题，在30个著名的时间序列分类数据集上产生了19个竞争结果。

实验

稳健性分析

上面描述的许多工作都精心设计了注意力模块，以便减少二次计算和记忆的复杂性，但在实践中，为了在报告的实验中取得最佳结果，使用了短的固定大小的输入。这种高效设计的实际用途仍然值得怀疑。通过延长输入序列的长度进行鲁棒性实验，以测试处理长输入序列时的预测能力和设计的鲁棒性。如表2所示，当预测结果与延长的输入长度比较时，各种基于变压器的模型迅速退化。这种现象使得许多精心设计的变形金刚在长期预测任务中不切实际，因为它们不能有效地利用长输入信息。除了简单的运行之外，还需要做更多的工作来充分利用长序列输入。

模型尺寸分析

在引入时间序列预测领域之前，Transformer在NLP和CV社区表现出了杰出的性能。 Transformer在这些方面的主要优势之一是能够通过增加模型规模来提高预测能力。通常情况下，模型的容量是由变压器的层数控制的。在CV和NLP中，层数通常设置在12到128之间。然而，如表3的实验所示，在比较不同层数的变压器模型的预测结果时，3-6层的最浅的变压器获胜。出现的问题是，如何设计一个合适的具有更深层的Transformer架构，以增加模型容量并实现更好的预测性能。

季节性趋势分解分析

在最新的研究中，研究人员已经开始意识到，季节性趋势分解是Transformer在时间序列预测中的一个重要部分。作为表4所示的一个简单实验，我们使用Wu等人提出的移动平均趋势分解架构测试不同的注意力模块。季节性趋势分解模型可以显著提高模型的性能，达到50%到80%。这是一个独特的区块，这种由于分解而带来的性能提升似乎是变压器应用中时间序列预测的一个一致现象，值得进一步研究。

进一步研究的机会

诱发的偏差

Vanilla Transformer对数据的模式和特性不做任何假设。它是一个用于模拟长距离依赖关系的一般和通用网络，但它是有代价的。这意味着需要大量的数据来训练Transformer以避免过度拟合数据。时间序列数据的一个重要特征是其季节性/周期性和趋势模式。最近的几项研究表明，将序列周期性或频率处理纳入时间序列变形器可以显著提高性能。因此，未来的一个方向是在了解时间序列数据和具体任务特征的基础上，考虑更有效的方法来诱导转化器中的诱导性偏差。

变压器和GNN。

多变量和时空时间序列在应用中越来越普遍，需要额外的方法来处理更高的维度，特别是捕捉维度之间基本关系的能力。图形神经网络（GNN）的引入是建立空间依赖关系或维度之间关系的自然方式。最近，一些研究表明，GNNs和Transformer/attention的组合可用于交通预测和多式联运的预测以及大幅提高性能，但也可以导致对时空动态和潜在因果关系的更好理解。将Transformer和GNN结合起来，在时间序列中进行有效的时空建模是一个重要的未来方向。

预习变压器。

带有大型预训练转化器模型的NLP和CV在各种任务上的表现都得到了显著的改善。然而，针对时间序列的预训练变形金刚的工作是有限的，现有的研究主要集中在时间序列分类上。因此，如何为不同的时间序列任务开发合适的预训练Transformer模型，就留给了未来的研究。

带NAS的变压器

嵌入维度、头数和层数等超参数会对Transformer的性能产生重大影响。手动设置这些超参数是很耗时的，而且往往会导致次优的性能。神经架构搜索（NAS）是一种发现有效的深度神经架构的流行技术，在最近的研究中可以发现NAS在NLP和CV中的应用，以实现Transformer设计的自动化。对于工业规模的时间序列数据来说，高维度和长长度都是可能的，自动发现内存和计算效率高的Transformer架构具有实际意义，也是时间序列Transformer的一个重要的未来方向。

摘要

本文对不同任务中的时间序列变压器进行了全面的调查。所审查的方法被总结为一个新的分类法，包括网络修改和应用领域。对每一类的代表性方法进行了总结，通过实验评估讨论了它们的优点和缺点，并强调了未来研究的方向。

与本文相关的类别

友安昌幸 (Masayuki Tomoyasu): JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定日本创新融合学会 DX检定专家联合公司Amico咨询 CEO