赶上最新的AI论文

瞬态变压器

瞬态变压器

时间序列

三个要点
✔️ NeurIPS 2022年接受的论文它提出了一个针对具有非平稳区间的时间序列数据的预测模型,即 "非平稳变压器"。
✔️ 该模型由两部分组成。系列静止和非静止的注意。这解决了系列预测能力和模型能力之间的两难问题。
✔️ 使用六个真实世界的数据集,该模型的性能与主要的传统模型进行了比较,MSE降低了近50%。

Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
written by Yong LiuHaixu WuJianmin WangMingsheng Long
(Submitted on 01 Nov 2022, Last Modified on 12 Jan 2023)
Comments: NeurIPS 2022

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述。

本文设计了一个变压器的转折,以提高时间序列数据(包括非稳态数据)的预测精度。由于变压器的全局范围建模能力,它一直是时间序列预测的巨大力量,但在现实世界的非平稳数据中,其性能严重下降,因为耦合分布随时间变化。

以前的研究主要采用静止化的方法,即削弱原始序列的非静止性,以提高预测精度。然而,去除非平稳性的静止序列对于预测现实世界中的突发事件可能不是很有用。这个问题在本文中被称为过度静止化,导致Transformer对不同序列产生无法区分的时间关注,阻碍了深度模型的预测能力。

为了解决串联预测和建模能力之间的困境,提出了一个非稳态变压器的通用框架,有两个相互依赖的模块:即串联静止和非稳态。

具体来说,序列静止化将每个输入的统计数据统一起来,并用恢复的统计数据对输出进行转换,以提高可预测性。对于静止化问题,非静止关注被设计出来,通过近似于从原始序列学到的可区分的关注,以随时间变化的方式恢复基本的非静止信息。

作者的非稳态变换器框架始终显著改善了主流变换器,使变换器的MSE降低了49.43%,信息器降低了47.34%,改革器降低了46.89%,使其成为时间序列预测中的SOTA。

介绍。

时间序列预测在现实世界中有越来越广泛的应用,包括天气预报、能源消耗计划和金融风险评估。由于变形金刚的堆叠结构和注意力机制能够自然地从深层的多层次特征中捕捉到时间上的依赖性,因此变形金刚完全适合于时间序列预测任务。

然而,尽管它有优越的架构设计,但由于数据的非平稳性,变压器仍然很难预测现实世界的时间序列。非稳态时间序列的特点是统计属性和联合分布(同步概率分布)随时间不断变化,使得时间序列难以预测。此外,在变化的分布上成功地归纳出深度模型是一个基本问题。在以前的工作中,通常通过静止化来预处理时间序列,这削弱了原始时间序列的非静止性以获得更好的可预测性,并为深度模型提供更稳定的数据分布。

然而,非静止性是现实世界中时间序列的固有属性,是发现预测的时间依赖性的良好指南。通过实验,作者发现对静止序列的训练削弱了转化器所学到的注意力之间的区别。虽然香草转化器可以从不同的序列中捕捉不同的时间依赖性,如图1(a)所示,但在静止序列上训练的转化器往往会产生无法区分的注意力,如图1(b)所示。这个问题被称为过度静止化,对变压器有意想不到的副作用,因为它不能捕捉到多事的时间依赖性,限制了模型的预测能力,并诱使模型产生与地面实情有较大偏差的非静止性输出。因此,如何削弱时间序列的非平稳性以提高预测能力,同时减轻模型能力的过度平稳性问题是进一步提高预测性能的关键问题。

图1不同系列的均值µ和标准差σ变化时,学习到的时间注意力的可视化。 (a)是由一个在原始序列上训练的香草变换器造成的。(b)是由一个在静止系列上训练的变换器,显示出类似的注意力。(c)是由非静止的变换器,用非静止的注意力来避免过度静止化。

本文探讨了时间序列预测中静止性的影响,并提出了非静止性变换器作为一个一般框架。它有效地改造了变换器,使其对现实世界的时间序列具有较大的预测能力。提出的框架包含两个相互依存的模块:系列固定化以增加非平稳序列的可预测性,以及非平稳关注以减轻过度的平稳化。在技术上,系列固定化采用了简单有效的归一化策略来统一每个系列的主要统计数据,而无需额外的参数。非稳态关注也近似于非稳态数据的关注,并补偿了原始序列中固有的非稳态性。通过上述设计,非稳态变换器保证了稳态序列的极大可预测性和原始非稳态数据中发现的重要时间依赖性。作者的方法可以被推广到各种变压器上,以进一步改进。他们的贡献有三点:

- 预测非稳态序列的能力对现实世界的预测至关重要。详细的分析发现,目前的静止方法导致了过度静止的问题,限制了变压器的预测能力。

- 提出了一个非稳态变换器的一般框架,其中包括系列静止化,使系列更可预测,以及非稳态损耗,通过重新捕获原始系列的非稳态性来避免过度稳态问题。

- 非稳态变压器的性能始终明显优于四种主流变压器,并在六个实际世界的基准中实现了SOTA性能。

以前的工作

用于时间序列预测的深度模型。

近年来,基于RNN的模型和变压器被应用于时间序列预测。变换器在序列建模中具有很大的威力。为了克服计算复杂度随序列长度的增加而呈二次增长的问题,随后的工作旨在降低自我注意的复杂性。特别是对于时间序列的预测,Informer用KL-分歧准则扩展了自我注意,以选择主导的查询;Reformer引入了局部敏感散列(LSH),通过分配相似的查询来接近注意。除了提高复杂性,以下模型还进一步开发了用于时间序列预测的敏感构件:Autoformer开发了Auto-Correlation,将分解块融合到一个规则的结构中,并发现串行连接;Pyraformer设计了金字塔注意模块(PAM)来捕捉不同层次的时间依赖性。其他没有变换器的深度模型也取得了显著的性能;N-BEATS提出了趋势和季节项的明确分解,并具有很强的可解释性;N-HiTS提出了一个分层布局,以处理具有各自频段的时间序列,并多速率采样被引入。与以往专注于架构设计的工作相比,本文从静止性这一基本角度分析了序列预测任务,静止性是时间序列的内在属性。还应注意的是,作为一个一般框架,作者提出的非稳态变换器可以很容易地应用于各种基于变换器的模型。

时间序列预测的固定性。

虽然静止性对时间序列的可预测性很重要,但现实生活中的时间序列总是非静止的。为了解决这个问题,经典的统计方法ARIMA通过差分使时间序列成为静止的。对于深度学习模型来说,非稳态的分布变化问题使得深度学习预测更加困难,因此,稳态方法已经被广泛研究,并且总是被用作深度模型输入的预处理 自适应规范使用采样集的全局统计数据,对每个时间序列片段应用z-core规范化对其进行z-core归一化;DAIN采用非线性神经网络对具有观察到的训练分布的时间序列进行自适应静止;RevIN引入了两阶段实例归一化,分别对模型输入和输出进行转换,以减少每个序列的差异;RevIN方法采用两阶段实例归一化,分别对模型输入和输出进行转换,以减少两个序列之间的差异。相比之下,作者发现,直接将时间序列静止化会损害对某些时间依赖性的建模能力。因此,与以前的方法相比,非稳态转化器在静止化的基础上进一步发展了非稳态的关注,以引起对原始序列内在非稳态的关注。

瞬态变压器

如前所述,静止性是时间序列可预测性的一个关键组成部分。以前的 "直接静止 "设计可以通过削弱时间序列的非静止性来提高可预测性,但它们显然忽略了现实世界中时间序列的固有特性,导致了过度静止问题,如图1所示。为了解决这个难题,我们提出了非稳态变换器作为一个总体框架。该模型有两个互补的部分:即 "序列静止化 "和 "去静止化",前者削弱了时间序列的非静止性,后者重新获得了时间序列的非静止信息。通过他们的设计,非稳态转化器可以提高数据的可预测性,同时保持模型的能力。

系列稳定化

非稳定的时间序列使深度模型的预测任务变得困难。这是因为很难成功地归纳出统计量在推理过程中发生变化的时间序列(通常是平均值和标准差发生变化的时间序列)。试点工作RevIN通过对每个输入应用具有可学习仿射参数的实例归一化,并将统计量恢复到相应的输出,使每个系列遵循类似的分布。这种设计在没有可学习参数的情况下效果很好。因此,我们把转化器包装成一个基本模型,没有任何额外的参数。如图2所示,这涉及到两个相应的操作:一个是归一化模块,用于处理由于平均值和标准差的变化而产生的非平稳序列;另一个是去归一化模块,用于将模型输出恢复到原始统计量。详细情况见下文。

图2 非稳态变换器序列稳态被用作基础模型的包装,以使每个输入序列正常化,并使输出非正常化。非稳态注意力取代了原来的注意力机制,以接近从非稳态序列中学到的注意力,用学到的非稳态系数τ, ∆重新调整当前随时间变化的权重。

归一化模块 为了减弱每个输入序列的非平稳性,在时间轴上通过滑动窗口进行归一化。对于每个输入序列x,通过平移和缩放操作将其转换为x′。归一化模块表述如下:

这里,是指逐元除法,⊙是逐元积。归一化模块减少了每个输入时间序列之间的分布差异,使模型输入的分布更加稳定。

反正化 模块 如图2所示,在基础模型H预测了长度为O的未来值后,它采用反正化的方法,在模型输出y′处进行变换,得到 ,作为最终预测结果。去正化模块的表述如下:

两阶段的转换意味着基础模型接受静止的输入并遵循稳定的分布,这有利于推广。这种设计也使模型对时间序列的平移和缩放扰动具有等效性,这对现实世界的序列预测是有利的。

非稳定的自然减员

尽管每个时间序列的统计量被明确地恢复到相应的预测中,但仅靠非正态化是不能完全恢复原始序列的非平稳性的。例如,序列归一化可以从不同的时间序列x1和x2产生相同的归一化输入x′,导致相同的损耗,其中基础模型未能捕捉到非平稳性中涉及的重要时间依赖性(图1)。换句话说,因过度稳定而受损的效应发生在深度模型内部,特别是在计算注意程度方面。此外,非稳态的时间序列被分割和归一化为几个具有相同均值和方差的序列块,它们遵循比稳态前的原始数据更相似的分布。因此,该模型更有可能产生过度平稳和非平稳的输出,这与原始序列的自然非平稳性是不相符的。

为了解决序列静止引起的过度静止化问题,作者提出了一种新的非静止损耗机制,近似于没有静止时得到的损耗,并允许从原始非静止数据中发现某些时间依赖性。

普通模型分析 如上所述,过度平稳性问题是由内在的非平稳性信息的损失造成的,这使得基础模型无法捕捉到用于预测的事件性时间依赖。因此,我们试图从原始的非平稳序列中近似地学习注意力。自我关注的公式如下。

其中Q、K和V分别是dk维度上的查询、键和长度为S的值,Softmax(-)是逐行进行的。在归一化模块之后,该模型收到一个静止的输入x′。基于线性特征的假设,可以证明注意力层收到Q′.和相应的转换后的K′和V′也是如此。如果没有序列静止化,自我注意中Softmax(-)的输入应该是,但现在注意是根据Q′和K′来计算的。

由于Softmax(-)对输入的行维度的相同平移是不变的,因此,可以看出

方程5导致了从原始序列x中学习的注意力的直接表示。这种表示方法要求通过序列静止化去除非静止信息σx、μQ和K,但来自静止序列x′的当前Q′和K′除外。

非稳态关注 为了恢复对非稳态序列的原始关注,试图将失去的非稳态信息重新引入计算中。关键点是在方程5的基础上,对定义为非稳态因子的正比例标量和移位矢量进行近似。由于严格的线性属性在深度模型中很少建立,除了费力地估计和使用真实因子外,我们试图在一个简单而有效的多层感知器层中直接从非稳态x、Q和K的统计数据中学习非稳态因子。由于只能从当前的Q′和K′中找到有限的非稳态信息,补偿非稳态的唯一合理来源是原始的非归一化的x。因此,作为方程5的直接深度学习实现,应用多层感知器作为投影仪,从非稳态的x统计量μx和σx中分别学习非稳态的系数τ和∆。然后,非稳态的注意力被计算如下:

在这里,非稳态系数τ和∆是由各级非稳态关注所共享的(图2)。非稳态损耗机制从稳态序列Q′和K′以及非稳态序列x、μx和σx中学习时间依赖性,并将它们与稳态值V′相乘。因此,静止序列的可预测性优势和原始序列的内在时间依赖性可以同时保持。

整体架构 遵循先前在时间序列预测中使用的变换器,作者采用了一个标准的编码器-解码器结构(图2),编码器从过去的观察中提取信息,解码器汇总过去的信息,从简单的初始化中完善预测。常规的非稳态变换器被串联静止化包裹到香草变换器的输入和输出中,用提议的非稳态关注取代了自我关注,从而提高了基础模型的非稳态系列预测能力。在变换器的变换中,Softmax(-)内部的项用非稳态系数τ , ∆进行变换,以重新整合非稳态信息。

实验

进行了广泛的实验,以评估非稳态变压器在六个真实世界的时间序列预测基准上的性能,并进一步测试所提出的框架在各种主流变压器变形上的通用性。

数据集所 使用的数据集是:

(1) 电力记录2012年至2014年321个客户的每小时用电量。

(2) ETT包含2016年7月至2018年7月在电力变压器上采集的脱油因子和电力负荷的时间序列;ETTm1 /ETTm2每15分钟记录一次,ETTh1/ETTh2每小时一次。

(3) 收集了8个国家1990年至2016年的每日汇率的汇兑面板数据。

(4) ILI是美国疾病控制和预防中心从2002年至2021年每周报告的每周流感样疾病病例数与总病例数的比率的集合。

(5) 交通量包括2015年1月至2016年12月在旧金山湾区高速公路上由862个传感器测量的每小时道路占用率。

(6) 天气包括天气时间序列,有21个天气指标,每10分钟从2020年马克斯-普朗克生物化学研究所的气象站收集。

扩增迪克-富勒(ADF)测试统计量被用作衡量静止性程度的定量指标:ADF测试统计量越小,表明静止性程度越高,意味着分布更加稳定。表1总结了数据集的总体统计数据,并按静止性程度从高到低排列。遵循一个标准协议,根据时间序列将每个数据集分成训练、验证和测试子集。

表1 数据集摘要;较小的ADF检验统计量表明数据集更稳健。

基准 由非稳态变换器框架配备的虚构变换器在多变量和单变量设置中都得到了评估,以证明其有效性。对于多变量预测,它包括六个最先进的深度预测模型:Autoformer、Pyraformer、Informer、LogTrans、Reformer和LSTNet;对于单变量预测,它包括七个竞争基线:N-HiTS、N-BEATS、。此外,对于Transformer的典型和有效转换,我们采用了所提出的框架:Transformer、Informer、Reformer和LSTNet。Autoformer。

主要结果。

预测结果 在多变量预测结果方面,在所有基准和预测长度方面,带有作者框架的虚无缥缈的变换器始终取得最先进的性能(表2)。特别是在高度非平稳的数据集上,非平稳的转化器成功地超越了其他深度学习模型。在预测长度为336的情况下,Exchange实现了MSE降低17%(0.509 → 0.421),ILI降低25%(2.669 → 2.010),这表明深度学习模型的潜力在非平稳数据上仍然有限。表3中还列出了两个具有不同静止性的典型数据集的单变量结果。非稳态的变换器仍然取得了显著的预测性能。

表2 不同预测长度O∈{96, 192, 336, 720}的预测结果比较。对于ILI来说,输入阵列的长度被设定为36,对于其他的则为96。

表3 不同预测长度O∈{96, 192, 336, 720}在两个具有强非平稳性的典型数据集的单变量结果。输入阵列的长度被设定为96。

框架的通用性 该框架适用于四个主流变压器,并报告了每个模型的性能提升情况(表4)。作者的方法始终比其他模型提高了预测性能。总的来说,他们对Transformer实现了49.43%的平均性能提升,对Informer实现了47.34%,对Reformer实现了46.89%,对Autoformer实现了10.57%,每个模型都超过了之前的最先进水平。与每个模型的原生块相比,这个框架的应用导致参数和计算复杂性的增加非常少。这验证了非稳态变压器是一个有效的、轻量级的框架,可以广泛地应用于基于变压器的模型,并可以通过增强其非稳态的可预测性达到最先进的性能。

表4:当应用于Transformer及其变体时,建议框架的性能提升。报告了所有预测长度的平均MSE/MAE(在表2中列出)和由于该框架而导致的相对MSE降低(晋升)。

零散的研究

质量评估 为了探索每个模块在拟议框架中的作用,ETTm2的预测结果与三个模型的预测结果进行了比较:香草变压器、仅串联静止变压器和拟议的非静止变压器。从图3中可以看出,这两个模块从不同角度增强了变压器的非稳态预测能力。系列静止性侧重于每个系列输入之间的统计属性的一致性,在帮助变压器泛化到非分布式数据方面非常有效。然而,如图3(b)所示,过于静止的学习环境使得深度学习模型更容易输出静止性明显较高的非静止序列,而忽略了非静止的真实世界数据的性质。因此,通过使用非稳态损耗,该模型考虑到了现实世界时间序列中固有的非稳态性。这有利于准确预测详细的时间序列变异性,这对现实世界的时间序列预测至关重要。

图3 不同模型对ETTm2预测的可视化显示

定量性能 除了上述案例研究外,还提供了静止方法、深度学习方法RevIN和序列静止之间的定量预测性能比较。如表5所示,RevIN和串联静止的预测结果基本相同,这表明所提出的框架中的无参数版归一化在静止时间序列上表现得足够好。此外,在非稳态变换器中提出的非稳态关注进一步提高了性能,在所有六个基准中取得了最高值。当数据集高度非稳态时,非稳态关注带来的MSE降低尤为明显(Exchange:0.569 → 0.461,ETTm2:0.461 → 0.306)。这一比较表明,仅静止时间序列就限制了变换器的预测能力,而非静止变换器的补充机制可以充分释放模型对非静止序列预测的潜力。

表5 对变压器和重整厂应用不同方法得到的预测结果。为了比较,报告了所有预测长度的平均MSE/MAE(表2)。

模型分析

过度静止性问题 为了统计测试过度静止性问题,我们用上述每一种方法训练变压器,对预测的时间序列进行时间序列分析,并比较基础事实和静止性程度(图4)。可以看出,只用静止方法的模型倾向于输出静止性意外地高的序列,而由非静止损耗支持的结果则更接近实际值(相对静止性∈[97%,103%])。此外,随着系列的静止性程度增加,过度静止的问题也会增加。静止性程度的这种巨大差异可以解释为只进行静止性修改的变压器的性能较差。这也证明了非静止的损耗n作为内部修改可以缓解过度静止性。

图4相对静止性是以模型预测和地面实况之间的ADF检验统计量的比率来计算的从左到右,数据集越来越非静止。只进行静止化的模型倾向于输出高度静止的序列,而本方法产生的预测的静止性更接近地面实况。

对非稳态信息再入的探索 值得注意的是,通过规定过度稳态是一种难以区分的注意,设计空间被缩小到了注意计算机制。因此,我们进行了实验,探索其他方法,通过将μ和σ重新注入变压器结构左侧的前馈层(DeFF)来检索非平稳信息。具体来说,学习到的μ和σ被重复地输入到每个前馈层。如表6所示,只有当输入是静止的(Stationary)时才需要重新纳入非静止性,这对预测是有利的,但会导致模型输出的非静止性不匹配。然后,拟议的设计(Stat + DeAttn)被进一步促进,并在大多数情况下取得了最佳效果(77%)。除了理论分析外,实验结果进一步验证了拟议的设计在重新获得attn的非稳态性方面的有效性。

表6:隔离框架设计基线指香草变压器,静止指增加串联静止性,DeFF指将非静止性重新纳入前馈层,DeAttn指注意去静止性的重新纳入,Stat+DeFF指增加串联静止性和馈入意味着重新纳入前馈层;Stat + DeAttn是提议的框架。

摘要

本文从静止性的角度探讨了时间序列的预测。与以往只削弱非平稳性,导致过度平稳的研究不同,作者提出了一种有效的方法来增加序列的平稳性,并改造内部机制来重新获取非平稳信息,同时提高数据可预测性和模型可预测性。在实验中,该方法在六个真实世界的基准上显示了出色的通用性和性能。还进行了详细的推导和隔离,以验证所提出的非稳态变换器框架的每个组成部分的有效性。在未来,计划探索更多与模型无关的过度稳定化问题的解决方案

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们