超越变压器的预测性能SCINet

时间序列 12/06/2023

三个要点
✔️ NeurIPS 2022年接受的论文。提出了一个时间序列预测模型--SCINet，可以有效地对具有复杂时间动态的时间序列进行建模。
✔️ SCINet是一个具有丰富卷积滤波器的分层下采样-卷积-互动结构。它在不同的时间分辨率下反复提取和交换信息，并学习有效的表征，增强可预测性。
✔️ SCINet与现有的卷积模型和基于Transformer的解决方案相比，在各种现实世界的时间序列预测数据集上实现了预测准确性的明显改善。

SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction
written by Minhao Liu, Ailing Zeng, Muxi Chen, Zhijian Xu, Qiuxia Lai, Lingna Ma, Qiang Xu
(Submitted on 17 Jun 2021 (v1), last revised 13 Oct 2022 (this version, v3))
Comments: This paper presents a novel convolutional neural network for time series forecasting, achieving significant accuracy improvements
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

时间序列的一个独特属性是，当被下采样为两个子序列时，时间关系在很大程度上被保留下来。本文提出了一个新的神经网络结构，名为SCINet，它利用这一特性进行样本卷积和互动，以实现时间建模和预测。具体来说，SCINet是一个递归下采样-卷积-交互结构。在每一层，多个卷积滤波器被用来从下采样的子序列和特征中提取独特而有价值的时间特征。通过结合这些从多个分辨率聚集的丰富特征，SCINet有效地模拟了具有复杂时间动态的时间序列。值得注意的是，实验结果表明，SCINet能够在各种现实世界的时间序列预测数据集上实现预测精度的显著提高，即使与现有的卷积模型和基于Transformer的解决方案相比，也产生了广泛的积极效果本研究的结果如下。

介绍。

时间序列预测（TSF）通过估计指标和事件的未来演变来实现决策，从而在各种科学和工程领域发挥重要作用，如医疗保健、能源管理、交通流和金融投资。用于序列建模的深度神经网络主要有三种类型，它们都被应用于时间序列预测：（i）. 递归神经网络（RNN），（ii）。基于变换器的模型，(iii). 时间卷积网络（TCNs）。尽管基于这些通用模型的TSF方法取得了很好的效果，但在建模过程中没有考虑到时间序列数据的特殊性。例如，时间序列数据的一个特点是，在下采样为两个子序列时，时间关系（如数据的趋势或季节性成分）基本上被保留下来。因此，将时间序列递归下采样为子序列可以产生丰富的卷积滤波器，用于提取多个分辨率下的动态时间特征。

鉴于上述情况，本文提出了一种用于时间序列建模和预测的新的神经网络架构，名为样本卷积和交互网络（SCINet）。本文的主要贡献在于：

- 我们提出了一个层次化的下采样-卷积-交互式TSF框架，即SCINet，以有效地模拟具有复杂时间动态的时间序列。通过反复提取和交换多个时间分辨率的信息，可以学习到一个具有增强的可预测性的有效表征，这一点可以通过相对较低的扰动熵（PE）得到验证。

- SCI-Blocks是构建SCINets的基本构件，被设计为将输入数据/特征下采样为两个子序列，并使用不同的卷积滤波器提取每个子序列的特征。为了补偿下采样过程中的信息损失，在每个SCI-Block内的两个卷积特征之间加入了双向学习。

在各种真实世界的TSF数据集上进行的广泛实验表明，所提出的模型始终比现有的TSF方法有相当大的优势。此外，SCINet在空间-时间TSF任务中实现了有竞争力的预测精度，尽管空间关系没有被明确建模。

SCINet: 样本卷积和互动网络

SCINet采用了一个编码器-解码器结构。编码器是一个分层的卷积网络，有一套丰富的卷积滤波器来捕捉多个分辨率的动态时间依赖性。如图2(a)所示，基本构件，SCI-Block，将输入数据或特征下采样为两个子序列它进行采样，然后用一系列卷积滤波器处理每个子序列，从每个部分提取不同但有价值的时间特征。为了补偿下采样过程中的信息损失，在两个子序列之间进行双向学习，SCINet是通过将多个SCI-Block安排在一个二叉树结构中建立的（图2（b））。这样设计的好处是，每个SCI-Block对整个时间序列都有一个局部和全局的看法，有利于提取有用的时间特征。在所有的下采样、卷积和交互操作之后，提取的特征被重新调节为新的序列表示，并添加到原始时间序列中，以预测作为解码器的全连接网络。为了便于提取复杂的时间序列模式，可以进一步堆叠几个SCIN网，并应用中间监控，得到一个堆叠的SCIN网，如图2（c）所示。

SCI-Block

SCI-Block（图2(a)）是SCINet的基本模块，它通过Spliting和交互式学习操作将输入特征F分割成两个子特征F′ _奇和F′ _偶。拆分通过分离偶数和奇数元素，将原始序列F降样为两个子序列_Feven和_Fodd，这使时间分辨率变粗，但保留了原始序列的大部分信息。然后，不同的卷积核被用来从Feven_和_Fodd中提取特征。由于内核是独立的，从它们中提取的特征具有更强的表现能力，并包含不同但有价值的时间关系。为了弥补降采样造成的潜在信息损失，我们提出了一种新的交互式学习策略，允许两个子序列之间通过相互学习仿生变换参数来进行信息交换，如图2（a）所示，交互式学习包括两个步骤。首先，_Feven和_Fodd分别被两个不同的一维卷积模块φ和ψ投射到隐藏状态，转化为exp的格式，并与_Feven和_Fodd进行元素相乘的互动（见公式（1））。这可以看作是对Feven_和_Fodd进行了缩放变换，其中的缩放系数是利用神经网络模块相互学习的。这里，⊙是Hadamard乘积或逐元乘积。

然后，这两个经过缩放的特征_Fseven和_Fsodd被另外两个一维卷积模块ρ和η投射到另外两个隐藏状态，并对一个_Fseven和_Fsodd进行加减，如公式（11）所示。交互式学习模块的最终输出_是两个更新的子特征_F′even和F′odd 与TCN架构中使用的扩展卷积相比，提议的下采样-卷积-交互式架构在每个卷积层实现了更大的感受野。更重要的是，与TCN不同的是，TCN在每一层采用单一的共享卷积滤波器，严重限制了特征提取能力，SCI-Block将从两个下采样子序列中提取的重要信息与整个时间序列的局部和全局视图聚集起来它。

证券时报网

使用上述的SCI-Blocks，通过分层排列多个SCI-Blocks来构建一个SCINet，形成一个树状结构的框架，如图2（b）所示。

第l层有2l个SCI-Blocks，l=1，.... l是该层的索引，l是总的层数。在叠加SCINet的第k个SCINet内，输入的时间序列X（对于k=1）或特征向量（对于k>1）逐渐变化。(对于k > 1)通过不同级别的SCI-Blocks逐渐下采样和处理，允许在不同时间分辨率下进行有效的特征学习。特别是，来自前几级的信息被逐渐积累，也就是说，较深级别的特征包含了从较浅级别转移过来的更精细的时间信息。通过这种方式，时间序列中的短期和长期的时间依赖性都可以被捕获。

在通过L级SCI-Blocks后，所有的子特征元素通过反转奇偶分裂操作重新排列，并串联成一个新的序列表示。然后，它们通过剩余连接被添加到原始时间序列中，以产生一个具有更多可预测性的新序列。最后，增强的序列表示被解码为使用一个简单的全连接网络。请注意，为了减轻一些TSF任务中的分布性偏移，在将回视窗数据送入模型之前，所有数据元素都要减去最后一个元素的值，并且该值要加到预测范围内的所有后续数据元素上。

叠加的SCIN网

当有足够的训练样本时，甚至可以通过堆叠k层SCINET来实现更好的预测精度，代价是更复杂的模型结构（见图2（c））。具体来说，为了促进中间时间特征的学习，对每个SCIN网的输出应用了具有真实值的中间监测：第k个中间SCIN网的输出ˆXk的长度为τ，并与输入_{Xt-(T-τ)+1:t} 的一部分相连接，恢复原始输入的长度并作为输入输入到第（k+1）个SCINET。其中k=1，... .... K -1，其中K是堆栈结构中SCINet的总数；第k个SCINet的输出ˆ_XK是最终的预测结果。

损失函数

当用K（K≥1）个SCINET训练一个堆叠的SCINET时，第k个预测结果的损失被计算为第k个SCINET的输出与要预测的地面真实水平窗口之间的L1损失：

叠加的SCINet的总损失可以写成如下：

复杂性分析

下采样使SCINet的每个卷积层的神经元比TCN的神经元有更宽的感受野。更重要的是，SCINet丰富的卷积过滤器允许从多个分辨率中灵活地提取时间特征。因此，SCINet通常不需要将原始序列降样到最粗的水平来进行有效预测。考虑到回视窗口大小T，当扩展因子为2时，TCN通常需要[_log2 T]层，而SCINet中的层数L可以远远小于_log2 T。经验研究表明，在大多数情况下，即使T很大（如168），L≤5也能达到最佳预测精度。另外，对于堆栈的数量K，根据经验发现，K≤3就足够了。

因此，SCINet的计算成本通常与TCN架构的计算成本相当。最坏情况下的时间复杂度是，比基于变压器的解决方案小得多：。

实验

这里，介绍了与最先进的时间序列预测模型的定量和定性比较。还介绍了一项全面的消融研究，以评估SCINet各组成部分的有效性。

数据集

在11个流行的时间序列数据集上进行了实验，即（1）电力变压器温度（ETTh）（2）交通（3）太阳能（4）电力（5）汇率（6）PeMS（PEMS03, PEMS04, PEMS07, PEMS08）。这些数据集的简要描述见表1。

表2、3、4、5和6显示了SCINet的主要实验结果，证实了SCINet在各种任务上比其他TSF模型表现得更好，包括短期、长期和时空序列的时间序列预测。

短期时间序列预测

本文使用交通、太阳能、电力和汇率数据集评估了SCINet在短期TSF任务中与其他基线方法相比的性能。实验设置使用168的输入长度，并预测不同的未来范围{3、6、12、24}。

从表2可以看出，所提出的SCINet优于现有的基于RNN/TCN（LSTNet, TPA-LSTM, TCN, TCN†）和Transformer的TSF解决方案。请注意，TCN†是TCN的一个变体，它用常规卷积代替了因果卷积，并在所有数据集上改进了原始的TCN。此外，可以看到基于变换器的方法在这项任务中表现不佳。对于短期预测来说，最近的数据点通常对准确的预测更为重要。然而，基于Transformer的方法中使用的包络变量自我监测机制并不太注意这种重要信息。相比之下，一般的顺序模型（RNN/TCN）可以很容易地制定，并在短期预测中显示出非常好的效果。

长期时间序列预测

许多现实世界的应用需要对长期事件进行预测。因此，在汇率、电力、交通和ETT数据集上进行了实验，以评估SCINet在长期TSF任务上的表现。在这个实验中，SCINet只与基于变压器的方法进行了比较。这是因为在最近的长期TSF研究中，基于Transformer的方法更为常见。

从Talbe 3可以看出，SCINet在大多数基准和预测长度设置中都达到了最先进的性能。总体而言，SCINet在上述设置中平均提高了39.89%的MSE。特别是对于Exchange-Rate，与之前的最先进的结果相比，SCINet平均提高了65%的MSE。这可以归因于所提出的SCINet更好地捕捉了短期（局部时间动态）和长期（趋势、季节性）的时间依赖性，并在长期的TSF中提供准确的预测。

对ETT数据集进行了多变量和单变量的时间序列预测。为了确保公平的比较，所有的输入长度T都被设定为与Informer的长度相等。结果分别列于表4和表5。

ETT中的多变量时间序列预测。

从表4可以看出，与基于RNN的方法如LSTMa和LSTnet相比，基于变压器的方法产生了更好的预测结果。其主要原因之一是，基于RNN的解决方案进行迭代预测，因此不可避免地会出现误差积累。作为另一种直接预测方法，TCN进一步超越了基于香草变压器的方法。值得注意的是，SCINet在很大程度上超越了上述所有的模型。图3显示了从ETTh1数据集中随机选择的几个序列的结果。定性结果显示，清楚地表明SCINet能够获得TSF时间序列的趋势和季节性。

ETT的单变量时间序列预测。

在这个实验环境中，我们将ARIMA、Prophet、DeepAR和N-Beats等强大的单变量预测基线方法引入比较，在表5中我们可以看到，N-Beats在大多数情况下优于其他基线方法。事实上，N-Beats也考虑到了时间序列的具体特征，并使用带有残差的全连接层的深度堆栈来直接学习趋势和季节性模型，这与RNN、CNN和Transformer等领先架构不同。尽管如此，SCINet的性能远远优于N-Beats。

新提出的基于Transformer的预测模型，Autoformer，在所有的实验环境中都取得了第二好的表现，甚至在ETTm1中，当预测范围较大时，它的表现也超过了SCIN网。这是因为，一方面，Autoformer在提取长期时间模式方面比基于vanilla Transformer的方法要好得多，因为它专注于季节性模式的建模，并在子序列层面（而非原始数据）进行自我关注。另一方面，在进行长期预测时，SCINet的优势可能没有得到充分的发挥，因为趋势和季节性信息，而不是回望窗口的时间动态，往往起着主导作用。

空间-时间序列的预测

除了一般的TSF任务外，还有大量与时空预测有关的数据。例如，交通数据集PeMS（PEMS03、PEMS04、PEMS07和PEMS08）在公共交通网络的复杂时空时间序列上已经研究了几十年。最近的方法DCRNN、STGCN、ASTGCN、GraphWaveNet、STSGCN、AGCRN、LSGCN和STFGNN使用图神经网络来捕捉空间关系，并使用传统的TCN或RNN/LSTM架构来对时间相关的模型化。这里的呼声与上述论文中的实验设置相同；如表6所示，这些基于GNN的方法普遍优于纯RNN或TCN的方法。然而，SCINet在没有高级空间关系建模的情况下取得了更好的性能，进一步证明了SCINet优越的时间建模能力。

对可预测性的估计

为了衡量原始输入和SCINet学到的扩展表示的可预测性，使用了互换熵（PE）：PE值低的时间序列被认为不太复杂，因此理论上更可预测。.

这表明，与原始输入相比，由SCINet训练的增强表示具有较低的PE值，并且使用相同的预测器从增强表示中更容易预测未来。

分步分析

为了评估SCINet中使用的每个关键组件的影响，在两个数据集上测试了几个模型变体：ETTh1和PEMS08。

SCIBlock。

在SCI-Block设计中，有两种变体用于测试不同卷积权重处理交互式学习和子序列的有效性：w/o. InterLearn和WeightSharew/o. InterLearn是通过去除方程（1）和（11）中描述的双向型学习程序得到的。在这种情况下，两个子序列用F′odd=ρ（φ（Fodd））和F′even=η（ψ（Feven））更新。在WeightShare的情况下，模块φ、ρ、ψ和η共享同一权重�

图4的评估结果显示，在不同的预测水平线上，交互式学习和显式权重对于提高两个数据集的预测精度都是至关重要的。同时，图4(a)和图4(b)的比较表明，当回视窗口大小较长时，交互式学习更有效。这是因为，从直观上看，信息可以在下采样的子序列之间进行交换，以提取更有效的特征。

SCINET。

对于具有多级SCI-Blocks的SCINets的设计，还试验了两种变体。第一个变体，w/o. ResConn，是通过从完整的SCINet中移除剩余连接而得到的。第二个变体，w/o.Linear，从完整的模型中去除解码器（即全连接层）；从图4中可以看出，去除残余连接会导致明显的性能损失。除了促进模型学习的一般好处，更重要的是，在残差的帮助下，原始时间序列的可预测性得到了提高。全连接层对预测的准确性也很重要，它显示了解码器根据给定的监督提取和融合最相关的时间信息进行预测的有效性。还对K（堆栈数）、L（层数）和运算器的选择对交互学习机制的影响进行了全面的拆分分析。

限制和未来

在本文中，重点主要是针对以等距间隔收集并排列成时间序列的规则时间序列的TSF问题。然而，在现实世界的应用中，时间序列可能包含噪声、缺失数据或以不规则的时间间隔收集，我们称之为不规则时间序列。尽管所提出的SCINet由于其渐进式下采样和交互式学习程序而对噪声数据相对稳健，但如果缺失数据的比例超过一定的阈值，SCINet的基于下采样的多分辨率序列表示就会引入偏差，导致预测性能不佳其影响是有可能导致预测性能的降低。此外，所提出的下采样机制可能难以处理不定期收集的数据；假定上述问题将在SCINet的未来发展中得到考虑。此外，本研究的重点是确定性的时间序列预测问题。许多应用场景需要概率性预测，SCINet将被修改为能够产生这样的预测结果。最后，尽管SCINet在没有明确建立空间关系的情况下为空间-时间序列产生了有希望的结果，但通过纳入专门的空间模型可以进一步提高预测精度。报告指出，这种解决方案将在未来的研究中进行调查。

摘要

由于时间序列数据与普通序列数据相比具有独特的属性，本文提出了一种用于时间序列建模和预测的新型神经网络结构，即样本卷积和交互网络（SCINet）。所提出的SCINet是一个具有丰富卷积滤波器的分层下采样-卷积-交互结构。它在不同的时间分辨率下迭代提取和交换信息，并学习有效的表征，增强预测性。在各种真实世界的TSF数据集上进行的大量实验表明，该模型优于最先进的方法。

与本文相关的类别

友安昌幸 (Masayuki Tomoyasu): JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定日本创新融合学会 DX检定专家联合公司Amico咨询 CEO

赶上最新的AI论文

超越变压器的预测性能SCINet

概述

介绍。

相关研究

重新思考用于时间序列建模和预测的稀释因果卷积。