我们真的需要深度学习模型来进行时间序列预测吗？

时间序列 21/05/2022

三个要点
✔️ 在时间序列预测领域，深度学习模型的性能最近得到了快速提升。但是，经典的机器学习模型是否不再需要，这就是为什么要进行这种广泛的调查和比较实验。
✔️ GBRT被作为经典学习模型的代表。深度学习模型实现的序列间依赖关系的表述被基于特征工程的输入窗口化所取代。
✔️ 经过预处理，改进后的GBRT在单变量和多变量数据集上的表现与一些深度学习模型一样，甚至明显优于它们。

Do We Really Need Deep Learning Models for Time Series Forecasting?
written by Shereen Elsayed, Daniela Thyssens, Ahmed Rashed, Hadi Samer Jomaa, Lars Schmidt-Thieme
(Submitted on 6 Jan 2021 (v1), last revised 20 Oct 2021 (this version, v2))
Comments: arXiv
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

在过去的几年里，基于深度学习的框架在时间序列预测领域的表现已经大大超过了经典的参数（自回归）方法。作为背景，研究人员分析说，传统的方法可能无法捕捉到长期和短期序列混合所提供的信息。因此，许多深度学习方法讨论捕捉数据在不同时间的非线性依赖。这些基于深度学习的新方法不仅被证明优于ARIMA等传统方法和GBRT等简单机器学习模型，而且还提高了人们对机器学习领域中时间序列预测模型需求的期望。

然而，自从在推荐系统领域发表了"我们真的取得了很大的进展吗？"的论文后，人们清楚地认识到，在机器学习的不同研究领域，深度学习方法的结果需要定期审查，并与简单、有效的模型进行评估，以保持很明显，有必要在各自研究领域取得进展的可信度。除了时间序列预测模型越来越复杂之外，反对这种说法的另一个动机是，对于文献中已经完善的基于深度学习的模型来说，处理时间序列预测问题的方法具有片面性，这使得在现实世界中应用时很难确定最高水平的多样性。它限制了现有解决方法的多样性，而这个问题是一个

这项研究表明，通过精心构建的输入处理结构，简单但强大的集合模型，如GBRT模型，可以在时间序列预测领域竞争甚至超过许多DNN模型。

根据以下两个研究问题对特征工程多变量输出GBRT模型进行了评估。

1.就基于窗口的时间序列预测学习框架而言，仔细构建GBRT模型的输入和输出结构有什么影响？

2. 一个简单但结构良好的GBRT模型与SOTA深度学习时间序列预测框架相比如何？

对两种类型的预测任务进行了评估：单变量和多变量的预测。GBRT模型与SOTA深度学习方法进行了评估，该模型在一个著名的研究会议上进行了讨论。

本研究报告的总体贡献如下。

- GBRT：作为一种简单的机器学习方法，GBRT被提升到竞争DNN时间序列预测模型的标准，首先将其投到基于窗口的回归框架中，然后对模型的输入和输出结构进行特征工程。它从额外的背景信息中获益最多。

-与天真配置基线的比较：为了强调输入处理对时间序列预测模型的重要性，GBRT的基于窗口的输入设置被用来生成传统配置模型（如ARIMA）和GBRT在天真时间序列预测领域的实现所产生的预测结果。为什么会提高绩效的经验性证据。

-竞争力：研究了GBRT相对于各种最先进的深度学习时间序列预测模型的性能，并显示其在两类时间序列预测任务（单变量和多变量）中的竞争力。

研究程序

用于比较的基线文件

通过对九个代表性学会（NeurIPS、KDD等）的2016-2020年的论文进行筛选，提取了一个基线，标准如下

主题：只涉及时间序列预测。

数据结构：不包括异步时间序列、图形和其他数据结构

可重复性：数据是公开的，代码可以从作者那里获得。

可计算性：论文中的结果应该是可重复的。

评价

为时间序列预测而配置的GBRTs在两个层面进行了评估，即单变量和多变量。为了确保所选基线和GBRT之间的兼容性，所有的基线都是在同一个数据集上用模型进行评估的（表1）。

电力和交通进行了分项采样，以利于兼容。为了与条件相匹配，在当前评估的条件下，对基线模型进行了重新评估和重新调校。

表1中最下面的四个是多变量数据。

基于特征设计的窗口式GBRT

所研究的GBRT模型，特别是那些实现了XGBoost的模型，具有易于应用和特别适合结构数据的特性。然而，当简单地应用于时间序列数据时，GBRT模型不能被送入基于窗口的回归问题，而是将大部分时间序列作为完整的连续数据点进行拟合，在预测剩余的后续测试部分的时间序列时失去了很多灵活性。与这种简单的输入处理方式不同，在成功的时间序列预测模型之后，时间序列数据被重构为窗口化的输入数据，并在这些多个训练实例（窗口）上进行训练。窗口的长度是可以调整的。这种基于窗口的输入设置的GBRT模型如图1所示。

第一步是使用转换函数将二维训练数据（时间序列窗口）转换成与GPRT兼容的一维矢量表述。这个函数将所有窗口的目标值yi和输入的最后一个实例t的协变量向量平铺直叙。经过这种转换，它被传递给GBRT模型，以预测每个实例的未来。

多变量输出方法最初不被GBRT支持。然而，它们可以通过问题转化方法（如单目标方法）进行实例化。在这种情况下，选择了一个多输出的包装器，它将一个多变量的回归问题转化为几个单变量的目标问题。这种方法涉及一个简单的策略，即把回归的数量扩展到预测范围的大小。这里，对于预测范围的每一个预测步骤，都引入了一个回归，即一个损失函数。然后用所有树状模型估计值的总和来计算最终的目标预测。这种单一的目标设置自动伴随着一个缺点，即预测范围内的目标变量是独立预测的，模型并不反映它们之间的潜在关系。这正是强调GBRT的基于窗口的输入设置的原因，它不仅将预测问题转化为回归任务，更重要的是该模型捕捉了目标变量的自相关效应，弥补了独立多变量预测的最初缺陷。上述基于窗口的GBRT输入设置明显提高了预测性能，因此GBRT模型可以捕捉到潜在的时间序列结构，可以被看作是机器学习的一个合适的基线，作为一个先进的DNN时间序列预测模型。

另一方面，上述简单的GBRT模型是一个单点的回归模型，把时间点X的同时协变量作为输入，预测同一时间点的单一目标值Y，并使下一个训练损失最小。

实验和结果

深度学习中的时间序列预测方法。

评估中考虑了以下著名的基于深度学习的模型

1.TRMF（时态回归矩阵分解）。

　　基于矩阵因子化的方法。只有时间序列数据的线性依存关系才能被确定。

2. LSTNet（长短期时间序列网络）。

了解局部多变量模式和长期依赖性。

3.DARNN (双阶段注意-基于RNN)

　　输入通过一个附加机制，然后是一个带有附加机制的编码器-解码器模型。

4.DeepGlo（深层全球局部预测器）。

　　时间卷积网络使全局矩阵因子化结构正常化。

5.TFT(时空融合转化器)

　　它是本文所讨论的那些DNN中最新的一个。局部依赖性由递归层捕获，长期依赖性由变压器特定的自我注意层捕获。

6. DeepAR

　　一个自回归随机RNN模型，使用额外的时间、协变量估计时间序列的参数分布。

7.DeepState（深层状态空间模型）。

　　使用RNNs的概率生成模型学习参数化线性状态空间模型。

8.DAQFF（深度空气质量预测框架）

　　它包括一个两阶段的特征表示：三个一维卷积层，两个双向LSTM层和通过线性层进行预测。

单变量数据集

表2的结果总结了没有简单协变量作为预测因素的单变量时间序列预测数据集的预测性能。总的结果表明，除了交通预测之外，基于窗口的GBRT具有很强的竞争力。另一方面，传统配置的预测模型，如ARIMA和GBRT（Naive）的表现要好得多，正如预期。这些发现强调了仔细配置机器学习基线并使其适应特定问题的适当性。尽管在这种单变量设置中没有考虑协变量，但GBRT（W-b）的性能提高只能归功于GBRT的滚动预测表述。

对于电力预测，基于窗口的GBRT在所有模型中显示出最好的RMSE性能，并有相当大的差距，但其在WAPE和MAE上的性能仅被2016年引入的TRMF所超越。基于注意力的DARNN模型表现不佳，最初在股票市场和室内温度数据的多变量设置中进行了评估。与LSTNet不同的是，LSTNet最初是在单变量环境下进行评估的，由于部署了不同的评估指标，它必须为表2中的所有数据集重新实施；对于汇率预测任务，LSTNet（以w = 24重新实施）和TMRF显示了相对较强的结果，但基于窗口的GBRT基线仍有优势；表2显示了对LSTNet不利的性能结果，而表4显示了对所使用的第一个指标和原始实验设置的积极结果。显示了积极的结果。在不考虑时间预测器的情况下，每小时交通数据集的最佳结果是由DARNN和LSTNet取得的，交通预测结果交织在一起，而对于PeMSD7数据集，基于窗口的GBRT基线在三个指标上更好它在其中两个方面优于DNN模型。然而，当包括时间变量的协变量时，GBRT的性能显著提高（表3），对于交通预测，它超过了所有的DNN方法，包括DeepGlo和流行的时空交通预测模型（STGCN），其在PeMSD7上的RMSE为6.77。和重建的GBRT基线的性能优于

总的来说，在表2和表3中的各种单变量时间序列数据集中，对输入进行窗口化处理并向梯度增强树模型添加简单的时间变量，显示出令人信服的泛化性能。为了进一步证实这一发现，并减轻DNN模型由于不同指标和子采样数据集而产生的缺点，此后进行了一对一的实验来评估已公布的性能结果。

与LSTNet的比较

我们在原论文中与汇率数据集一起引入的额外太阳能数据集上评估了LSTNet。表4显示了GBRT（W-b）的结果，包括时变协变量和预测窗口h=24，以相对平方误差（RSE）和经验相关系数（Corr）的平方根进行评估。这些互补的结果支持了上述发现，即一个精心构建的GBRT模型（一直）优于强大的、由深度学习支持的框架，如LSTNet。

与基于随机/变换器的模型比较。

最后，我们想确认上述对单变量数据集的研究结果，也是关于随机模型，如DeepAR和DeepState，以及基于转化器的模型（TFT）。为了与已公布的结果进行直接比较，我们采用了一个与TFT相同的实验设置，即使用不同版本的ElectricityV2和TrafficV2数据集。特别是在ElectricityV2的情况下，时间序列的长度为T=6000，而可用的序列为n=370，而TrafficV2的数据集包括963个时间序列，长度约为T=4000。

表1中列出的测试期（7天）保持不变，所有模型中都使用简单的时间戳提取协变量。用于TrafficV2数据集的基于窗口的GBRT的参数与用于子采样数据集的参数相同，但对于ElectricityV2，必须单独调整参数。

表5中的结果强调了GBRT在滚动预测配置中的竞争力，但也显示出相当强大的基于变压器的模型，如TFT，其性能优于GBRT（W-b）。尽管如此，作为一个例外，TFT是本研究中唯一持续优于GBRT的DNN模型，在这些单变量数据集上优于DeepAR和DeepState等随机模型。

这些结果的主要发现是，即使是简单的协变量，主要是从时间戳中提取的协变量，也大大改善了GBRT基线的性能。

多变量数据集

所处理的多变量时间序列预测设置代表了这样一种情况：数据集中天然提供了多个特征的数据，但只有一个目标变量需要被预测。在这种情况下，外部特征_XMi和t-w是给定的，比从时间戳中提取的简单时间预测器更具表现力。

与带有协变量的DARNN比较。

在这种直接比较的情况下，DARNN的多元预测任务是预测目标值，室温（SML 2010）和股票价格（纳斯达克100），假设查找窗口大小为10个数据点，这已被证明是各种预测函数和DARNN的最佳值，分别为 1这是为了提前一步预测。

表6中的结果也证实了上述多变量情况下的结果，表明一个简单的、结构适当的GBRT基线甚至超过了使用专门为多变量预测概念化的注意力的DNN框架。

在另一个方面，鉴于DARNN评估协议中唯一的非DNN基线是ARIMA，机器学习预测模型在时间序列预测领域的片面性被进一步强调。因此，一般来说，不仅在组成机器学习基线时要注意，因为这些基线可能并不那么强大，而且在创建一个基线池进行评估时也要注意。

与DAQFF比较

作为本研究的最后一个一对一的比较实验，我们评估了完全扩展的DNN模型 "深度空气质量预测框架"，该模型是为重建的GBRT基线空气质量预测任务明确建立的。由于无法获得源代码，DAQFF的原始结果无法重现，但数据仍可获得。采用了原有的有据可查的数据预处理方案和实验设置，预测窗口大小被选择为6小时，两组数据的查找窗口大小被设置为1小时。表7显示，专门为特定预测任务（在此情况下为空气质量预测）设计的DNN它表明，即使是被认为在该任务方面表现特别好的模型，也没有达到预期。相反，DAQFF的表现比一个简单的基于窗口的函数设计的梯度提升回归树模型要差。

请注意，在这个实验中，即使是在传统应用预测意义上使用的GBRT模型，在空气质量数据集上也会产生更好的结果。