
WaveBound,一种防止过度学习和提高动态时间序列数据的预测精度的正则化方法。
三个要点
✔️ NeurIPS 2022年接受的论文。解决了时间序列预测模型中的过度学习问题。正则化方法WaveBound在学习过程的每个迭代中,为每个时间步长和特征的学习损失估计适当的误差界限。
✔️ WaveBound稳定了学习过程,并通过确保模型不会过多地集中在不可预测的数据上,大大改善了泛化效果。
✔️ 它在六个真实世界的数据集上的表现优于SOTA。
WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
written by Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo
[Submitted on 25 Oct 2022 (v1), last revised 28 May 2023 (this version, v2)
Comments: Accepted by NeurIPS 2022
Subjects: Machine Learning (cs.LG)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述。
最近,深度学习在时间序列预测方面也显示出了显著的成功。然而,由于时间序列数据的动态性,深度学习仍然受到不稳定学习和过度学习的影响。这是因为现实世界数据中出现的不一致的模式使模型偏向于某些模式,从而限制了泛化。为了解决时间序列预测中的过度学习问题,我们引入了学习损失的动态误差约束,并提出了一种叫做WaveBound的正则化方法。正则化方法在每次迭代时为每个时间步长和特征估计适当的学习损失误差边界;WaveBound稳定了学习过程,并通过确保模型不过度集中在不可预测的数据上而显著提高了泛化能力。广泛的实验表明,WaveBound持续改善现有模型,包括SOTA模型,幅度很大。
介绍。
时间序列预测最近出现了基于深度学习的方法,特别是基于传感器的方法,这些方法已经显示出显著的成功。尽管如此,真实数据中存在不一致的模式和不可预测的行为,在这种情况下强迫模型去适应模式会导致不稳定的学习。在不可预测的情况下,模型在学习中不会忽略它们,而是会受到很大的惩罚(即学习损失)。理想情况下,应该对不可预测的模式施加一个小的学习损失。这意味着在时间序列预测中需要对预测模型进行适当的正则化。
最近,Ishida等人认为,零训练损失在训练中引入了很高的偏差,从而导致了过度自信的模型和泛化的减少。为了补救这个问题,他们提出了一个简单的正则化,即泛化,明确地防止学习损失减少到低于一个小的恒定阈值,称为泛化水平。这项研究还关注了时间序列预测中零学习损失的缺点。在时间序列预测中,模型被迫去适应不可预知的模式,这几乎总是导致巨大的错误。然而,最初的泛函并不适用于时间序列预测,主要有两个原因
(i) 与图像分类不同,时间序列预测需要一个预测长度×特征数量的向量输出。在这种情况下,原始淹没考虑了平均学习损失,而没有对每个时间步骤和特征进行单独处理。
(对于时间序列数据,误差界限应该针对不同的模式动态变化。直观地说,对于不可预测的模式,应该允许更高的误差。
图1不同方法的概念性例子(a) 原始淹没提供了平均损失的下限,而不是分别考虑每个时间步骤和特征。(b) 为每个时间步长和每个特征提供训练损失的下限,并不能反映时间序列预测的性质,其下限为恒定值。(c) 作者提出的WaveBound方法为每个时间步骤和特征提供了一个训练损失的下限。这个下限在学习过程中动态调整,以提供一个更严格的误差界限。 |
为了妥善解决时间序列预测中的过拟合问题,预测的难度,即当前标签的不可预测程度,应该在学习过程中加以衡量。为此,引入了一个目标网络,用原始网络即源网络的指数移动平均数来更新。在每个迭代中,目标网络可以导致相对于源网络的合理水平的学习损失--目标网络的误差越大,模式越不可预测。在目前的研究中,缓慢移动的平均目标网络通常被用来在自我监督的环境中产生稳定的目标。通过利用目标网络的学习损失作为下限,作者推导出一种新的正则化方法,称为WaveBound,它忠实地估计每个时间步长和特征的误差界限。通过动态调整误差边界,所提出的正则化方法可以防止模型过度拟合某些模式,进一步提高泛化能力。图1说明了原始泛化和WaveBound方法之间的概念差异。原来提出的淹没法通过比较平均损失和它的淹没水平来确定每一个点更新步骤的方向。相比之下,WaveBound使用学习损失的动态误差界限来单独确定每个点的更新步骤的方向。这项研究的三个主要贡献是:
- 提出了一种简单而有效的正则化方法,称为WaveBound,它可以动态地提供时间序列预测中学习损失的误差界限。
- 表明所提出的正则化方法在六个真实世界的基准上持续改善了现有的最先进的时间序列预测模型。
- 广泛的实验将检验按时间步长、特征和模式调整误差界限的意义,以解决时间序列预测中的过度拟合问题。
介绍
时间序列预测
考虑一个具有固定窗口大小的滚动预测设置。时间序列预测的目标是预测过去序列xt = {zt-L+1, zt-L+2, ..., zt : zi∈RK }给定一个未来序列yt = {zt+1, zt+2, ..., zt : zi∈RK },预测器g : RL×K → RM×K 是指学习一个预测器g : RL×K → RM×K,该预测器可以预测 。它主要处理多变量回归问题中的误差界限,其中输入序列x和输出序列y来源于一个基密度p(x, y)。对于一个给定的损失函数ℓ,g的风险是R(g) := E(x,y)∼p(x,y) [ℓ(g(x), y)] 。由于我们不能直接获得分布p,因此我们改用训练数据,使其经验版本最小化
。在分析中,假设误差是独立同质分布的。广泛使用的平均平方误差(MSE)损失被用作目标函数。然后,风险可以被改写为每个预测步骤和特征的风险之和:
在哪里?
水灾
为了解决过度学习的问题,Ishida等人提出了淹没法,它将学习损失限制在某个常数之上。给定一个经验风险和一个人工探索的下限b,称为洪水水平,作者转而将洪水经验风险最小化,定义为
如果,则泛滥的经验风险的梯度更新与经验风险的梯度更新方式相同,否则方向相反。t∈{1,2,...,T },关于第t个小批的经验风险是 ,根据詹森不等式,第t个小批的经验风险是 。, T },相对于第t个小批的经验风险是
,根据詹森不等式
因此,Minibatch优化使洪水经验风险的上界最小化。
技术
时间序列预测中的洪水。
我们首先解释了原始的洪水对时间序列预测问题如何不能有效地发挥作用。我们首先用每个预测步骤和特征的风险重写方程(2):
淹没式经验风险通过一个恒定的b值来约束所有预测步骤和特征的平均经验风险的下限。 然而,在多变量回归模型的情况下,这种正则化并不能独立地约束每个。因此,正则化的效果集中在输出变量上,而输出变量
,在训练中变化很大。
对于这种情况,可以通过考虑每个时间步骤和特征的单独学习损失来探索修正版的泛化。这可以通过减去每个时间步骤和每个特征的淹没水平b来实现,如下所示
在本研究中,这种泛化被称为恒定泛化。与考虑整体训练损失平均值的原始泛滥相比,恒定泛滥在每个时间步长和特征上都单独约束训练损失的下限,即b的值。
尽管如此,也不可能考虑到每个小批的不同预测难度。在不断泛滥的情况下,在逐批训练过程中很难充分地将经验风险变体最小化。如方程3,小批优化使淹没经验风险的上界最小化。问题是,对于t∈{1, 2, ., T },每个泛滥的风险项,差异很大,不等式变得不那么严格。这种情况经常发生在每批损失差异很大的时候,因为时间序列数据通常包含很多不可预测的噪声。为了保证不等式的严格性,
的界限应该为每个批次自适应地选择。
波涛汹涌
如上所述,为了充分控制时间序列预测中的经验风险,在以下条件下应考虑使用正则化方法
(i) 正则化应分别考虑每个时间步骤和每个特征的经验风险。
(ii) 对于不同的模式,即小批量,在每个批次的训练过程中应探索不同的误差界限。
为了处理这个问题,要为每个时间步长和每个特征获得误差界限,并在每次迭代时动态调整。由于在每次迭代中手动搜索每个时间步长和特征的不同界限是不切实际的,因此使用指数移动平均(EMA)模型来估计不同预测的误差界限。
具体来说,在整个训练阶段采用两个网络:源网络gθ和目标网络gτ,每个网络的结构相同,但权重θ和τ不同。目标网络对相对于源网络预测的误差估计一个适当的下限,其权重以源网络权重的指数移动平均数进行更新:
其中α∈[0,1]是目标衰减率。另一方面,源网络使用梯度下降法更新权重θ,其方向为波的经验风险梯度。
这里,ε是一个超参数,表示源网络的误差边界与目标网络的误差边界的距离。直观地讲,目标网络对每个时间步长和特征的学习损失指导一个下限,防止源网络向低于其下限的损失学习。换句话说,它过度适应一个模式。由于指数移动平均模型已知具有集合源网络和记忆以前迭代中可视化的训练数据的作用,目标网络能够抵抗主要由噪声输入数据引起的不稳定性,而源网络的误差界限则是可以被稳健地估计。图2说明了WaveBound方法中源网络和目标网络的性能。
图2 WaveBound方法为使用目标网络的每个时间步骤和特征的学习损失提供了动态误差界限。目标网络gτ随着源网络gθ的EMA更新。对于第j个时间步骤和第k个特征,学习损失由我们估计的误差边界![]() |
最小批量的优化
对于t∈{1, 2, ., T},让和
,分别表示第t个minibatch的第j步和第k个特征的波的经验风险和经验风险。给定一个目标网络g*,通过詹森不等式
因此,Minibatch优化使波浪的经验风险的上界最小化。
请注意,如果g接近于g*,那么的值在各小批中是相似的,从而给詹森不等式一个严格的约束。我们希望EMA更新的工作能够满足这个条件,从而给小批量优化中的经验风险提供一个严格的上限。
降低MSE
给定一个适当的ε,作者提出的波浪的经验风险估计器的MSE小于经验风险估计器。
直观地讲,定理1指出,当以下条件成立时,经验风险估计器的MSE可以被降低
(i) 网络g*有足够的表现力,g和g*在每个输出变量中的损失差异与g的其他输出变量的损失无关。
(ii) ˆRij(g∗) - ε可能位于ˆRij(g)和Rij(g)之间。
由于EMA模型的学习损失不容易低于模型的测试损失,所以g*应该是g的EMA模型。然后,ε可以被选为一个固定的小值,以便源模型在每个输出变量中的学习损失都紧密地约束在该变量的测试损失之下。
实验
具有预测模型的WaveBound
作为基线,在多变量设置中选择了Autoformer、Pyraformer、Informer、LSTNet和TCN。在单变量设置中,增加N-BEATS[15]作为基线。
该数据集有六个真实世界的基准。
(1) 电力变压器温度(ETT)数据集包含了从中国两个县的电力变压器收集的两年的一小时级(ETTh1, ETTh2)和15分钟级(ETTm1, ETTm2)的数据。
(2) 电力(ECL)数据集包括321个客户在两年内的每小时用电量。
(3) Exchange数据集是一个来自八个国家的日常特征集合。
(4) 交通数据集是由加州交通部提供的旧金山湾各种传感器的每小时统计数据。
(5) 天气数据集记录了在美国约1600个地标收集的21个天气指标的四年(2010-2013)的数据。
(6) ILI数据集包含2002年至2021年疾病控制和预防中心每周报告的流感样疾病患者的数据,描述了ILI患者占患者总数的比例。
多变量的结果。
表1显示了在多变量环境下,这些方法在平均平方误差(MSE)和平均绝对误差(MAE)方面的表现。可以看出,作者的方法与一系列的预测模型,包括最先进的方法相比,显示出一致的改进。特别是,当M=96时,WaveBound将ETTm2数据集的MAE和MSE都提高了22.13%(0.262 → 0.204),MAE提高了12.57%(0.326 → 0.285)。特别是,LSTNet在MSE方面提高了41.10%(0.455 → 0.268),在MAE方面提高了27.98%(0.511 → 0.368)。在长期ETTm2设置中(M=720),WaveBound将Autoformer的性能提高了7.39%(0.446→0.413)的MSE和6.20%(0.435→0.408)的MAE。在所有的实验中,作者的方法对各种预测模型表现出一致的性能改进。
表1 多变量设置中的WaveBound结果。所有结果都是三次试验的平均数。 |
单变量结果
正如表2所报告的那样,WaveBound在单变量设置中也显示了出色的结果。特别是在专门为单变量时间序列预测设计的N-BEATS中,当M=96时,作者的方法将ETTm2数据集的性能提高了8.22%(0.073 → 0.067)的MSE和5.05%(0.198 → 0.188)的MAE。 对于ECL数据集在M=720时,Informer与WaveBound的MSE改善了40.10%(0.631→0.378),MAE改善了24.35%(0.612→0.463)。
表2:单变量设置中的WaveBound结果。所有结果都是三次试验的平均数。 |
归纳差距
为了识别过拟合,可以检查泛化差距,即训练和测试损失之间的差异。为了验证作者的正则化确实可以防止过度拟合,图3显示了有无WaveBound的模型的训练和测试损失;没有WaveBound,测试损失开始迅速增加,表明泛化程度高。表明泛化差距很高。相反,当使用WaveBound时,观察到测试损失继续减少,表明WaveBound成功地解决了时间序列预测中的过度拟合问题。
图3 在ETTm2数据集上有无WaveBound的模型的学习曲线;没有WaveBound,两个模型的学习损失都会减少,但测试损失会增加(见黑线)。相比之下,有WaveBound的模型的测试损失在学习更多的历时后继续减少。 |
动态调整误差界限的意义。
在WaveBound中,误差界限对每个时间步骤和每个迭代中的每个特征进行动态调整。为了测试这些动态的重要性,将WaveBound与原始泛滥和恒定泛滥进行了比较,后者使用一个恒定的泛滥水平值。
表3比较了泛滥正则化与经验风险的各种替代值的性能。原始的泛滥以常数来约束经验风险,而常数泛滥则独立约束每个特征和时间步骤的风险。正则化方法的淹没水平b被设定为{0.00, 0.02, 0.04, ..0.40}空间,并对b的固定值进行了探索。正如预期的那样,使用固定的常数值无法实现改进。用每个输出变量的单独约束误差训练出来的模型明显优于其他基线,特别证明了作者提出的WaveBound方法的有效性。图4显示了不同方法在每个时间步骤的测试误差。对于所有的时间步长,WaveBound与原始泛滥和恒定泛滥相比,显示出更好的概括性,这强调了在时间序列预测中调整误差界限的重要性。
图4 在ECL数据集上用不同正则化方法训练的模型的测试误差。与原始泛化和恒定泛化相比,WaveBound的测试误差在所有的时间步长上都是比较低的,这说明作者的方法在提高泛化方面是成功的,不管预测的范围如何。 |
表3 ECL数据集上的洪水正则化变体的结果。用不同的代理物训练源网络时的预测精度与经验风险进行了比较。所有结果都是三次试验的平均值,常数b为{0.00, 0.02, 0.04, ..0.40},在{0.00, 0.02, 0.04, ..., 0.40}范围内进行了忠实的探索。 |
损失景观的平坦性。
损失景观的可视化被引入,以评估模型的概括性如何。众所周知,一个模型的损失景观越平坦,它的稳健性和通用性就越强;图中显示了一个有和没有WaveBound的模型的损失景观。图5显示了Autoformer和Informer的损失情况。使用滤波归一化将损失景观可视化,并评估每个模型的MSE以进行公平的比较,可以看出,与原始模型相比,带有WaveBound的模型显示出更平滑的损失景观。换句话说,WaveBound使时间序列预测模型的损失景观变得平坦,并稳定了学习。
图5 在ETTh1数据集上应用和不应用WaveBound的Autoformer和Informer损失景观;WaveBound使两个模型的损失景观变得平坦,并提高了模型的普适性。 |
相关研究
时间序列预测
基于不同的原则,已经为时间序列预测任务提出了各种方法。统计学方法可以提供理论上的保证以及可解释性。自回归积分移动平均线和预言家是最具代表性的统计方法。另一类重要的时间序列预测方法是状态空间模型(SSM),它将结构假设纳入模型,并了解时间序列数据的潜在动态。然而,由于其在长期预测中的卓越结果,基于深度学习的方法在很大程度上被认为是时间序列预测的领先解决方案。递归神经网络(RNN)和卷积神经网络(CNN)已被引入时间序列预测,以模拟时间序列数据的时间依赖性。时间卷积网络(TCN)也被考虑用来模拟时间因果关系;还提出了一种结合SSM和神经网络的方法;DeepSSM使用RNN来估计状态空间参数,而CNN用于时间序列预测。使用卡尔曼滤波器对线性潜伏动态进行有效建模,同时也提出了对非线性状态变量进行建模的方法。其他最近的方法包括使用Rao Blackwellised粒子过滤器的SSM和使用持续时间切换机制的SSM。
基于变压器的模型最近被引入到时间序列预测中,因为它们可以捕获长距离的依赖关系。然而,对于序列长度为L的情况下,应用自我关注机制将复杂性从O(L)增加到O(L2)。为了减少这种计算负担,人们做了一些尝试,如LogTrans、Reformer和Informer,它们把自留机制重新设计成稀疏版本,降低了变换器的复杂度 Haixu等人称为Autoformer提出了一个带有自相关机制的分解架构,以提供串行连接。为了对不同范围的时间依赖性进行建模,Pyraformer中提出了金字塔式注意力模块。然而,由于学习策略迫使模型适应真实数据中出现的所有矛盾的模式,这些模型仍然不能泛化。本研究的主要重点是提供适当的误差界限,以防止模型在学习过程中过度拟合某些模式。
正则化技术
过度学习是过度参数化深度学习网络的关键问题之一。这可以通过泛化差距(学习损失和测试损失之间的差距)来识别。为了防止过度学习和提高泛化能力,已经提出了几种正则化技术。权重参数衰减、早期停止和退出通常被用来避免深度学习网络的高偏差。除了这些方法之外,还提出了专门为时间序列预测设计的正则化方法。最近,明确防止零学习损失的Flooding被引入;Flooding通过提供学习损失的下限,即Flooding水平,允许模型不完全适合训练数据,从而提高模型的通用性。这项研究也试图解决时间序列预测中的零学习损失。然而,我们发现,时间序列预测中的平均损失并不像预期的那样好用。时间序列预测需要仔细选择每个特征和时间步骤的适当误差界限。另外,恒定的Flooding水平可能不适合时间序列预测,因为预测的难度会随着小批量学习过程的每次迭代而变化。为了解决这些问题,作者提出了一种新的正则化,充分考虑到了时间序列预测的性质。
摘要
作者为时间序列预测提出了一个简单有效的正则化方案,称为WaveBound,它使用一个松散的移动平均模型,为每个时间步长和特征提供动态误差界限。用真实世界的基准进行的广泛实验表明,作者的正则化方案持续改善了现有模型,包括最先进的模型,并解决了时间序列预测中的过度学习问题。作者还验证了泛化差距和损失景观,讨论了WaveBound在学习过度参数化网络中的效果。我们认为,作者的方法在性能上的显著提高表明,正则化应该专门为时间序列预测而设计。
与本文相关的类别