使用生成模型进行时间序列预测D3VAE。

时间序列 15/05/2023

三个要点
✔️ 这篇NeurIPS 2022年接受的论文提出了一种使用生成模型的时间序列预测的新方法，称为D³VAE。它将扩散、去噪和去纠缠方法与双向变异自动编码器相结合。
✔️ 其目的是解决有限的和有噪声的数据的时间序列预测问题，并提供更稳定和可解释的预测。
✔️ 在合成和真实世界的数据上进行了广泛的实验，以证明所提方法的有效性。

Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement
written by Yan Li, Xinjiang Lu, Yaqing Wang, Dejing Dou
(Submitted on 8 Jan 2023)
Comments: NeurIPS 2022 Accept
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

这是一篇NeurIPS 2022年通过的论文。主题是时间序列预测。该论文提出了一种使用生成模型进行时间序列预测的新方法，称为^D3VAE。该方法将扩散、去噪和去纠缠方法与双向变异自动编码器（BVAE）相结合。所提出的方法旨在解决有限的和有噪声的数据的时间序列预测问题，并提供更稳定和可解释的预测。具体来说，我们提出了一个耦合的扩散概率模型来增加时间序列数据，而不增加机会的不确定性，并在BVAE中实现一个更可操作的推理过程。此外，我们提议将多尺度去噪分数匹配适应并整合到时间序列预测的扩散过程中，以确保生成的时间序列是真正有目标的。此外，为了提高预测的可解释性和稳定性，对潜变量进行了多变量处理，并在解耦之前将它们的总相关性降到最低。

介绍。

时间序列预测在风险规避和决策中至关重要。传统的基于RNN的方法通过捕捉时间序列的时间依赖性来预测未来。长短期记忆（LSTM）和门控递归单元（GRU）通过在单元结构中引入门控功能，有效地处理长期依赖性。基于卷积神经网络（CNN）的模型通过卷积操作捕捉时间序列的复杂内部模式。最近，基于变压器的模型在时间序列预测中表现出优异的性能，展示了多头自我关注的能力。然而，神经网络在时间序列预测中的一个主要问题是由于深层结构的特性而产生的不确定性。基于向量自回归（VAR）的模型，试图从隐藏的状态来模拟时间序列的分布，可以给予预测更多的信心，但其性能并不令人满意。

可解释的表示学习是时间序列预测的另一个优势。变量自动编码器（VAE）不仅善于对数据的潜在分布进行建模，减少梯度噪声，而且还能证明时间序列预测的可解释性。然而，由于涉及到潜变量，VAE可能具有较差的可解释性。

人们正在努力学习表征异同，事实证明，一个良好的去纠缠的表征可以提高算法的性能和稳健性。

此外，现实世界的时间序列往往是有噪声的，而且记录的时间很短，这可能导致过度拟合和概括问题。出于这个原因，本文通过生成模型来解决时间序列预测问题。具体来说，我们提出了一种带有扩散、噪声和去纠缠的双向变异自动编码器（BVAE），即^D3VAE。具体来说，我们首先提出了一个耦合的扩散随机模型，其灵感来自于扩散模型的前向过程，它通过增加输入和输出的时间序列来改善时间序列的数据限制。我们还将Nouveau VAE适应于时间序列预测任务，并开发了BVAE作为扩散模型的逆过程的替代品。这样，扩散模型的表达能力和VAE的可操作性就可以结合起来，用于生成性时间序列预测。然而，虽然它有可推广的优势，但扩散的样本会被破坏，导致生成模型向噪声目标移动。因此，在本文中，进一步开发了一个缩放的去噪分数匹配网络，以清理扩散的时间序列。此外，通过假设潜变量的不同维度对应于不同的时间模式（趋势、季节性等），将时间序列的潜变量分开。

这里的贡献可以归纳为以下几点

- 我们提出了一个耦合扩散概率模型，旨在减少时间序列的不确定性，提高生成模型的通用性。
- 我们还将多尺度去噪分数匹配纳入耦合扩散过程，以提高生成结果的准确性。
- 生成模型中的潜变量被分离出来，以提高时间序列预测的可解释性。
- 在合成和真实世界的数据集上进行的广泛实验表明，^D3VAE以令人满意的幅度超过了竞争的基线。

技术

代时间序列预测

问题的提出

输入数据是一个由n个数据点组成的多变量时间序列X，其中每个数据点xi是一个维度为D的向量。相应的目标时间序列Y由m个数据点组成，每个数据点yj是一个维数为d'（d'≤d）的向量。我们的目标是通过从高斯分布Z ~ p (Z|X)中提取的潜变量Z来生成目标时间序列Y。潜在变量的分布被表述为pφ (Z|X) = gφ (X)其中gφ是一个非线性函数。目标序列的数据密度由公式（1）求得其中pσ（Y）是目标序列的概率密度函数，fσ是参数化函数，Z是在潜变量空间ΩZ上的积分。目标时间序列可以通过从pθ（Y）中取样得到。

这里设定的时间序列预测问题是学习一个能捕捉到X的有用信号并将低维X映射到具有高代表性的潜空间的表示法Z。图1中给出了^D3VAE框架的概述。在进入详细的技术之前，我们首先介绍一些初步命题。

命题1。

一个时间序列X可以被分解为Xr和X其中Xr是理想的无噪声时间序列数据。地面真相和预测之间的误差可以被看作是随机和认识上的不确定性的组合�

耦合扩散概率模型

扩散概率模型（简称扩散模型）是一套旨在生成高质量样本的潜变量模型。为了使生成的时间序列预测模型具有高度的表现力，我们开发了一个耦合的顺序过程来同步增强输入和目标序列。此外，预计在预测任务中会有更多的可操作性和准确的预测。为此，我们提出了一个双向变异自动编码器（BVAE）来代替扩散模型的逆向。

债券扩散过程

前向扩散过程锚定在一个马尔可夫链上，该链逐渐向数据添加高斯噪声。为了扩散输入和输出序列，我们提出一个耦合的扩散过程，如图2所示。具体来说，给定一个输入X=X(0)∼q(X(0))，近似的后验q(X(1:T )|X(0))得到如下。

这里，采用了一个统一的增方差时间表β={β1,-, βT | βt∈[0, 1]}来控制添加的噪声水平。那么，如果αt=1到βt，，我们有。

此外，根据命题1，X(0)可以分解为X(0) = Xr , ϵX 。然后，利用方程（3），扩散的X（t）可以分解如下。

其中δX 表示X的标准高斯噪声。由于α可以在扩散时间表β 已知的情况下确定，所以理想部分也由扩散过程决定。现在，如果，，那么根据命题1和公式（4），我们有。

这里，代表的生成噪声。为了减轻时间序列数据造成的或然不确定性的影响，我们进一步对目标序列，采用扩散过程。具体来说，我们采用一个尺度参数Ω∈（0 ，1），使，，根据命题1，我们得到以下分解（类似于公式（4））：

因此，q（Y（t））=q（～Y（t）r）q（δ（t）～Y）。然后，命题1和方程（5）和（6）可以用来得出以下结论。

定理1 对于∀ε>0，存在一个概率模型fφ,θ :=（pφ，pθ），保证。其中。

定理2 耦合扩散过程减少了扩散和生成的噪声之间的差异。即：、

因此，生成模型引入的不确定性和数据特定的噪声可以通过耦合的扩散过程来减少。此外，扩散过程同时增强了输入和目标序列，从而提高了（特别是短）时间序列预测的通用性。

双向变量自动编码器

传统上，扩散模型中采用逆过程来产生高质量的样本。然而，在生成性时间序列预测问题中，不仅需要考虑表达能力，还需要考虑地表真相监测。在本研究中，采用了一种更有效的生成模型，即双变量自动编码器（BVAE），它取代了扩散模型的逆过程：BVAE的结构如图1所示，和，其中Z被处理为多变量。而n不仅由编码器的残余块数决定，也由解码器的残余块数决定；BVAE的另一个优点是它为整合离散化打开了一个接口，以提高模型的可解释性。

弥漫性时间序列清理的尺度去噪分数匹配。

时间序列数据可以用上述的耦合扩散概率模型来增强，但生成分布pθ( ̂ Y (t))倾向于被破坏的扩散目标序列Y (t)。为了进一步 "清洁 "生成的目标序列，采用去噪分数匹配（DSM）来加速不确定性的消除过程，而不牺牲模型的灵活性。 DSM是去噪自动编码器（DAE)和得分匹配(SM)的结合，它被提出来连接让̂Y是生成的目标序列，目标函数如下。

其中，是受损和清洁样本对的联合密度( ̂ Y , Y )，是单一噪声核的对数密度的导数，用于替代Parzen密度估计器：与分数匹配，是能量函数。对于高斯噪声的特殊情况，，因此我们有。

然后可以得到以下步骤t的扩散目标系列

为了衡量不同程度的噪声，采用了一系列单调递减的固定σ值{σ1, -, σT | σt = 1 - ̄αt}。因此，多尺度DSM的目标函数为

让σ∈{σ1, - -, σT }，l(σt) = σt。在方程（10）中，设置σ0确保梯度具有正确的大小。在生成的时间序列预测设置中，对生成的样本进行测试，不应用扩散过程。为了进一步对生成的目标序列̂Y去噪，应用了一个单步梯度去噪跳跃：

生成的结果往往比真实的目标有更大的分布空间，方程（11）中的噪声项近似于生成的和 "清理过的 "目标序列之间的噪声。因此，，可以被视为预测中的一个估计的不确定性。

隔离潜伏变量进行解释。

时间序列预测模型的可解释性对许多下游任务至关重要。通过在生成的模型中隔离潜在的变量，不仅可以进一步提高预测的可解释性，而且还可以提高预测的可靠性。

为了隔离潜在变量Z = z1 , , zn，我们试图将总相关度（TC）降到最低，这是衡量多个随机变量之间依赖关系的常用指标。

其中m代表需要离散化的zui大因素的数量。如果潜伏变量拥有有用的信息，较低的TC通常意味着更好的离散化。然而，如果潜变量没有任何有意义的信号，也可以得到很低的TC。BVAE的双向结构可以毫无困难地处理这类问题。如图1所示，信号在编码器和解码器中都是分散的，潜变量有丰富的语义被聚集在一起。此外，为了减轻潜在的不规则值的影响，可以对z1_:n 的关联度之和进行平均，以获得BVAE的损失到TC的得分：

学习和预测

培训目标。

为了减少不确定性的影响，在不牺牲通用性的前提下，我们提出了一个带有降噪网络的耦合扩散。然后，我们通过最小化潜在变量的TC来隔离生成模型中的潜在变量。最后，我们使用一些权衡参数重建损失。使用方程（10）、（11）和（13），我们得到。

其中_Lmse 计算Y（t）和Y（t）之间的平均平方误差（MSE）。通过最小化上述目标，生成式模型得到相应的训练。

算法

算法1介绍了使用方程（14）中的损失函数的^D3VAE的完整学习程序。对于推理，如算法2所述，给定一个输入序列X，目标序列可以直接从分布pθ中生成，条件是从分布pφ中抽取的潜态。

实验

设置

数据集

生成两个复合数据集。

其中wt R2和0 wt,1 , wt,2 1 (t = 1, 2, 3), F R2×k [ 1, 1 ], 其中k是维数，N是时间点的数量，a, b是两个常数；a = 0.9, b = 0.2, k = 20用于生成D1；a = 0.5, b = 0.5, k = 40用于生成 D2；D1和D2都被设定为N=800，用于生成D1和D2�

我们选择了六个具有不同时空动态的真实世界数据集，包括交通、电力天气、风（风力发电）和ETT（ETTm1和ETTh1）。为了强调短时间序列情景的不确定性，对于每个数据集，从起点开始切分一个子集，确保每个切分的数据集最多包含1000个时间点：5%-交通，3%-电力，2%-天气，2%-。风，1%-ETTm1和5%-ETTh1。所有的数据集都被分割成时间序列，并采用相同的训练/验证/测试比例，即7：1：2。

基准线

D3 VAE与一种基于高斯过程（GP）的方法（GP-copula）、两种自动回归方法（DeepAR和TimeGrad）和四种基于VAE的方法（vanilla VAE、NVAE、因子-VAE（简称f-VAE和β-TCVAE））进行了比较。该研究的结果如下。

实施细节。

应用input-lx -predict-ly窗口，训练集、验证集和测试集分别以一个时间步长滚动，所有数据集都采用这种设置。下面，多变量时间序列的最后一个维度被默认选择为目标变量。

它使用亚当优化器，初始学习率为^5e-4。批量大小设置为16，学习时间最多为20个epochs，并提前停止。纠缠释放系数的数量从{4，8}中选择，βt β设置在0.01到0.1的范围内，设置不同的扩散步骤T[100，1000]，然后Ω设置为0.1。对于ETT，权衡超参数设置为ψ=0.05，λ=0.1和γ=0.001；对于其他，ψ=0.5，λ=1.0和γ=0.01。连续排名概率得分（CRPS）和平均平方误差（MSE）被用作评价指标。对于这两个评价指标，越低越好。特别是，CRPS用于评估两个分布的相似性，当两个分布是离散的时候，它相当于平均绝对误差（MAE）。

主要结果。

评估了两种不同的预测长度，即ly 8，16（lx = ly ）。

玩具数据集

表1显示，D3的VAE在大部分时间里达到了SOTA的性能，D2在预测长度为16时达到了有竞争力的CRPS。它还显示，VAE在D1中优于VAR和GP，但VAR在D2中取得了更好的性能，证明了VAR在学习复杂的时间依赖性方面的优势。

真实世界的数据集。

在真实世界数据的实验中，^D3VAE在Wind数据集上取得了一致的SOTA性能，但预测长度16除外（表2）。特别是，在输入-8-预测-8设置中，^D3VAE能够对交通、电力、风、ETTm1、ETTh1和天气的MSE减少产生显著的改善（90%、71%、48%、43%、40%、28%）；对于CRPS的减少，^D3VAE能够实现输入-8预测-8设置，交通73%，风31%，电27%；输入-16预测-16设置，交通70%，电18%，天气7%。

总体而言，^D3VAE在上述环境中实现了平均MSE降低43%，CRPS降低23%。

不确定性估计

在进行预测时，可以通过估计结果序列中的噪声来评估不确定性。比例参数Ω允许对生成的分布空间进行相应的调整。

图3中的展示展示了交通数据集中生成的序列的不确定性估计，其中最后六个维度被视为目标变量。它表明，噪声估计可以有效地量化不确定性。例如，当遇到极端值时，估计的不确定性迅速增加。

纠缠释放的评价

在时间序列预测中，很难手工标注分离的因素，所以把Z的不同维度作为要分离的因素：Zi = [zi,1 , , zi,m ]（zi Z）。分离的质量可以通过建立一个分类器来评估，该分类器可以识别一个实例zi,j是否属于j类，并评估分类性能。相互信息含量（MIG）也被作为一个指标，以更直接的方式评估纠缠释放。

模型分析

耦合扩散和去噪网络的消融研究。

完整版的^D3VAE及其三个变体，评估扩散耦合模型（CDM）的有效性

(ⁱ)^D3VAE-～Y，即没有Y扩散的^D3VAE、

(ⁱⁱ)^D3VAE-～X，即不扩散X的^D3VAE、

(iii)^D3VAE-CDM（无扩散的^D3VAE）。

我们还比较了还报告了目标序列不扩散时的去噪分数匹配（DSM）性能，表示为^D3VAE-⑰Y -DSM和^{D3VAE-CDM-DSM}。在输入-16-预测-16和输入-32-预测-32下，对交通和电力数据集进行了隔离研究。从表3可以看出，扩散过程可以有效提高输入或目标的可以看出，扩散过程可以有效地提高输入或目标。它还表明，如果目标没有被扩散，去噪网络是有缺陷的，因为目标的噪声水平不能被估计。

扩散时间表β和扩散步骤的数量T

为了减少不确定性的影响，同时保持信息量大的时间模式，必须适当地设置扩散程度。如果扩散时间表太小或扩散步骤不足，扩散过程将毫无意义。否则，扩散可能变得不可控。我们设定β1=0，βt的值在[0.01, 0.1]的范围内变化，T在100-4000的范围内变化，如图4所示，可以看出采用适当的β和T可以提高预测性能。

讨论

生成的时间序列预测的抽样。

郎咸平动力学已被广泛地应用于基于能量的建模（EBM）采样。

其中，k∈{0，---，K}，K代表采样步骤数，ρ是一个常数；通过适当地设置K和ρ，可以产生高质量的样本。郎咸平动力学已经成功地应用于计算机视觉和自然语言处理应用。

在这项研究中，采用单步梯度去噪跳跃来生成目标序列。所进行的实验证明了这种单步采样的有效性。将进行更多的实证研究，研究是否值得采取更多的采样步骤来进一步提高时间序列预测的性能；图5显示了不同采样策略下的预测结果。为了省略Langevin动力学中的附加噪声，我们采用^D3VAE多级去噪来生成目标序列，并将生成的结果绘制在图5a中。然后，我们在标准Langevin动力学中实施生成程序而不是去噪，并比较不同ρ下生成的目标序列（见图5b-5d）。可以看出，在生成式时间序列预测中，更多的采样步骤可能无助于提高预测性能（图5a）。此外，更多的采样步骤预计在计算上会很昂贵。另一方面，Langevin动力学的不同配置（变化的ρ）并没有为时间序列预测带来本质的好处（图5b-5d）。

限度

尽管耦合扩散概率模型减少了时间序列的无把握性，但它在时间序列中引入了一个新的偏向，以模仿输入和目标的分布。然而，由于VAE常见的一个问题，即输入的偏差也会使产生的输出产生偏差[，扩散步骤和分散时间表需要仔细选择，以便该模型可以顺利地应用于不同的时间序列任务。所提出的模型是为一般的时间序列预测而设计的，应该适当地使用，以避免潜在的负面社会后果，如未经授权的应用。

在时间序列预测分析中，潜在变量的离散化对于解释更可靠的预测至关重要。在生成式时间序列预测中，由于缺乏对纠缠因素的先验知识，只有无监督的离散化学习是可能的，即使这在理论上被证明对时间序列是可行的，但对于无边界的去纠缠应用和更好的性能，它将是如何对它们进行标记是值得探索的。此外，由于时间序列数据是独一无二的，为时间序列生成任务探索更多的生成和采样方法是另一个有希望的方向。

摘要

在这项研究中，提出了一个具有双向VAE主干的生成模型。为了进一步提高通用性，设计了一个用于时间序列预测的耦合扩散概率模型。然后开发了一个缩放去噪网络以保证预测的准确性。然后进一步隔离了潜伏变量以提高模型的可解释性。在合成和真实世界的数据上进行的大量实验验证了所提出的生成模型与现有的竞争性生成模型相比达到了SOTA的性能。