GAN也在时间序列中
三个要点
✔️ GANs在时间序列数据生成中的应用研究回顾
✔️ 通过解决GAN本身和时间序列特有的挑战,展示有用的结果
✔️ 隐私保护是时间序列数据生成中的关键问题之一。
Generative adversarial networks in time series: A survey and taxonomy
written by Eoin Brophy, Zhengwei Wang, Qi She, Tomas Ward
(Submitted on 23 Jul 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:![]()
![]()
简介
这是一篇关于GANs在时间序列问题上的应用的调查论文,由都柏林城市大学的一个小组,Bight Dance。同时,还提出了一种分类方法。众所周知,大多数时间序列数据都是正常的,收集大量的离群数据需要大量的资源,所以人们提出了各种生成模型。因此,人们提出了各种生成模型,而考虑应用GANs是很自然的。
第一个被视为生成模型的模型是图1所示的自动编码器(AE)。
与AE相比,GAN是一个领跑者,因为它产生的数据质量和它天生的隐私保护。
作者介绍了其他领域中关于GAN的评论论文,这里省略了。
应用时间序列的挑战
有三个主要挑战
学习的稳定性
GANs的稳定性,不仅是时间序列,也有其挑战:原始论文中已经提到了两个问题:1)梯度消失和2)模式崩溃。梯度消失是由方程(1)所描述的损失函数的直接优化引起的。当判别器D达到最佳状态时,对生成器G进行优化(1)可使Jensen^Shannon(JS)分歧最小。
当pr和pg之间没有重叠时,JS的收敛性变得恒定。这导致梯度为零。在实践中,很有可能pr和pg不相交,或者重叠部分可以忽略不计。
为了避免这种情况,(3)中的最小化被用来更新发生器G。
这避免了梯度的消失,但导致了模式崩溃的问题。公式(3)的优化是基于反Kullback-Leibler(KL)分歧KL(pg||pr).在优化反KL发散时,如果pr有一个以上的模式,pg会选择恢复一个模式而忽略其他模式。有鉴于此,用(3)来计算训练生成器G,它只能生成实际数据的几个模式。这些问题可以通过改变架构或损失函数加以纠正。
评级
GANs的性能评估已被广泛提出。计算机视觉中的GANs的评估通常是考虑到两个方面:生成数据的质量和数量。最典型的定性测量是对生成的图像质量的人为记号。定量指标从统计学的角度对生成的图像和真实的图像进行比较:最大平均差异(MMD), 入射得分,弗莱切入射距离(FID)等。
与基于图像的GANs的评估相比,时间序列数据在人类的感知和心理意义上更难进行定量评估。对于定性评价,通常使用t-SNE和PCA来可视化相似程度。对于定量评价,采用了双样本测试,与基于图像的GAN一样。
隐私风险
各种各样的方法被用来评估与GANs生成的数据相关的隐私风险。
常用的数据集
对于时间序列数据的生成,没有标准或常用的基准数据集,如基于图像的数据集(CIFAR、MNIST、ImageNet),表1列出了最常用的数据。有两个资源库:UCR时间序列分类/聚类数据库和UCI机器学习资源库。
基于时间序列的GANs的分类法
数据被分为离散变量和连续变量。对于离散变量来说,数据报告并不频繁和不定期。由于报告的中断,也存在缺失的价值差距。离散时间序列的生成产生的序列可能是随时间变化的,但可能包含离散的符号。一个连续的时间序列有对应于所有时间点的数据;图3显示了每个时间点的一个例子。
产生离散时间序列数据的挑战
GANs的障碍是它们在几乎任何一点上都有零梯度。这意味着离散对象的分布对于其参数来说是不可微调的。这一限制意味着不可能仅仅使用反向传播来训练发电机。
生成连续时间序列数据的挑战
GANs本质上处理的是图像形式的连续数据。然而,由于连续数据的时间性,时间序列也存在其他问题。时间特征和其属性之间存在着复杂的关联。 例如,在处理多通道生物识别/生理数据时,心电图特征取决于个人的年龄和健康状况。在时间序列数据中存在着长期的相关性。确定其长度比图像数据更难。转换图像的尺寸是一个可识别的过程,尽管它可能导致图像质量的降低。然而,对于连续的时间序列数据,没有标准的维度(长度)可以用于GANs。这使得基准比较变得困难。
RNN(图4)有一个类似于循环的结构,适合于处理连续的数据。然而,它缺乏学习长期依赖关系的能力,因此开发了一个变种,即LSTM(图4,右)。本文讨论的大多数基于RNN架构的论文都使用了LSTMs。
基于RNN的循环GAN(RGAN)在2016年被提出。它包括发生器中的一个递归反馈回路。
离散变量GAN
序列GAN(SeqGAN)(2016年9月)。
SeqGAN发生器包含LSTM单元,判别器是卷积神经网络(CNN),解决了上述离散数据的挑战,显示出优于2016年以前提出的其他方法的性能。生成器由措施梯度和来自判别器的奖励期望值使用蒙特卡洛搜索进行更新。这就像强化学习。它最初是为离散的连续数据如文本而开发的,现在已经为连续的连续数据和时间序列打开了大门。作者使用的是合成数据,其分布是通过用遵循正态分布的随机数据初始化LSTM而产生的。他们还将结果与现实世界的数据进行比较。
Quanto GAN (2019年7月)
Quant GAN是一个数据驱动的模型,旨在捕捉金融时间序列数据的长期依赖性。生成器和鉴别器都使用带有跳过连接的TCN(时间卷积网络),即像WaveNet一样的扩张因果卷积网络。它适合于对连续的序列数据的长期范围依赖性进行建模。生成器的功能是一个随机波动率神经网络,由波动率和漂移TCN组成,TCN中使用的时间块由两个扩张因果卷积层和两个参数化的ReLU激活函数组成。生成器产生的数据被传递给判别器进行输出,平均值成为判别器损失函数的蒙特卡洛预测值。虽然该方法的性能优于以前的方法,但对长期连续时间序列数据进行建模的计算复杂性是一个问题。因此,我们决定将该方法应用于离散数据。
连续变量 GAN
连续RNN-GAN(C-RNN-GAN)(2016年11月)。
C-RNN-GAN产生连续的顺序数据。生成器是一个RNN,判别器是一个双向RNN。这里的RNN是一个两阶段的LSTM。
循环条件GAN(RCGAN)(2017)
RCGAN的结构与C-RNN-GAN的结构不同:它使用RNN LSTM,但判别器不是双向的。它使用了RNN LSTMs,但判别器不是双向的,而且生成器的输出不会被反馈为下一个时间点的输入。该模型将一个条件c作为输入,并为时间序列数据分配相关标签。
顺序耦合的GAN(SC-GAN)(2019年4月
SC-GAN旨在生成以病人为中心的医疗数据,告知病人的当前状态,并根据病人的情况推荐药物剂量。 2个联合生成器分别输出病人的当前状态和推荐剂量。鉴别器是一个两层的双向LSTM,生成器都是两层的单向LSTM。生成器是有监督和预训练的。
降噪GAN(NR-GAN)(2019年10月)。
NR-GAN旨在对时间序列数据进行去噪,特别是对脑电图信号。特别是,它被应用于对EEG(脑电图)信号进行去噪。生成器是一个具有全耦合输出层的2层1-D CNN,而判别器有一个softmax层而不是全耦合层来计算概率。生成器不从潜伏空间取样,而是试图从原始EEG数据中生成清晰的数据。它相当于一个经典的频率滤波器,但受到噪声量的限制。
时间 GAN (2019年12月)
时间GAN提供了一个框架,可以处理传统的无监督GAN学习和有监督的学习,并有更多的控制。数据的形式是一个静态部分s和一个时变部分的元组,潜变量来自真实数据通过编码器,来自分布式数据通过发生器。它们共同构成了监督学习的损失函数,并通过判别器构成了无监督学习的损失函数。从真实数据中通过编码器的数据被解码器恢复,成为恢复损失函数。这三个损失函数被用来训练模型,并观察到RC-GAN、C-RNN-GAN和WaveGAN的改进。
条件性Sig-Wasserstein GAN(SigCWGAN)(6.2020)
我们开发了一个名为Signature Wasserstein-1(Sig-W1)的措施,它代表了时间序列模型的依赖性,并将其作为一个判别器(下图中的橙色部分)。它是复杂数据流的一个抽象的、普遍的表示,不需要瓦瑟斯坦指数的计算成本。这个发生器也很新颖,被称为条件自回归前馈神经网络(AR-FNN)。它代表了一个时间序列的自回归特性。该生成器可以将过去的数据和噪声映射到未来的数据,并声称其性能优于TimeGAN、RCGAN和生成 矩匹配网络 (GMMN)。
决策感知时间序列条件GAN(DAT-CGGAN)(2020年9月)。
该框架旨在支持终端用户的决策,特别是在选择金融投资组合方面。它将多瓦尔斯坦损失作为一个结构化的决策相关量词。损失函数显示在以下公式中
生成器是一个两层前馈的NN结构,并输出一个资产回报。这被送入鉴别器,也是一个两层前馈网络。输出的可靠性似乎很好。问题是,它的计算成本很高,训练一个发电机需要一个月的时间。
合成生物医学信号GAN(SynSigGAN)(2020年12月)。
SynSigGAN被设计用来生成一系列生理和生物医学数据。心电图、脑电图、肌电图和光电图。MIT-BIH 心律失常数据可以从MIT-BIH心律失常数据库和其他方面生成。我们评估了一些变体,包括BiLSTM-GRU和BiLSTM-CNN GAN,并得出结论,BiGridLSTM是最好的。
应用
数据扩展
当涉及到数据扩展时,GANs是很成熟的。推广的原因包括规模小、品种少、有偏见的数据集、复制有限的数据集进行推广等。
数据稀缺问题的一个明确的解决方案是转移学习,GAN增强的数据集在某些分类和识别任务中显示出进一步的改进。我们将在后面看到,GAN数据扩展也有隐私方面的优势。
在制药和医疗部门,这些优势开始在时间序列数据中得到利用。
音频和文本转语音是流行的领域;C-RNN-GAN是一个应用于音乐的例子。C-RNN-GAN也被应用于金融领域的预测和决策。C-RNN-GAN也被用于金融业的预测和决策,用于预测土壤温度和预测制药业的支出。
数据完成(估算)
缺失或损坏的数据是现实世界数据中常见的问题。传统上,缺失或损坏的列被删除,统计学模型,或通过机器学习进行补充,但Guo等人使用GAN来设计多变量时间序列的完成。
减少噪音
插在时间序列数据中的假象常常以信号中的噪声出现。这可能是后续处理和分析中的一个顽疾。损坏的数据会导致数据集的偏差,并降低关键系统的性能,如健康应用程序。常见的去除噪声的方法包括自适应线性滤波器;使用GAN的方法也在探索之中;NR-GAN对EEG数据的去噪与传统方法相比具有竞争力。
异常情况的检测
检测时间序列数据中的离群值和异常值在许多现实世界的系统和部门中都很重要。无论是对预示恶性症状的生理异常的检测,还是对股票价格中异常交易模式的检测,异常检测在提供重要信息方面都是不可或缺的。GAN已被应用于检测心电图、心血管疾病、出租车、网络物理系统中的恶意玩家、股票市场操纵等方面的异常情况。GANs已被应用于
其他
一个基于图像的GAN被用于处理时间序列。序列首先通过一个函数转换为图像,然后在图像上进行GAN训练。训练结束后,通过反变换得到序列数据。这种方法已被用于生成带有波形的音频,检测异常情况和生成生理时间序列数据。
评价指标
如上所述,对GANs的评估是困难的,研究人员还没有就最佳评估GANs性能的指标达成一致。大多数提议的指标是针对图像数据的。这些指标可以分为两类:定性和定量。这些都是定性和定量的。换句话说,定性是人类对外观的评估。然而,它缺乏客观性,不被认为是对GAN性能的全面评估。定量评价包括时间序列分析的统计指标和相似性措施,如PCC(皮尔逊相关系数)、PRD(百分比均方差)、MSE、RMSE(均方根误差)。RMSE(均方根误差)、MSE、MRE(平均相对误差)和MAE(平均绝对误差)。这些是最常用于时间序列的,因此也被用作GAN的性能测量。
已经建立了几个指数用于评估基于图像的GANs,对于顺序或时间序列的GANs也很普遍,如IS(Inception Score)、FD/FID(Frechet Inception Distance)和SSIM(Structure Similarity Index)。MMD(最大平均差异)是衡量两个概率分布的相似性/不相似性的方法,适用于各个领域。另一个被推广到顺序数据的措施是Wasserstein距离。
GAN产生的数据被用于下游的分类任务。TSTR(合成训练,真实测试)和(TRTS(真实训练,合成测试))被提议作为总体指标。精度、召回率和F1也被使用,将分类器的性能视为生成数据的质量。WA(加权准确率)和UAR(未加权平均召回率)也被使用。
最常用于时间序列数据的距离和相似性措施是ED(欧几里得距离)、DTW(动态时间扭曲)和MTDTW(多变量(内)依赖性DTW)。
其他包括金融学中的ACF(自相关函数)得分和DY指标;温度预测中的NS(Nash-Sutcliffe模型效率系数)、WI(Willmott协议指数)和LMI(Legates和McCabe指数);NSDR(归一化源-失真比)、SIR(源-界面比)、SAR(源-伪数比)和McCabe指数)用于温度预测,NSDR(归一化源-失真比)、SIR(源-界面比)、SAR(源-伪数比)和t-SNE用于语音。使用的参数如下
本综述中讨论的所有GANs的架构、应用、指标和数据集总结于表2。正弦波和心电图数据的各种GANs的结果见表3和表4。
隐私
有各种各样的方法用于评估和减少与GANs生成的数据相关的隐私风险。
差异化的隐私
差异化隐私是Dwork在2006年提出的一个概念。它试图通过确定添加该信息是否会增加隐私风险来保护数据库底部的隐私。由于GAN试图对训练数据进行建模,因此存在隐私问题,生成的样本会提取并产生关于训练数据群的有用信息,而没有可能将其与个人数据联系起来。GANs的使用方式如下
Abadi等人展示了训练具有差分隐私的DNN,Xie等人提出了DPGAN,它通过在训练过程中向优化器添加噪音梯度来实现差分隐私。Abadi等人展示了一个具有差异性隐私的DNN,Xie等人也展示了一个具有差异性隐私的DNN。
分散式/联盟式学习
分布式或分散式学习是另一种限制隐私风险的方法。机器学习的标准方法是将训练数据保存在一台服务器上;将分散/分布式方法应用于GANs需要有宽阔的带宽和收敛性;联合学习使之成为可能;应用于GANs的是FedGAN。
显然,差异化隐私和联合学习的结合是下一个研究领域。
隐私保护评估
生成模型保护我们隐私的能力可以通过一个被称为Attirbute和存在披露的测试来评估。后一种测试在机器学习中更多地被称为成员推理攻击。它是对一个机器学习模型是否对它所训练的个人的数据记录产生影响的定量评估。
Hayes等人将成员推理攻击应用于合成图像,并得出结论:为了达到可接受的隐私水平,必须牺牲生成数据的质量。相反,其他研究人员表明,DP网络遵循差分隐私,可以抵御成员推理攻击,并且不损害生成数据的质量。
最后
时间序列GANs已经被开发出来,以应对第一组挑战。在离散和连续系统方面都取得了进展。另一方面,GAN架构和相应的损失函数的范围很广,适合不同的应用。很难以统一的方式讨论它们。
因此,要比较和决定什么是最好的,这不是一个现实的情况。更重要的是,它在实际中是否有用?
个人观点
正如这篇评论的作者所总结的那样,似乎还需要进一步研究,以确定GAN生成的数据是否能够,例如,帮助我们更好地诊断病人。这不仅适用于GAN生成的数据,而且也适用于一般的时间序列数据。看起来相同的序列数据在某种情况下可能是正常的,而在另一种情况下可能是异常的。即使是单一系统的多变量数据也会产生不同的影响。为了使模型真正具有可操作性,它需要能够代表每条数据或多条数据对用户或病人的影响和价值。
与本文相关的类别