时间-频率一致性（TF-C），是时间序列中先验学习与自我监督的对比学习的首次实现。

时间序列 29/06/2023

三个要点
✔️ NeurIPS 2022年接受的论文。在时间序列数据中，由于各种变化，学到的模型可能不能很好地应用。
✔️ 为了应对这些挑战，我们已经证明了基于TF-C的模型可以在不提供目标域的数据的情况下，通过在时间和频率空间分别进行自我监督的对比预训练而获得高准确度。
✔️ 微调可以适应各种后期任务，如聚类和异常检测。

Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
written by Xiang Zhang, Ziyuan Zhao, Theodoros Tsiligkaridis, Marinka Zitnik
[Submitted on on 17 Jun 2022 (v1), last revised 15 Oct 2022 (this version, v3)]
Comments: Accepted by NeurIPS 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述。

时间序列预训练有其自身的挑战，如时间动态的转变、快速演变的趋势、长周期和短周期的影响，以及预训练和目标域之间的潜在不匹配，这可能导致下游任务的不良表现。领域适应方法可以缓解这些转变，但大多数方法需要直接来自目标领域的例子，因此对于预训练来说并不理想。

为了解决这一挑战，需要解决具有不同时间动态的目标域，而且需要有一种方法来做到这一点，而不必在预习时看目标例子。

与其他领域的模式相比，在时间序列中，同一个例子的基于时间的和基于频率的表征在时间-频率空间中应该是紧密相连的。因此，时间-频率一致性（TF-C），即基于时间的邻域表征与基于频率的邻域表征嵌入得更近，是预训练所希望的。

在TF-C之后，作者定义了一个可分解的预训练模型，其中自我监督信号被表示为时间和频率分量之间的距离，每个分量都通过对比性估计单独训练。

与八种SOTA方法的比较实验表明，TF-C在一对一的情况下（如用EMG数据微调EEG预训练模型）平均比基线高出15.4%（F1得分），在一对多的情况下（如EEG预训练模型的手势识别或机器故障预测），在一对多的情况下（如用EMG数据微调EEG预训练模型），准确率比基线高8.4%，并在现实世界应用的广泛场景中提高性能。

介绍。

尽管表征学习极大地推动了时间序列分析的发展，但从根本上说，为时间序列数据学习可推广的表征仍然是困难的。在从表征生成中获得的许多优势中，预学习能力具有特别的实际重要性。预学习的核心是如何处理来自不同数据集的时间序列，以显著提高对来自不同数据集的新时间序列的概括能力。通过在一个数据集上训练神经网络模型，并将其转移到一个新的目标数据集上进行微调，即不明确地在该目标数据上重新训练，所产生的性能至少与针对目标数据集的最先进的模型一样好。预计这一点是可以实现的。

不幸的是，由于各种原因（如分布不一致，目标数据集的属性在预训练时未知等），预期的性能提升往往不能实现，而且由于时间序列的复杂性而变得更加困难。这种时间序列的复杂性限制了知识转移对预训练的作用。例如，在一个主要是低频成分（平滑趋势）的多样化时间序列数据集上预训练一个模型，可能不会导致在具有高频成分（瞬时事件）的下游任务中的良好迁移。考察这类任务可以提供线索，说明哪些归纳性偏差可以促进时间序列的可概括性表示。

此外，由于目标数据集不能用于预学习，预学习模型需要捕捉潜在的属性，这些属性对于以前没有见过的目标数据集是真实的。这个有问题的想法的核心是预学习和目标数据集共享的属性，使知识从预学习转移到微调。在计算机视觉（CV）中，预学习是由早期神经层捕捉普遍的视觉元素（如边缘和形状）的知识驱动的，而不考虑图像风格或任务。在自然语言处理（NLP）中，预先学习的基础是由不同语言之间共享的语义和语法的语言学原理提供的。然而，由于上述时间上的复杂性，这种用于时间序列预学习的原则还没有建立。此外，有监督的预训练需要获得大量的注释数据集，这限制了它在缺乏丰富的标记数据集的领域的使用。例如，在医学领域，对大型数据集进行标注通常是不可行的、昂贵的和有噪声的（例如，专家可能对真实的标注有异议，如心电图信号是表示正常还是异常的心律）。

因此，本文采用了一种自我监督的学习方法，不受缺乏标记数据集的限制。作者通过建立时频一致性模型（TF-C），引入了时间序列的自监督预训练策略，该策略规定，从同一时间序列样本中学习到的基于时间和基于频率的表征，在时频空间中应该比来自不同时间序列样本的表征更接近对方。与来自不同时间序列样本的表征相比，基于时间和频率的表征在时频空间上更接近。具体来说，时间空间的对比学习被用来生成基于时间的表征。同时，我们提出了一套新的基于频谱特征的强化器，通过对比性实例识别产生基于频率的嵌入。这是第一个开发基于频率的对比性增强器的研究，以利用丰富的频谱信息并探索时间序列中的时间-频率一致性。预学习的目的是利用一种新的一致性损失（图1(a)）使基于时间和基于频率的嵌入之间的距离最小化。这种自我监督的损失被用来优化预训练模型，加强潜空间中时间域和频率域的一致性。编码在模型参数中的学习关系被转移到初始化微调模型，并提高其在相关数据集上的性能（图1（b））。

图1 a. 时间-频率一致性（TF-C）的说明。时间序列样本_xTi的基于时间的嵌入_zTi和基于频率的嵌入^zFi_，以及从_xTi扩展学到的

和

，在潜在的时间-频率空间中应该是相互接近的。 b. 利用时间序列的TF-C属性来优化参数Θ的预训练模型F，该模型在小型特定场景数据集上对Φ进行微调。

问题的制定

从预训练数据集，给出一个无标签的时间序列样本，样本_xpreti有Kpret^通道和Lpret^时间戳。是微调。设是一个由标记的时间序列样本组成的微调数据集，每个样本有^Ktune通道和^Ltune时间戳。此外，每个样本_xtunei都有一个标签_yi∈{1,.C}。其中C是类的数量。表示输入的时间序列样本，，表示_xi的离散频谱。

问题（时间序列的自监督控制预训练）给定一个有N个样本的无标签预训练数据集^Dpret和一个有M个样本的目标数据集^Dtune（）。目标是^利用Dpret对模型F进行预训练，并对Dtune^的模型参数进行微调，以便微调后的模型对所有_xtunei产生一个可推广的表示。

^只有未标记的数据集Dpret可用于预训练，而小型标记的数据集^Dtune可用于微调。换句话说，模型F在无标签^的时间序列数据集Dpret上进行预训练，其优化的模型参数Θ^使用数据集Dtune从F(-, Θ)微调到F(-, Φ)，其中Φ代表微调后的模型参数。Φ代表微调后的模型参数。请注意，这个问题的设置（即^Dpret独立于目标数据集）与领域适应不同，因为在预训练期间没有访问微调数据集^Dtune。因此，预训练的模型可以在许多不同的微调数据集上使用，而不需要重新训练。

时间-频率一致性（TF-C）的原理一个核心概念是确定在不同时间序列数据集中保守的一般属性，并利用它们来指导过渡学习，以实现有效的先验学习。时域显示了传感器的读数是如何随时间变化的，而频域则显示了信号在整个频谱的每个频率分量中的存在程度。通过明确地考虑频域，就有可能理解时间序列的行为，而这些行为不能仅仅由时域直接捕获。然而，现有的对比方法只注重对时域的建模，而完全忽略了频域。可以说，这种方法对于高容量的方法来说是足够的，因为时域和频域是同一数据的不同视图，可以使用傅里叶和反傅里叶等变换进行相互转换。基于信号处理理论，这两个域之间的关系可以作为预训练的诱导偏差，因为它提供了有效的不变性，而不管时间序列分布如何。通过表征学习的视角来处理这种不变性，我们就提出了时频一致性（TF-C）TF-C属性，即对于所有样本_xi，同一样本的基于时间的表征，基于频率的表征，以及它们的局部扩展，在潜伏空间中是相互接近的假设存在一个潜在的时间-频率空间，从而。

表征上的时频一致性（TF-C）让_xi是一个时间序列，让F是一个满足TF-C的模型。那么基于时间的表征，基于频率的表征，以及_xi的局部扩展的表征，在潜在的时间-频率空间中是接近的。

作者的策略是使用数据集^Dpret来诱导F的模型参数Θ中的TF-C，并使用它来初始化^Dtune^上的目标模型，为下游的预测产生一个可通用的表示。TF-C的不变性意味着大的差异（如时间动态、语义等），这种方法意味着它可以弥合这些差异，并为时间序列的一般预学习提供一种手段。

为了实现TF-C，模型F有四个组成部分：一个时间编码器GT_，一个频率编码器GF_和两个横向空间投影仪RT_和_RF，分别将基于时间和基于频率的表示映射到同一时间-频率空间（图2）。这四个组件提供了一种将_xi嵌入潜在的时间-频率空间的方法，以便接近基于时间的嵌入和基于频率的嵌入。

图2 TF-C方法概述TF-C预训练模型F由四个部分组成：一个时间编码器GT_，一个频率编码器GF_和两个异空间投影器RT_和_RF。对于一个输入的时间序列xi，该模型生成一个基于时间的表示（即输入xi及其扩展版本

和

）和一个基于频率的表示（即输入xi_及其扩展版本

和

）。TF-C特性促进了潜在时间-频率空间中基于时间和频率的表示的对齐。这是通过提供一种前所未有的将F转移到目标数据集的手段来实现的。

建议的方法

接下来显示了所开发的自监督的对比性预学习模型F的结构。

基于时间的对比度编码器

对于一个给定的输入时间序列样本_xi，通过基于时间的扩展库，产生一个扩展集。每个元素，根据其时间特征从_xi扩展出来。在这里，基于时间的扩展库包括抖动、缩放、时间移动和相邻段，所有这些都是在对比学习中建立起来的。作者开发了一个扩展库，以产生各种扩展（而不是单一类型的扩展），并将模型暴露在复杂的时间动态中，以产生更强大的基于时间的嵌入。

对于输入_xi，随机选择扩展样本，并将其送��对比时间编码器GT，该编码器将样本映射到嵌入和。和。通过_GT后的的嵌入被假定为接近的嵌入，而远离和的嵌入，这是从另一个样本。

对比性时间损失为了最大限度地提高正数对内的相似性，最小化负数对内的相似性（和），我们采用了广泛用于对比性学习的NT-Xent（归一化温标交叉熵损失），作为距离函数d。基于时间的对比度编码器的损失函数定义如下：

其中 sim(u, v) = uT v/ ‖u‖ ‖v‖ 是余弦相似度，是一个指标函数，当 i = j 时为 0，否则为 1，τ 是一个时间参数的比例。^xj∈Dpret指不同的时间序列样本或其扩展样本。这个损失函数提示时间编码器_GT对正数对产生更接近的基于时间的嵌入，对负数对挤压嵌入，使之远离对方。

基于频率的对比度编码器

通过变换算子（如傅里叶变换）从时间序列样本，生成频谱。尽管时间序列的频率信息是普遍存在的，并且在经典的信号处理中起着重要的作用，但在时间序列自监督的对比表征学习中，它还没有得到很好的研究。在这里，我们开发了一种扩展方法，根据频谱的特征来扰动，并展示了如何生成基于频率的表示。

由于频谱的所有频率成分都表现出具有相应频率和振幅的基础函数（如傅里叶变换的正弦函数），因此通过添加或删除频率成分对频谱进行扰动。频域中的微小扰动会导致时域中的时间模式发生重大变化。为了确保被扰动的时间序列与原始样本相似（在频域以及时域；图6），一个小量的E被用于扰动（E代表要操作的频率成分的数量）。在去除频率成分时，随机选择E个频率成分，并将其振幅设置为零。在添加频率成分时，从振幅小于α_Am的频率成分中随机选择E个频率成分，并将其振幅设置为α_Am，其中_Am是频谱的最大振幅，α是预先设定的系数，用于调整被扰动频率成分的尺度（本文中α=0.5）。通过频率扩展库，产生一个扩展集到。如上所述，^BF有两种扩展方法（即去除或增加频率成分），。

频率编码器_GF用于将频谱映射到基于频率的嵌入。频率编码器_GF应能为原始频谱和稍有干扰的频谱学习类似的嵌入。因此，让正数对为，负数对为和。

对比性的频率损失

样品_xi的基于频率的对比度损失计算如下：

初步实验表明，τ的值对性能影响不大，所有实验中都使用相同的τ；LF_,i产生的频率编码器_GF产生的嵌入对频谱扰动不变。

时间-频率的一致性

为了鼓励学到的嵌入满足TF-C，我们开发了一个一致性损失项目LC_,i：对于一个给定的样本，其基于时间和基于频率的嵌入（以及它们的局部邻域）被认为是相互接近的。为了确保嵌入之间的距离是可测量的，我们_通过投影仪RT_和_RF分别将从时间空间和从频率空间映射到联合时间-频率空间。具体来说，对于每个输入样本_xi，我们有四个嵌入：,。前两个嵌入是在时间特性的基础上产生的，而后两个嵌入是在频谱特性的基础上产生的。

为了根据TF-C执行时间-频率空间嵌入，我们设计了一个一致性损失LC_,i，用来衡量基于时间和基于频率的嵌入之间的距离。这里，被用来表示和之间的距离。同样地，我们定义。

接下来，让我们仔细看看和与三个嵌入。在这里，和从原始样本（和）学习，而从扩展的学习。因此，直观地讲，与相比，应该更接近于。这种相对关系促使提议的模型学习比小的。受三倍损失的启发，作者将，作为一致性损失LC_,i的一个术语，其中δ是一个给定的常数保证金，以保持负样本的距离。这个术语优化了模型，使小，相对大。同样地，应该比和小。总之，样本_xi的一致性损失LC_,i计算如下：

其中_Spairi 是基于时间和基于频率的嵌入之间的距离。在每一对中，至少有一个嵌入是由增强的样本而不是原始样本导出的。 δ是一个预先定义的常数。通过结合所有的三联体损失条目，_LC鼓励预训练模型在模型优化中捕捉基于时间和基于频率的嵌入之间的一致性。注意，方程3没有明确测量不同时间序列样本之间的损失，但样本之间的关系隐含在_STFi和_Spairi的计算中。

实施和技术细节

预学习中的整体损失函数有三个项。首先，基于时间的损失_LT促使模型学习一个对时间扩张不变的嵌入。第二，基于频率的对比损失_LF提示模型学习一个对基于频谱扩展的嵌入不变量。第三，一致性损失_LC引导模型保持基于时间和基于频率的嵌入之间的一致性。总之，先前学习的损失被定义为：：

这里，λ控制了对比性和一致性损失的相对重要性。总损失的计算方法是将所有研究前样本的_LTF-C,i相加。在实施过程中，对比性损失是分批计算的。从问题定义来看，要训练的模型F是神经网络GT_、RT_、GF_和_RF的组合。一旦预训练完成，整个模型的参数被存储起来，并表示为F(-, Θ)（其中Θ代表所有可以训练的参数）。当呈现一个样本_xtunei时，微调模型F通过串联产生一个嵌入的_ztunei，如下所示：

其中Φ是微调模型的一个参数。

实验

开发的TF-C模型在8个不同的数据集中与10个基线进行了比较。时间序列分类任务在一对一和一对多的转移学习设置的背景下被调查。TF-C还在下游任务中进行了评估，如聚类和异常检测。

数据集 （1）SLEEPEEG有371,055张单变量脑电图（EEG；100Hz），收集自197人。每个样本都与五个睡眠阶段中的一个相关。(2) EPILEPSY用一个单通道EEG传感器（174赫兹）监测了500名受试者的大脑活动。它使用一个二进制值来确定受试者是否有癫痫病。(3) FD-A收集机械系统中滚动轴承的振动信号，用于故障检测。每个样本有5,120个时间戳和三个机械系统状态之一的指标。(4) FD-B的设置与FD-A相同，但滚动轴承在不同的工作条件下运行（例如，不同的旋转速度）。(5) HAR有来自六个日常活动的10,299个9D样本。(6) GESTURE包括从八个用加速度计记录的手势中收集的440个样本。(7) ECG包含8,528个单传感器ECG记录，根据人体生理学分为四类。(8) 肌电图包括163个肌电图样本，有三个提示肌肉疾病的类别标签。

基线考虑了十种基线方法。其中包括八种最先进的方法：TS-SD、TS2vec、CLOCS、Mixing-up、TS-TCC、SimCLR、TNC和CPC。

实施两个3层的一维ResNets被用作编码器_GT和_GF的骨干。数据集包含长的时间序列（FD-A和FD-B样本的5120个观测值），初步实验证实ResNet是比Transformer变体更好的选择。两个全连接层用于RT_和_RF，没有共享参数。E=1和α=0.5用于频率扩展，τ=0.2，δ=1和λ=0.5用于损失函数。

结果 1:1培训前评估

设置在一对一的评估中，模型在一个预训练数据集上进行预训练，只在一个目标数据集上用于微调。

场景1（SLEEPEEG → EPILEPSY）：用SLEEPEEG进行预训练，用EPILEPSY进行微调。这两个数据集都描述了单通道脑电图，但信号来自头皮的不同通道/位置，跟踪不同的生理学（睡眠和癫痫），并从不同的病人身上收集。

情景2（FD-A→FD-B）：数据集描述了一个在不同工作条件下运行的机械装置，如旋转速度、负载扭矩和径向力。

场景3（HAR → GESTURE）：在数据集中记录了不同的活动（6个日常人类活动与8个手势）。两个数据集都包含加速度信号，但HAR有9个通道，GESTURE有1个通道。

情景4（ECG到EMG）：两者都是生理数据集，但ECG记录的是来自心脏的电信号，而EMG测量的是神经刺激肌肉时的肌肉反应。

在上述四种情况下，预训练和微调数据集之间的差异非常大，涵盖了时间序列数据集的各种变化（指、采样频率、时间序列长度、类的数量、系统因素（如设备和主体数量））。它可用于微调。此外，可用于微调的样本数量相对较少（EPILEPSY：60，FD-B：60，GESTURE：480，EMG：122），因此难以设置。

结果四个场景的结果在表1和4-6中列出。总的来说，TF-C模型在24个测试中的16个测试中获胜（四个场景的六个指标），仅在其他八个测试中表现第二好。所有的指标都有报告，但下面我们讨论F1得分。平均而言，我们的TF-C模型在所有的基线中产生了15.4%的大差值。虽然最强的基线各不相同（例如场景2中的TS-TCC，场景3中的Mixing-up），但在所有场景中，TS-C模型比最强的基线要好1.5%。具体来说，如表1所示（HAR to GESTURE，场景3），TF-C在F1得分上取得了79.91%的最佳表现，比最佳基线TS-TCC（74.57%）有7.2%的优势。一个可能的原因是，情景3包含复杂的数据集（HAR的6个类和GESTURE的8个类），很难建模。所有模型的性能（±80%）与其他场景的性能（±90%）相比都很差，这进一步验证了场景3的复杂性。

表1一对一预学习评估（情景3）在HAR中进行预学习，然后在GESTURE中进行微调。

表4一对一环境下的表现（情景1）：用SLEEPEEG进行预学习，用EPILEPSY进行微调。

表5一对一环境下的性能（情景2）：FD-A的预学习和FD-B的微调。

表6一对一设置中的性能（情景4）：心电图的预学习，肌电图的微调

结果一对多的预训练评估

设置一对多评估包括在一个数据集上进行预训练，然后在多个目标数据集上独立进行微调，无需从头开始预训练。而且是最大的数据集（371,055个样本）。因此，我们对SLEEPEEG进行预训练，并分别对EPILEPSY、FD-B、GESTURE和EMG的预训练模型进行微调。

结果结果见表2。由于脑电信号与振动和加速度与肌电图的共性较低，预计转移学习的效果会比一对一评估的效果差。在最下面的三个区块（SLEEPEEG → {FD-B,G ESTURE,E MG}），预研究和微调数据集非常不同。虽然较大的差距自然会导致较低的基线性能，但TF-C模型显示出对具有较大差距的数据集之间的知识转移有明显的改善。值得注意的是，在18个设置中的14个设置中，所提出的带有TF-C的模型在三个具有挑战性的设置中获得了最佳性能。这表明TF-C假设在时间序列中是通用的。在没有类似于微调数据集的大型预训练数据集的情况下，该模型有很大的潜力作为一个通用模型。此外，TF-C一直优于KNN和Random Init.（无预训练）。

表2一对多的预学习评估用SLEEPEEG进行预学习，然后用EPILEPSY、FD-B、GESTURE和EMG进行独立微调一对多的预学习评估；用SLEEPEEG进行预学习，然后用EPILEPSY、FD-B、在GESTURE和EMG中进行独立微调。

零散的研究

为了评估模型组件与有效预训练的相关程度。如表9所示（SLEEPEEG → EPILEPSY），我们发现当LC_、LT_和_LF被移除时，会出现性能下降（准确性）。为了验证性能的提高不仅仅是由于第三个损失项测量任何一致性，一致性损失_LC被测量时间空间的一致性（_LTT-C）或频率空间的一致性（_LFF-C）的损失项所取代。结果，TF-C模型的一致性损失超过了_LTT-C和_LFF-C。

表9：分割评估（SLEEPEEG→EPILEPSY）。

额外的下游任务：聚类和异常检测

聚类任务SLEEPEEG → EPILEPSY被作为一个例子来评估TF-C的聚类性能。具体来说，由于癫痫病有两个类，所以在微调时在_ztunei的基础上增加了K-means（K=2）。采用了常用的评价指标：剪影分数、调整后的兰特指数（ARI）和归一化互信息（NMI）。表7显示，TF-C实现的聚类远远高于最强的基线（TS-TCC）（剪影分数为5.4%）。这表明，由于从先前的学习中获得的知识，TF-C能够捕获更多独特的表征，这与TF-C在上述分类任务中的优势是一致的。

表7下游聚类的性能在SLEEPEEG数据集上进行预训练，然后在EPILEPSY中进行独立微调。性能最好的基线（即TS-TCC），与包括两个新模型（TNC和CPC）在内的五个基线进行比较。

异常检测任务本节评估了TF-C在样本级异常检测任务中的表现。需要注意的是，我们正在研究样本级异常检测，而不是观察级异常检测。基于全局模式，前者旨在检测异常的时间序列样本，而不是样本内的异常观察（如BTSF和USAD），后者侧重于局部环境。具体来说，在FD-A到FD-B的方案中，FD-B的一个小子集由1,000个样本构成，其中900个来自未损坏的轴承，其余100个来自有内部或外部损坏的轴承。未损坏的样本被认为是 "正常 "的，内/外损坏的样本被认为是 "离群 "的。为了进行微调，在训练好的表征_ztunei的基础上，使用了一个单类SVM。实验结果（表8）显示，拟议的TF-C在F-1得分方面比五个竞争基线高出4.5%。这一结果表明，拟议的TF-C对异常样本更加敏感，可以有效地检测机械设备的异常情况。

表8：分割评估（SLEEPEEG→EPILEPSY）。

摘要

在这项研究中，开发了一种引入时频一致性（TF-C）的预学习方法，作为支持时间序列数据集之间知识转移的机制。该方法使用自监督的对比性估计，通过在预学习中引入TF-C，使基于时间和基于频率的表征及其在潜在空间中的局部邻域更加接近。

局限性和未来方向 TF-C属性是对不同时间序列数据集进行预训练的一个通用属性。其他可推广的属性，如时间自回归过程，也可能对时间序列的预训练有用。此外，虽然该方法假设有规律的采样时间序列作为输入，但不规则采样的时间序列也可以通过使用可以嵌入不规则时间序列的编码器（如Raindrop或SeFT）来处理。对于频率编码器的输入，有几种方法可以通过重采样或插值，或使用规则或不规则的FFT操作来获得规则采样的信号。此外，TF-C嵌入策略和损失函数有利于利用全局信息的分类，而不是利用局部背景的任务（如预测）。结果表明，TF-C方法在广泛的下游任务中表现良好，如分类、聚类和异常检测。

与本文相关的类别

友安昌幸 (Masayuki Tomoyasu): JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定日本创新融合学会 DX检定专家联合公司Amico咨询 CEO

赶上最新的AI论文

时间-频率一致性（TF-C），是时间序列中先验学习与自我监督的对比学习的首次实现。

概述。

介绍。

相关研究

问题的制定