赶上最新的AI论文

通过自我监督和综合学习,最大限度地提高制造业模型的通用性。

通过自我监督和综合学习,最大限度地提高制造业模型的通用性。

联邦学习

三个要点
✔️ 智能工厂实现过程中面临的挑战包括数据标注、较少的负面示例数据和领域转移
✔️ 在具有领域适应性的过渡学习中,在巴洛双胞胎上训练的特征提取器可转移到具有不同过程参数(包括新故障)的运行环境
中。
✔️ 此外,在分布式学习中加入联邦学习(FL),可以学习新出现故障的通用表征。

Maximizing Model Generalization for Manufacturing with Self-Supervised Learning and Federated Learning
written by Matthew RussellPeng Wang
[Submitted on 27 Apr 2023 (v1), last revised 22 Sep 2023 (this version, v2)]
Comments: Accepted by arXiv
Subjects: 
  Machine Learning (cs.LG); Signal Processing (eess.SP)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

深度学习(DL)可以从原始状态监测数据中诊断故障和评估机器健康状况,而无需手动设计统计特征。然而,现有的深度学习方法在实际制造应用中仍然极具挑战性。

机器数据通常没有标签,而且只来自极少数健康状况(如仅正常运行数据)。此外,随着工艺参数的变化或新故障类别的出现,模型经常会遇到领域转移的问题。

传统的监督学习依赖于丰富的类别集来划分决策边界的特征空间,因此可能难以学习到紧凑的、可泛化到此类未知目标域的判别表征。具有领域适应性的迁移学习(TL)尝试将这些模型适应于未标记的目标领域,但假设存在类似的底层结构,而如果出现新的缺陷,这种结构可能就不存在了。

这项工作的重点是最大限度地提高源领域特征的通用性,并建议通过权重转移应用 TL,将模型复制到目标领域。具体来说,巴洛双胞胎自监督学习(SSL)通过关注数据的语义属性,有可能为健康监测生成比监督学习更具区分性的特征。此外,用于分布式学习的联合学习(FL)可通过在多台客户机之间共享信息来提高泛化能力,从而有效增加训练数据的有效规模和多样性。

结果表明,当原始训练数据只包含很少的不同类别时,巴洛双胞胎算法在出现运动障碍的无标签目标领域中的表现要优于监督学习算法。将 FL 纳入其中还能使健康状况知识在机器间传播,从而略胜一筹。

未来的研究应继续调查 SSL 和 FL 在这种现实制造场景中的性能。

介绍

在智能工厂中,机器故障的早期检测和诊断对于防止代价高昂的停机和维修非常重要。为实现这一目标,机器学习可发现大型数据集中的统计模式,并建立分类和回归模型,用于状态监测和故障诊断。深度学习(DL)使用多层神经网络从振动信号等原始数据中自动提取特征,这是传统人工设计特征的范式转变。然而,由于对模型适应不断变化的工厂环境的能力缺乏信心,制造商对使用这些工具犹豫不决。需要提高模型的泛化能力,以适应不断变化的工艺参数、新的运行条件和机器间的可变性,从而提高可靠性。

制造业早期的深度学习(DL)研究表明,在分析状态监测数据集方面,深度学习优于支持向量机(SVM)等传统方法。虽然在受控实验室数据集上取得了良好的结果,但在制造业中广泛采用深度学习还存在一些实际问题。与成像领域所需的大量和多种数据不同,故障诊断往往缺乏所需的大量和多种数据,特别是在跨数据集、操作条件和机器的概括方面。在实际的工业数据集中,问题在于故障案例很少,而且大多数都没有标签。此外,运行环境的动态性质意味着新类型的故障可能在没有预警的情况下发生,并被现有模型错误分类。要克服这些挑战并提高工厂车间中 DL 的可靠性,还需要进一步的研究。

迁移学习(TL)是一种缓解与模型泛化有关的问题的方法:迁移学习的目的是在数据或任务发生变化(例如由于新故障或过程参数变化)时重新使用现有模型这种变化会影响数据的统计属性,并可能导致模型偏离输入域,从而无法有效发挥作用;TL 涉及将模型从已标注的源域转移到未标注的目标域,但也可用于识别新的故障。如果目标域出现新的故障,源域转移模型的能力可能会受到限制。此外,目标域可能是未知的,或者在训练时可能没有数据(包括未标记的数据)。在这种情况下,TL 需要从可用数据中学习尽可能通用的表征。然后将该模型转移到目标领域,并根据可用的目标领域数据进行微调。这样,就可以为目标域建立一个模型,而无需假设与源域条件相同的关系。

监督学习依赖于有标签的数据,当训练条件有限或缺少标签时,监督学习可能不适合实际的状态监测。相比之下,自我监督学习(SSL)是一种将具有相似语义属性的特征分类到紧凑群组中的技术,并为模型提供了一种利用随机扩展学习类别内变化的方法。例如,通过将反转信号映射到与原始信号相同的特征,模型就能学会忽略反转;SSL 不需要标签,对于从未注明的原始工厂数据中学习以数据为中心的表征非常有用。

SSL 适用于引导状态监控模型,但机群之间的信息共享可进一步提高泛化能力。然而,由于带宽限制,机群很难将数据持续汇聚到云端。这就是联邦学习(FL)发挥作用的地方,因为它可以利用分布式数据来开发具有全局信息的模型。在这种方法中,每台客户机根据本地数据进行学习,并定期向服务器发送模型,而不是原始数据。来自服务器的全局模型会被分发到客户端机器上,并实现信息共享;FL 可以整合来自多个客户端的信息,并建立有效规模和多样性的数据集,而不会对通信网络造成压力。

状态监测文献缺乏对 SSL 和 FL 的连贯介绍,无法最大限度地提高模型的通用性。本研究概述了 SSL 和 FL 如何通过两种互补策略提高 DL 模型在工厂车间的通用性和可靠性:SSL 无需标注数据即可提取有用的表征,而 FL 则扩大了数据集的有效规模和多样性。以下是本研究的一些贡献。本研究的贡献包括

1. SSL 和制造领域的相关研究概述、

2. FL 和制造领域的相关研究概述、

结合 SSL 和 FL 以改进模型泛化的理论框架、

4. 使用电机故障数据集进行案例研究,以评估新故障和不断变化的工艺参数下的 SSL 和 FL。

理论背景和相关研究

监督学习和迁移学习

许多因素都会限制机器学习模型的适用性和稳健性。在制造业中,加工参数、操作环境和健康状况的变化会使输入数据的分布超出预期范围,从而对性能产生不利影响。迁移学习(TL)旨在通过将源领域中学习到的模型调整或重新使用到相关目标领域,从而避免在目标任务中需要大量标记数据。

・自我监督学习

一个典型的故障诊断模型可分为以权重 θ 为参数的特征提取主干和以权重 φ 为参数的分类头 Fφ,后者根据提取的特征预测 K 个类别(如故障)的概率。在给定标记数据的情况下,可通过随机梯度下降和反向传播,利用交叉熵损失(即成本)函数对模型参数进行优化:

通过优化权重来最大限度地提高分类准确性,可以让模型绘制 "决策边界",将不同类别的特征区分开来。然而,工艺参数和运行环境的变化会改变输入数据和 中特征的分布。这些新特征不再与分类器 Fϕ 学习到的决策边界相匹配,从而导致行为不确定或不一致。这就削弱了有监督分类器的泛化能力。

・通过领域适应过渡学习

迁移学习(TL)是解决域转移问题的一种方法。对于域适应,来自已知目标域的未标记数据可以规范有监督的学习过程,从而使 为分类器 Fϕ 生成稳定、匹配的源域和目标域特征分布。在学习过程中,将使用包含未标记目标域数据的更新损失函数:

其中 D(-, -) 是衡量源域特征 (Xs) 和目标域特征 (Xt) 之间分布差异的函数。由于特征提取器产生的源域和目标域特征分布一致,因此故障分类器 Fφ 更有可能对目标域进行准确预测。

D(-, -) 在制造业中的常见应用是最大平均差异 (MMD)。MMD 用于确保源特征和目标特征之间的相似性,并在不同负载和轴转速下的轴承和齿轮箱振动数据中进行了 TL 验证。灵活的内核实现允许 MMD 与多项式或考奇内核相结合,这在实验室故障数据集上得到了验证。在深度特征提取器中多层次应用 MMD 还能提高机车轴承故障诊断、轴承故障分类和定位中从实验室到实际转移的性能。

它将 D(-,-)中的损失项替换为另一个学习识别源特征和目标特征的神经网络 Dψ。通过训练特征提取器来扰乱域判别器 Dψ,特征提取器学会生成与源域和目标域数据相匹配的特征;DANN 使用一维 CNN 特征提取器来促进不同方位数据集之间的 TL。有趣的是,将 MMD 和 DANN 结合起来也能带来好处,并已在数据集之间的 TL 中得到证实。

・通过权重转移进行移动学习

当出现新的缺陷时,领域适应就会出现问题。特别是,如果目标领域包含新的故障,试图匹配源特征和目标特征可能会适得其反。此外,分类器也需要重新校准,以检测新的故障。因此,过渡学习(TL)已转向最大化源域特征表征的泛化,而不是域适应。这种表征具有足够的通用性,可以将网络权重转移到目标域,并区分新故障和已知故障。鉴于数据来自有标签的源域或无标签的目标域,TL 通过权重转移预先学习了对未来故障的判别表征。在图像处理方面,这允许重新使用在庞大的图像数据集上学习到的低级通用网络特征。这些特征可以为新类别的图像生成高区分度特征。从预先训练的权重开始,就有可能在医疗图像等数据匮乏的领域生成有用的特征表示,而无需从头开始训练可靠的图像分类器。

制造业的研究人员正在创造性地利用预先训练好的图像网络,将状态监测数据集转换成图像。即使高级任务不同,这些网络也能提取图像中有关线条和形状的有用低级信息。例如,当使用连续小波变换 (CWT) 将振动数据转换为二维图像时,这些预先训练好的图像网络可以在标记的制造数据有限的情况下为故障分类器的训练提供直接特征。它们还能在应用 MMD 等技术之前提供初始特征表示,从而加快领域适应。除预训练图像网络外,通过权重转移的 TL 已被证明可改进目标飞机发动机的降级预测,方法是在源发动机中训练降级模型,将权重转移到目标发动机,并在目标发动机的初始降级阶段对其进行微调。事实证明,这种方法可以改进对目标飞机发动机退化的预测。然而,由于缺乏预训练高度通用特征提取器所需的标记数据,在制造过程中通过权重转移进行 TL 通常比较困难。

自我监督学习

自我监督学习(SSL)使用无标签数据来训练特征提取网络,然后将其应用于后续任务。广义上讲,SSL 通过假设任务和基于不变性的方法对数据进行 "自我监督",从而学习输入示例的有用编码。在制造业,有标签的数据很少,而无标签的数据却很多,因此 SSL 具有变革潜力。通过这种方法,可以利用现有的大量未标记数据,对各种制造任务进行高效的特征提取。

・预习任务 SSL

预训练任务的自我监督学习(SSL)可使用自动生成的标签,根据相关问题训练模型。预学习任务的例子包括预测图像旋转、预测图像中斑块的相对位置或预测自然语言序列中的下一个单词(如 OpenAI 的 GPT-n 模型)。在制造和健康监测研究中,对这种方法进行了各种调整。一些研究将传统的无监督技术重新定义为 "自监督"。例如,使用核主成分分析(PCA)从正常数据中学习的嵌入被描述为 "自我监督",以帮助检测工业金属蚀刻过程中的故障。同样,一项研究将训练深度自动编码器作为轴承故障分类的 "自我监督 "辅助任务,洗衣机的异常检测也采用了类似的方法。另一项研究预测了增材制造中随机旋转的激光粉末床融合过程图像的方向,并将其描述为一项前提任务。然而,由于下游任务也是方位预测,这更类似于通过数据增强进行预训练,而这并非预训练的唯一目标。真正的预学习任务 SSL 是通过不依赖故障信息的独特预学习任务,从未标明的数据中提取特征。例如,模型可以通过预测未标记输入信号的统计属性(如均值、方差、偏斜度、峰度)来学习有用的特征。在另一项研究中,输入信号被随机扭曲,通过训练模型来识别扭曲。所有这三种方法都产生了诊断轴承故障的有用特征。因此,无需手动标记,预训练任务中的 SSL 就能为未来的健康监测任务建立模型。

・基于不变量的 SSL

基于不变性的 SSL 不使用前置任务,而是对数据集中的 "种子 "示例进行随机转换,创建属于同一 "伪类 "的示例系列。然后对特征提取网络进行训练,以均匀化来自伪类中所有扩展示例的特征。对比损失函数会促使每个伪类更加紧凑,并与其他伪类区分开来。通过这一过程,网络学会了忽略随机属性,而专注于对输入数据进行有语义意义的聚类(见图 1)。

 

图 1:SSL 技术试图将扩展特征移至同一伪类的成员中,同时增加它们与其他伪类的分离度。

与基于方差的 SSL 相反的方法是依靠其他伪类的丰富 "反面 "示例来确保聚类。例如,考虑 InfoNCE 损失函数:

其中,n 是包含正例 x+ 的批量大小,n - 1 是负例(即其他伪类),s(-, -) 是相似度指标。增加反面例子的数量会提高互信息度量 (sim-, -) 的下限。这有利于形成紧凑的特征集群。然而,由于批量大小的限制,要使用足够多的负面示例进行高效训练并非易事。Momentum Contrast 通过将多个批次的特征聚合在一起,增加了负面示例的数量。编码器通过对比损失进行学习,将当前批次与更大的负面示例特征组区分开来。Momentum 编码器通过运行平均值将之前的示例嵌入到潜在空间中,以确保之前多批负面示例的表示保持稳定。

在 Moment Contrast (MoCo) 的启发下,出现了一些概念上相关的发展。其中包括 "视觉表征对比学习的简单框架"(SimCLR)和 "引导你自己的潜意识"(BYOL),这两种方法在没有少量或负面示例的情况下都能很好地发挥作用。我们提出了 MoCo 风格的架构变革,其中 SimCLR 以 "投影头 "网络的形式做出了重要贡献,该网络可在应用对比度损失之前将特征映射到更大的维度空间中。陈旭和 K. He 的研究提出了一种更直接的方法,即简单连体表示学习(SimSiam)。SimSiam 是一种整合两个扩展特征投影的方法,同时学习如何整合其中一个投影的梯度,以防止编码器更新。这实际上意味着一个投影是固定的,而另一个投影则向这个锚点移动。即使没有大批量、丰富的负面示例或动量网络,这种方法也很有效。为了完全避免对比度损失的问题,Barlow Twins 使用了交叉相关损失,它可以抑制特征维度之间的冗余,同时学习伪类示例之间的相关特征(见图 2)。随后,方差-不方差-协方差正则化(VICReg)引入了一个稍微复杂的损失函数,作为对 Barlow Twins 的泛化。事实证明,这些方法对计算机视觉问题越来越有用。

图 2:Barlow Twins 通过在每个假设类别中执行既相互关联又相互独立的特征投影,来减少表征中的冗余。

制造业可以利用基于计算机视觉不变性的 SSL,首先将一维传感数据转换为二维图像。不带标签的 SimCLR 可使用旋转、裁剪和仿射变换等图像增强技术,从振动数据中找出旋转机械中可识别的故障特征。将数据转换为图像后,即可提取轴承故障特征。然而,将图像域技术应用于振动数据可能缺乏稳健且有物理意义的解释。因此,将基于不变性的 SSL 用于状态监测的一个重要步骤是为原始时间序列数据(如振动和电流)设计适当的随机强化。

・时间序列数据的增量设计

基于不变性的自监督学习(SSL)需要谨慎选择随机扩展。这是为了避免破坏重要的语义信息。例如,高级语义标签(如轴承内圈缺陷)不能简化为简单的特征分析(如归一化振动振幅 > 0.6)。揭示这种非直接相关性是使用深度学习(DL)的原因之一。在处理语义上重要的输入属性时,很难提取和处理它们。相反,如果一个属性很容易操作,那么它在语义上的重要性可能就会降低。为了使语义相关示例的表征同质化,有效的随机强化并不一定要很复杂。现有的基于图像的增强 SSL 研究支持这一理论,使用简单的转换,如平移、裁剪、翻转、旋转、对比度、模糊和色彩失真,就能获得最先进的结果。为一维时间序列数据设计类似的增强技术,可以释放基于不变性的 SSL 在原始传感信号方面的潜力。

图 3:通过随机化语义上无意义的属性,增强功能允许 SSL 通过剩余的语义上有意义的属性来识别伪类。

有几项研究探讨了时间序列数据的可能增强方法。时间序列数据具有时间相关性,为此,一些研究从振荡信号中生成了成对的连续示例,并创建了伪类,以应用于基于不变性的自监督学习(SSL)。这包括时间和振幅失真。

例如,在使用 MoCo 的研究中,高斯噪声、振幅缩放、拉伸、屏蔽和时间移动等强化手段被用于预学习特征提取器,以检测早期轴承故障;在使用 BYOL 的研究中,截断(连续区域在采用 BYOL 的研究中,截断(连续区域屏蔽)、低通滤波、高斯噪声、几何缩放和下采样被用于从未标明的原始振动数据中学习轴承故障诊断表征。其中,截断和降采样被证明是有效的。

使用 SimSiam 进行的研究使用了截断、低通滤波、高斯噪声和时间反转。另一项研究使用了电机状态数据集,利用随机时移、截断、缩放和垂直反转对多通道振荡和电流信号实施了巴洛孪生分析。研究表明,随机时移对于提取适合电机故障诊断任务的特征至关重要。

这些研究证明了基于不变性的一维信号 SSL 中有效的数据增强方法。

联合学习

Federated Learning(FL)通过FedAvg算法促进了对用户隐私数据进行预测性深度学习模型的分布式训练。为了维护用户隐私,网络训练在用户设备上进行,只有更新模型的权重和参数才会发送到云端。在 FedAvg 算法中,网络权重被发送到云端,而不发送客户端的数据,并被平均到一起以创建一个全局模型。这样,客户就可以共同训练一个更具通用性的模型,同时保留对其数据的私人控制。算法 1 概述了 FedAvg。

・用于状态监测和故障诊断的 FL

FL 对于制造业的优势在于,它可以在多个数据集上进行训练,而不会将敏感的工厂数据暴露给服务器。在这一隐私方面的激励下,FL 被提出用于从孤立的数据集建立故障诊断模型。在聚合全局模型时,验证性能较差的客户端模型会被忽略,从而提高了稳健性;FL 的点对点适应性带来了以下改进。

每个节点都进行局部学习,以检测风力涡轮机和轴承故障。还有一项针对轴承故障诊断的 FL 研究,提出了一种基于梯度树提升的垂直 FL 算法,以处理具有不同特征子集的客户。在剩余使用寿命(RUL)应用方面,基于模拟的涡扇飞机发动机退化数据,实施了 FL 协同学习变压器模型。

・FL 的多方和单方激励机制

除了隐私问题外,FL 还能为多个制造商联盟以及单个分布式制造商带来好处。快速成型制造业发现,与本地训练的客户模型相比,FL 能更好地改进缺陷图像的分割,改进后的性能促使制造商加入现有联盟,并促使这些联盟欢迎新客户。结果表明,FL 能促使他们欢迎新客户。另一项研究进一步证实,FL 能够在保持飞机制造商之间隐私的同时,提高模型性能,使其优于本地训练的模型。即使制造商拒绝与竞争对手联合,以避免模型中毒的可能性,FL 也能为单一制造实体拥有的分布式数据提供通信效率高的训练,而充分利用分布式传感所需的网络流量因此,FL 在减少分布式传感所需的网络流量方面具有显著优势。然而,无论是多方还是单方模式,FL 实现都必须处理客户之间的差异,同时最大限度地利用协作方法。

・异构客户端 FL

在实际应用中,客户端可能有不同的任务和数据分布,基本的 FedAvg 并不是每个成员的最佳选择,但从隐私保护的角度来看,却是可取的。通过用预先训练好的全局特征提取器初始化 FL 客户端,可以减少个性化下游任务所需的训练时间。不过,本案例研究仅对图像领域的任务进行了测试。同样,个性化 FL 方法可以在本地优化特征提取器和分类器,并惩罚本地分类器权重与全局优化权重之间的偏移。这样,客户端之间就可以共享信息,而无需固定权重等硬性约束。令人惊讶的是,实验证明,如果客户机观察到不同的故障,FL 可以在旋转机器客户机之间共享分类器信息,即使它们是不平衡的或非 i.i.d. 类。此外,还可以通过在每个客户机中注入噪声并创建虚假的伪类,在全局范围内调整不同模型的类。相反,如果客户端的输入分布差异很大,单一的全局模型也可能无法成功。在另一项研究中,我们选择对成员的梯度更新进行分组,并在每个分组内分别运行 FL。实验在基准数据和自定义轴承故障数据集上验证了这一算法。然而,这些对异构 FL 的研究未能解决每个客户端存在大量未标记数据的问题。此外,当观察到的类别数量非常有限时,依赖监督学习可能会阻碍所学表征的可区分性。

图 4:使用 FedAvg 的联合学习概述。

图 5: SSL 鼓励压缩和伪类分离,但监督表示依赖于决策边界。

最大限度提高模型通用性的方法建议

在大型、多样化数据集上进行监督学习可能会产生可通用的特征,但在有限的类别多样性上可能会遇到困难。监督学习通过分类器的决策边界形成特征空间,而不会明确鼓励紧凑的聚类(见图 5)。当训练类别有限时,模型几乎没有决策边界来划分特征空间。这会导致特征结构松散,增加未来故障特征与之前健康状况特征重叠的可能性。聚合分布式机器的数据可以改进集中式模型,但快速传感流可能会受到带宽限制。因此,建议的方法采用 SSL 来改进特征空间的结构,并采用 FL 来增加有效数据集的大小,而不会造成通信网络拥塞(见图 6)。这些技术的结合促进了以数据为中心的学习和信息共享,并最大限度地提高了状态监测模型对新运行条件和新故障的通用性。

图 6:从有监督或无监督的一维 CNN 特征提取主干网传输权重时,比较新出现故障的可识别性的拟议方法 联合学习可用于在多台客户机之间高效共享信息。

巴洛双胞胎

使用巴洛双子的 SSL 通过最大限度地提高同一伪类的特征投影之间的交叉相关性,而不是以有限的决策边界来组织特征,从而鼓励更紧密的聚类。用于从状态监测时间序列信号构建伪类的增强方法应随机化不重要的信号属性,同时保留语义类。算法 2 扩展了建议的增强方法,概述了巴洛孪生中用于创建伪类的随机变换。

巴洛孪生首先(根据算法 2)计算输入批次的两个扩展版本 X′和 X′′的投影及其相应的投影 Z′ = Hψ (Gθ (X′′))和 Z′′ = Hψ (Gθ (X′′))。然后对这两组投影在批次中进行归一化处理:

然后计算出交叉相关矩阵 R,并按批次大小进行归一化处理:

最后,使用 R 计算损失函数:

这里,λ 控制着独立性约束的强度。第一项鼓励对角线元素为 1。这意味着各个特征在整个批次中高度相关(对齐),并且在应用随机强化所定义的预期变化范围内的实例会映射到相似的特征投影上(即聚集在一起)。第二个项将非对角线元素设为零,这样每个特征都独立于其他特征。这可以确保多个特征不会编码相同的信息,从而提高表征性能。这种损失函数允许使用标准的随机梯度下降和反向传播方法来训练巴洛双胞胎特征提取器和投影头。图 7 显示了用于从状态监测数据中提取特征的一维 CNN 主干网 Gθ 和巴洛双胞胎投影头 Hψ 的结构。

图 7:一维 CNN 主干特征提取器 Gθ、有监督 K 类分类器 Fφ,a 和巴洛孪生投影头 Hψ 的结构。

信息共享的联合学习

大多数工厂车间都有几台类似的机器,每台机器在运行过程中都会经历不同的健康状况;来自单台机器的数据可能包含几种不同的状况,但由于网络限制,每台机器都要将所有传感数据流传输到云端、可能无法建立统一的数据集。机器本身可能不在同一地理位置,也可能属于不同的制造商,没有数据共享协议。为了克服这些障碍,可以在 FedAvg 中训练模型(见算法 1)。每台客户机保留对其数据的完全所有权,同时通过 FL 服务器上模型的平均值间接获得新健康状态的知识。客户端之间通过全局模型间接共享信息可以被视为一种 TL 形式。当每个客户端接收到更新的全局模型时,就会从其他客户端的观察和知识中获益。因此,如果一个客户缺乏关于某种健康状况的培训经验,而另一个客户却拥有关于这种健康状况的培训经验,那么 FL 算法就会将这种经验返回给不了解情况的客户(见图 8)。通过这种方式,FL 在客户机之间提供了一种 TL 优势,并可提高每个客户机对未来故障状况的概括能力。此外,客户端机器每轮只向 FL 服务器发送一次更新的模型,从而大大降低了发送到云端的数据量和速度。并能在使用无标签分布式学习数据的实际状态监控场景中运行。

图 8:每个客户都经历过不同的情况,通过平均模型权重,可将这些知识传播给其他客户,从而最大限度地提高数据集的多样性,并改善应对新故障的性能。

试验

我们进行了两项案例研究来验证所提出的主张。第一项研究比较了在不同类别中使用监督学习或自我监督学习(SSL)进行预训练后的表征泛化能力。这项研究评估了预训练模型在不同类别中的效果,并考察了是监督学习还是自监督学习能学习到更多可泛化的特征。

第二项研究调查了分布式训练 "联合学习"(FL)在新出现故障的情况下对模型性能的影响。这项研究探讨了 FL 如何整合在每台客户机上单独训练的模型,以及它在多大程度上提高了模型应对未知故障的性能。

这些案例研究具体比较了监督学习和自我监督学习、集中式训练方法和分散式训练方法的有效性,并展示了如何将这些方法应用于实际问题。

电机状态数据集

两个案例研究都使用了图 9 中从 Spec- traQuest 机械故障模拟器 (MFS) 收集的电机故障状态数据集。电流钳测量电流信号。在八种情况下收集 60 秒的稳态数据:正常 (N)、轴承故障 (FB)、转子弯曲 (BoR)、转子损坏 (BRR)、转子错位 (MR)、转子不平衡 (UR)、缺相 (PL) 和电机故障。

不平衡电压 (UV)。每个工况在 2000 RPM 和 3000 RPM 转速下运行,负载分别为 0.06 N-m 和 0.7 N-m,总共有 32 种不同的健康状况和工艺参数组合。为简单起见,每个独特的组合用 xy 标识,其中 x 为 2 或 3,表示转速参数,y 为 "H "或 "L",表示高负载或低负载参数(例如,3L 表示 3000 转/分钟,负载为 0.06 N-m)。然后将信号归一化为 [-1, 1],并划分为 256 点窗口用于 DL 实验。

图 9:用于收集电机健康状况数据集的 SpectraQuest 机械故障模拟器。

过渡学习实验

第一组实验检验了 SSL 是一种更有效的 TL 预训练方法的说法。实验设计反映了以下假设

1. 可从工艺参数源集中获得标记的训练数据

2. 可从目标工艺参数集获得未标记的训练数据

3. 预训练模型一旦部署,可能会遇到新的故障类型。

从这种情况中,可以得出三种比较方法:

- 监督(源):对标记的源域数据进行监督学习

- 巴洛双胞胎(源):对源领域数据进行自监督学习(忽略标签)。

- 巴洛双胞胎(目标):对无标签目标域数据进行自我监督学习。

这三种方法都使用相同的一维 CNN 特征提取骨干网 G,如图 7 所示。有监督网络在骨干网中添加了 K 级分类器 Fj,而 Barlow Twins 则添加了投影头 Hψ。然后,利用随机梯度下降法和反向传播法,根据 (1) 中的交叉熵损失对网络 Fϕ 和 进行优化。然后,巴洛孪生模型根据输入的批量强化 XJ 和 XJJ 生成投影 ZJ = Hψ (Gθ (XJ )) 和 ZJJ = Hψ (Gθ (XJJ )) (见算法 2),并根据 (5)-(7) 以 λ = 0.01 计算学习损失。使用亚当优化器和 0.0005 的学习率对监督和非监督模型进行 1000 次训练。

为评估每种方法的表征质量和通用性,按照评估 SSL 模型的惯例,将每个预训练网络的冻结特征与来自所有八个健康状态的标注目标域数据(评估数据集)进行访问,并使用特权线性评估分类器用于训练获取特权标记信息会阻止该分类器的实际训练和部署,但符合评估底层特征表征可分性的公认标准。评估分类器在冻结特征上训练 75 个历时,测试集的准确率用于确定表示的质量。

为了模拟新的未知故障的发生,源域和目标域训练数据集被限制为随机选择的两种、四种或六种健康状况。由于评估数据集包含所有八种情况,这相当于在预训练后分别遇到六个、四个或两个未知类别。

共进行了 450 次实验,三种比较方法各 150 次,以捕捉源/目标域选择、训练健康状况和模型初始化造成的变化。

表 1:迁移学习的健康状况集

联邦学习实验

FL 实验将确定在不连续的训练条件下,客户之间共享模型信息是否能提高识别未来将出现的故障的可能性。

为了评估这一点,两个客户端中的每一个都被分配了两个随机选择的电机健康状况。在每一轮 FL 中,FL 服务器都会为两个客户端提供带有随机权重的初始全局模型、客户端在两组独特的健康状况上训练其本地模型,并将更新后的模型返回给服务器。服务器对权重求平均值,并将新模型重新分配给客户端,为下一轮 FL 做准备(见算法 1)。

FL 实验运行 1000 轮,每轮每个客户端学习 20 个本地批次。在监督学习中,每个客户端使用(1)中的交叉熵损失更新权重;在巴罗孪生学习中,每个客户端使用(5)-(7)中的交叉相关损失更新权重。监督学习和巴洛孪生学习都使用与图 6 所示的 TL 相同的网络架构进行训练,使用亚当优化器,学习率为 0.0002。

四种模型配置(分别为有监督学习和巴洛孪生模型,有 FL 和无 FL)中的每一种都使用五个随机种子(0-4)进行训练,以测量随机初始化引起的变化。将测试五组独特的训练条件,以消除个人健康状况的影响(见表 2);将对四种方法、五种种子和五组条件的所有组合进行总共 100 次 FL 实验。

表 2:学习健康状况集

结果和讨论

结果表明,与监督学习相比,巴洛双胞胎产生的表征更具通用性和可迁移性,而 FL 的信息共享功能可进一步提高性能。

迁移学习的成果

表 3 和图 10 显示了对已标注源过程参数的监督学习、对未标注源过程参数的巴洛孪生学习和对未标注目标过程参数的巴洛孪生学习的比较结果。准确度是根据评估数据集的测试分区计算得出的,其中包括目标工艺参数下的所有八个条件。即使只有两种情况可用于训练,巴洛双胞胎也能生成可分离的表示,在所有八种健康状况下的准确率为 93.5%。在相同情况下,监督学习的准确率仅为 83.9%。图 11 显示了一个具有代表性的混淆矩阵,突出显示了 SSL 相对于监督学习的改进。例如,监督学习难以区分离轴(MR)和不平衡转子(UR)状态,而巴洛孪生系统则将这两种状态的准确率分别提高了 15 个百分点和 6 个百分点。此外,Barlow Twins 还可以利用无标签的目标域数据来进一步改进表示方法--表 3 中的 Barlow Twins(目标),但由于缺乏标签,监督学习无法使用这些数据。有趣的是,与巴洛双胞胎(源)相比,巴洛双胞胎(目标)没有明显的改进。这表明 SSL 能够从单个源集的过程参数中找到一般表示。随着训练中包含的条件数量的增加,监督学习和巴洛双胞胎之间的性能趋同可以用每种方法的优化目标来解释。监督学习试图沿着分类器的决策边界划分数据。这可以确保训练类别的可识别性,但不能保证特征群的紧凑性。因此,新的故障特征有可能与训练过程中看到的故障特征重叠。与此相反,巴洛孪生分类法鼓励相似的输入实例具有相关且紧密匹配的特征。这种对特征相似性的关注会产生密集的聚类,从而降低新故障特征与现有聚类重叠的可能性。随着训练条件数量的增加,监督学习所创建的额外决策边界自然会改善特征群的密集度,使其评估精度更接近巴洛双模。然而,由于与制造应用中可能出现的故障数量相比,类别的多样性有限,这些结果表明,在不确定的运行环境中,基于 SSL 的表示法普遍优于从监督学习中转移过来的表示法。

表 3:过渡学习的评估准确率结果(%): 1.

图 10:在所有八种电机工况下,权重转移法在训练域故障数量上的目标域精度。

图 11:具有代表性的混淆矩阵,显示在将模型转移到具有六种突发状况的新过程参数 (3L→2H) 时,使用巴洛孪生模型比监督学习更有优势

联合学习成果

表 4 和图 12 显示了联合学习(FL)的结果。在监督学习中,加入 FL 后,识别新出现故障的能力显著提高;在没有加入 FL 的情况下,客户端之间的整体评估准确率仅为 67.6%;引入 FL 后,健康状况信息通过 FedAvg 服务器间接共享,整体准确率提高到 73.7%。提高到 73.7%;由于在 FL 过程中,两个客户端共享一个全局模型,因此准确率几乎相同;在不使用 FL 的情况下,接受过监督学习训练的客户端在准确率上相差 6 个点;巴罗双胞胎的表现优于所有监督学习方法。方法表现更好。单独训练的客户端总体评分准确率为 82.4%;当 FL 和 Barlow Twins 结合使用时,性能提高到 83.7%,是所有方法中总体准确率最高的。与有监督的情况一样,FL 将客户端之间的准确率差距从 3.3 个百分点缩小到 0.1 个百分点。图 13 中的典型混淆矩阵显示,加入 FL 后,客户 1 的准确率有所提高。相位丢失 (PL) 的准确率从 90.5% 提高到 97.8%,转子错位 (MR) 的准确率从 63.9% 提高到 71.4%。这些结果表明,通过 FedAvg 服务器进行间接信息共享,可以在单个客户端看到有限数量的不同健康状态时,提高识别新出现故障的能力。通过整合在不同健康状态子集上训练的模型,FL 可以增加训练数据集的多样性,并提高所学特征的泛化能力。未来的研究应该在更多的数据集和健康状态子集上测试 SSL 和 FL,以全面评估 FL 在提高特征泛化方面的价值。

表 4:联盟学习的准确率结果(%): 1.

图 12:客户对所有健康状况评估的准确性

图 13:具有代表性的混淆矩阵,显示了在巴洛双胞胎客户 1 中加入 FL 的好处。客户 1 在{BoR, N}上接受训练,客户 2(未显示)在{BrR, FB}上接受训练。

结论

这项研究比较了通过自我监督学习(SSL)和监督学习方法训练的特征表征的泛化性能。在权重转移实验中,使用巴洛双胞胎训练的特征提取器在转移到具有不同过程参数(包括新故障)的运行环境中时,表现优于监督分类器。即使只使用两种健康状态进行训练,巴洛孪生从源域学习到的特征也能使评估分类器的准确率比在标注源域数据上通过监督训练学习到的表示法高出 9.6 个百分点。它使评估分类器的准确率提高了 9.6 个百分点。此外,多个 SSL 客户端模型可通过 FL 共享信息以提高性能,而无需将大量数据流传输到云端。因此,拥有大量未标记数据集且标记数据并不多样化的制造应用可以使用 SSL 和 FL 来学习新出现故障的通用表示法。在不同条件下检测新故障的能力得到提高后,模型与工厂车间的关联性就更强了,也提高了实际状态监测部署的可靠性。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们