赶上最新的AI论文

对抗性领域适应,解决缺乏标注训练数据的问题。

领域适应

三个要点
✔️ 一种新颖的对抗性域适应方法,当源域与目标域的特征不同时,支持异构适应
✔️ 将域适应方法与基于自动编码器的数据增强方法相结合,用于目标数据集解决了
✔️ 中的不平衡问题 当目标数据集中的标记样本数量明显偏低且目标数据集不平衡时,与其他算法相比表现出更优越的性能

Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation
written by Adrian Shuai LiElisa BertinoRih-Teng WuTing-Yan Wu
[Submitted on 31 May 2023]
Comments: Published on arxiv.
Subjects: 
Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

论文以图像数据为主题,预测了半导体制造过程中的晶片缺陷。业内专业人士可能会对这篇论文感兴趣,其他读者也可能会对这篇关于支持信息技术(包括人工智能)的半导体设备制造过程的论文感兴趣。

深度学习(DL)技术对图像缺陷检测非常有效。然而,训练深度学习分类模型需要大量标注数据,而收集这些数据的成本往往很高。在许多情况下,可用的训练数据不仅有限,而且可能不平衡。在本文中,我们提出了一种新颖的领域适应(DA)方法,通过转移从用于类似学习任务的现有源数据集中获得的知识,来解决目标学习任务缺乏标记训练数据的问题。这种方法对于源数据集和目标学习任务可用的数据集具有相同或不同特征空间的情况都很有效。将作者的 DA 方法与基于自动编码器的数据增强方法相结合,可以解决目标数据集不平衡的问题。作者利用晶圆缺陷预测的图像数据对他们的组合方法进行了评估。实验结果表明,当目标数据集中的标记样本数量明显较少且目标数据集不平衡时,该方法的性能优于其他算法。

介绍

缺陷检测是一项重要的生产工艺,但往往需要耗费大量人力和时间。例如,在半导体晶片生产中,晶片表面的显微图像必须由操作员扫描和人工检查,以发现缺陷。另一个例子是分析食品工业所用溶液中的晶体尺寸分布,这需要操作人员使用显微镜手动完成。因此,机器学习 (ML) 技术能够高效地分析图像、声音和振动等不同类型的数据,因此被广泛应用于机器故障诊断、制造设备寿命预测、产品故障识别和提高传感器故障的鲁棒性等许多领域,也就不足为奇了。毫不奇怪,这些产品的使用已被广泛视为制造业产品开发流程的重要组成部分。

然而,使用基于 ML 的解决方案的一个要求是要有足够数量的训练数据集,这一点在使用复杂的 ML 模型(如 Shao 等人讨论的深度学习 (DL) 模型)时尤为重要。原因在于这些模型有大量的层,需要大量的训练数据集。解决这些问题的一个有前途的方法是使用迁移学习(TL)技术。迁移学习允许以预训练模型或训练数据的形式,将知识从一个领域(称为源领域)迁移到另一个相关但不同的领域(称为目标领域),而在这些领域中,训练数据是稀缺的。相关领域的例子包括不同年龄组的脑核磁共振成像图像、夏季和冬季的照片、使用不同滤色镜拍摄的照片等。还需要注意的是,训练数据的质量可能较差,尤其是在收集过程不精确或困难的情况下,例如缺乏标签或类别分布不平衡。

为了解决数据稀缺的问题,传统的基于 TL 的方法通常利用预训练模型,并使用目标领域的有限训练样本来微调可训练参数。然而,由于这些预先训练好的模型通常是从庞大的数据集(如 ImageNet)中学习推理的,因此模型中包含了许多对目标推理任务毫无益处的冗余特征和不相关的潜在空间。此外,还需要人工确定哪些层是可训练的。另一方面,对抗性域适应(DA)旨在利用具有相同标签集的源域训练样本来学习目标任务。为了适应领域转移,DA 使用神经网络为来自不同领域的数据创建与领域无关的表征。如果独立于领域的表征能有效地对源领域中的对象进行分类,那么它就能识别目标领域中的相同对象。然而,假设目标域数据集是平衡的(目标也有有限的标签),这是许多 DA 方法的共同局限。现实世界的数据集通常具有不平衡的类分布,这会对 DA 模型的性能产生不利影响。

为解决类不平衡问题,常用的方法包括图像扭曲、加权损失函数以及分别对少数类和多数类的训练数据进行超采样和欠采样。不过,这些方法的有效性在很大程度上取决于数据集的性质和当前的学习任务。其他方法利用生成模型,如生成对抗网络(GAN)、自动编码器(AE)和扩散模型(Diffusion Model)来生成用于数据增强的合成图像。还有生成模型与判别模型不同,可以生成真实的数据样本,预计在未来几年将对许多应用领域产生重大影响。与真实世界的数据相比,合成数据通常更容易获得,成本也更低。然而,由这些模型生成的合成数据存在的一个主要问题是,使用合成数据集构建的系统在现实世界中部署时往往会失败。这是由于合成数据和真实数据之间的分布错位造成的,即所谓的模拟到真实问题。

本文介绍了一种解决这些缺陷的管道。该管道结合了(A)基于自动编码器的方法和(B)基于对抗性诊断的新型 TL 域架构,前者可以通过使用高斯噪声和编码器学习的潜空间生成一小类合成数据来增强目标数据,后者则可以解决训练数据缺乏和合成数据移动的问题。(b) 结合了基于对抗性数据分析的新型 TL 域架构,解决了训练数据缺乏和合成数据移动的问题。基于自动编码器的方法可确保为 DA 增强的目标数据具有均衡的类别分布。为了提高对真实目标数据的泛化能力,我们使用源数据和扩展目标数据应用了所提出的 DA 方法。本文的主要贡献如下

1) 解决小型和不平衡数据集问题的 DL 流水线
2) 一种基于对抗性 DA 的新方法,用于适应异构源数据集和目标数据集(例如具有不同特征空间的源数据和目标数据)
3) 一种常用DL 流水线。使用常用的晶圆制造数据集对所提出的管道进行广泛评估,并与其他方法进行比较。结果表明,与单独使用两种方法相比,结合使用两种方法能提供更好的性能。

通过数据扩增实现敌域适应

本文中的管道包括两个步骤。第一步,使用基于自动编码器的方法来强化目标数据集中的不平衡类别。源数据集假定是平衡的。第二步是生成一个分类模型来预测目标数据集中的类别。该分类模型使用与领域无关的潜在空间作为输入,该潜在空间是从源数据集和经增强的目标数据集中使用作者的对抗性数据分析方法学习而来的。

A. 使用自动编码器进行数据扩增

自动编码器是一个经过训练的神经网络,用于重建输入。它由两部分组成:编码器 enc(为输入 x 生成压缩潜空间 h = enc(x))和解码器 dec(生成重构 $ \hat{x} $ = dec(h))。其目的是最小化

自动编码器可以使用迷你批次梯度下降法进行训练。在每个批次中,自动编码器都会收到一些数据,通过层层反向传播误差并调整网络权重。虽然自动编码器可以从数据中提取有用的信息,但它也可能作弊,将输入复制到输出,而不学习数据的任何有用属性。防止复制任务的一种方法是使用不完整的自动编码器,即潜在空间的维度小于输入。当维度较小时,自动编码器会被迫学习数据中最重要的属性。

要使用不完全自动编码器生成合成数据,首先要使用 (1) 中的损失函数用目标数据训练自动编码器。然后,算法将源数据作为训练好的自动编码器的输入,并将源数据映射为压缩表示。算法不是将生成的表示传递给解码器,而是在表示中加入从标准高斯分布中抽取的随机噪声,并将其传递给解码器以生成新的合成数据。新数据被标记为与原始数据相同的类别。为了获得平衡的训练数据集,该算法会针对样本较少的类别重复多次。最后,将上述步骤中生成的原始数据和合成数据合并,得到扩展目标数据。扩展数据将用于下文所述的 DA 算法。

B. 敌对域适应

・1) 网络、输入和输出

本文的结构由五个神经网络组成(见图 1)。

1) GS 是一个私人来源生成器

2) GT 是目标的私人生成器

3) G 代表共享发电机

4) D 是判别器

5) C 是分类器

请注意,为简化起见,神经网络的名称包括网络结构及其所有权重。

图 1:拟议的 DA 算法示意图。

源数据由 (xs, ys, ds) 表示,其中 xs 是源数据样本,ys 是标签,ds 是源的域 ID(例如,对于任何源样本 $ x^s_i $,$ d^s_i $= 0)。同样,目标数据由 (xt, yt, dt) 给出,其中 xt 是目标数据样本,yt 是标签,dt 是目标的域 ID(例如,对于任何目标样本 $ x^t_i $,$ d^t_i $= 1)。此外,Ns 是源域的样本数,Nt 是目标域的样本总数,其中 NsNt

xsxt分别是私有生成器 GSGT的输入;由于 GSGT是不同的网络,输入 xs xt可以有不同的维度。共享生成器 G 从 GS GT的输出中学习一个独立于领域的表示(DI)。因此,私有生成器必须具有相同形状的输出向量。相应网络的 DI 输出为

然后,DI 被用作网络 D 和 C 的输入。两个网络的输出分别是判别器 D 的 $ \hat{d} $ 和分类器 C 的 $ \hat{y} $。

・2) 损失功能和培训

分类损失由以下等式定义,用于衡量两个领域中标签预测的误差(考虑到源数据中的充足标签数据和目标数据中的有限标签数据)。

其中,$ y^s_i $ 和 $ y^t_i $ 分别是源输入 $ x^s_i $ 和目标输入 $ x^t_i $ 的单次编码。$ \hat{y}^s_i $ 和 $ \hat{y}^t_i $ 是 C 中的 softmax 输出,λ 是目标数据点损失值的惩罚系数。一个好的分类器应该能预测出源数据点和目标数据点的正确标签。

di是数据 xi的域标识(di∈ {0,1}),$ \hat{d}_i $ 是判别器 D 的输出。判别器的目的是减少域分类误差,因此它能使 Ld最小化。

生成器的损耗是域真实标签反转后的 (5) 的损耗;通过最小化 Lg,生成器以敌对的方式进行训练,从而最大化鉴别器的损耗。

成功的 DA 的关键在于跨领域学习可预测的、与领域无关的特征。无论输入数据来自哪个领域,与领域无关的丰富表征都必须包含足够的信息,以便进行有效分类。为了实现领域不变性,需要对判别器和多个生成器进行对抗训练;为了确保判别器具有预测信息,还需要对生成器进行训练,以尽量减少分类损失。下文将详细介绍训练算法。

GSGT和 G 的训练包括优化 Lg Lc,因为我们希望领域分类准确率最小,标签分类准确率最大。判别器使用 Ld进行训练,以获得最高的领域分类准确率。分类器用 Lc训练。作者的训练算法采用迷你批次梯度下降法。这种方法选择数量相等的源样本和目标样本,计算输出和损失函数,并以与梯度向量相反的方向调整权重。重复同样的过程,直到损失函数不再下降。更具体地说,在创建固定大小的迷你批次后,会执行以下步骤生成器更新权重,以最小化生成器和分类损失,如公式 7-9 所示。分类器更新权重,使分类损失最小,如公式 11 所示。在这一步中,判别器的权重保持不变。然后,判别器根据等式 10 更新权重,以尽量减少判别损失。

其中,μ 是学习率。超参数 β 和 γ 是损失函数的相对权重。

试验

该流水线应用于晶圆缺陷预测。晶圆检测是半导体制造中的一个关键步骤,它可以评估晶圆中的裸片并过滤掉有缺陷的裸片。以前的研究使用机器学习(ML)方法来加快预测过程。然而,正如作者的实验所显示的,现实世界的晶片数据质量不高,例如缺乏标签和类分布不平衡,使得大多数 ML 方法不适用。实验还将结果与现有算法(如基于微调和基于 DL 的方法)进行了比较。

A. 晶圆数据集

・1) 源数据集

MixedWM381 数据集被用作源数据集;MixedWM38 包含 1 个正常模式、8 个单一缺陷模式和 29 个混合缺陷模式,每个类别中约有 1000 个样本。这些晶片图是在晶片制造厂获得的。混合 WM38 没有缺失标签,数据大小恒定。训练数据集也是平衡的。

・2) 目标数据集

目标 WM-811K 数据集 2 WM-811K 数据集包括从 46293 个批次中收集的 811457 个晶片图。该数据集包含 8 个单一缺陷模式和 1 个正常类,这些也包含在 MixedWM38 中。然而,WM-811K 数据集有三个制造业数据集中常见的问题。第一个问题是该数据集中存在大量未标记的样本:在九个晶圆图中,只有约 20% 是可用于训练的标记晶圆图。其次,贴有标签的晶片图大小不一。最后,数据集非常不平衡。

为了解决前两个问题,我们删除了未标记的晶片图,并从剩余数据中选择了尺寸为 26 x 26 的晶片图。之所以选择这个尺寸,是因为它是每个类别中唯一有数据的尺寸组。按缺陷分布分组,90 个中心缺陷,1 个甜甜圈缺陷,296 个边缘定位缺陷,31 个边缘环缺陷,297 个局部缺陷,16 个近满缺陷,74 个随机缺陷,72 个划痕缺陷,13489 个正常缺陷。除甜甜圈缺陷外,每个类别都从训练集中随机抽取 60% 的晶片图,其余的被纳入测试集中。除了在甜甜圈类别中共享相同数据外,这两个集是不连续的,而且只有一个样本可用,因此我们希望在分类中包含此类模式。

为了解决第三个问题,即不平衡的训练数据,我们采用了基于自动编码器的数据增强方法。编码器有 64 个 3 × 3 CONV 层、一个 RELU 激活层和一个 MAXPOOLING 层。解码器有 64 个 3 × 3 CONVT 层、一个 UPSAMPLING 层、3 个 3 × 3 CONV 层和一个 SIGMOID 输出层。针对训练集中的每个缺陷类别,生成了 2000 个合成晶片图。由于训练集中已经包含了大量数据,因此跳过了正常类。请注意,数据增强只使用 WM-811K 训练数据,而不查看 WM-811K 测试数据。

B. 实验说明

比较不同环境和不同方法下的管道。考虑的方法如下

・1) 敌方 DA + 扩展目标数据

作者将 MixedWM38 训练数据作为源训练数据,将扩展的 WM-811K 训练数据作为目标训练数据。这些数据被用作对抗性 DA 网络的输入,随后根据所述过程进行训练。这就是我们提出的方法。

在实验中使用的架构中,GS/GT有两个卷积层:8 个 5×5 过滤器(CONV1),16 个 5×5 过滤器(CONV2),CONV1 和 CONV2 后各有两个大小为 2×2 的宏卷积层,以及 2028 个神经元。它有一个全连接层;G 的配置与 GS GT相同,但最后一个全连接层只有 1024 个神经元,并在网络的开头增加了一个(26,26,3)的重塑层;D 的配置与 G 相似,但有一个用于域预测的 softmax 输出层;G 有一个用于域预测的 softmax 输出层,还有一个用于域预测的 softmax 输出层。分类器有两个全连接层,分别有 1024 个和 512 个神经元,还有一个用于类预测的 softmax 输出层。

・2) 敌方 DA + 不成比例的目标数据

敌方 DA 网络仍在使用,但目标训练数据被替换为未经增强、不平衡的 WM-811K 训练数据。将此方法与方法 1) 进行比较,以确定数据增强步骤是否能提高敌对 DA 的性能。

・3) 微调 + 目标数据增强

Shao 等人采用了一种微调方法,将从通用图像中学到的知识用于从感应电机、齿轮箱和轴承的图像中识别机器故障。他们使用在 ImageNet 上预先训练好的 VGG 16 模型;VGG 16 有五个卷积块和一个全连接块。前三个卷积块被冻结,最后两个卷积块和全连接块使用机器故障诊断数据集重新训练。交叉熵损失有助于评估真实标签与预测概率之间的误差。作者采用了他们的方法,但用扩展的 WM-811K 训练数据集取代了机器故障数据集。预先训练好的 VGG 16 模型的输出层被一个新层取代,该层有九个神经元,分别对应九个类别。

・4) 微调 + 非平衡目标数据集

这种方法与前一种方法相同,但使用的是不平衡的 WM-811K 训练数据集。将这种方法与前一种方法进行比较,可以确定数据增强步骤对微调方法是否有用。

・5) 香草分类器 + 扩展目标数据集

对深度神经网络进行训练,使其成为检测晶圆图缺陷的分类器。该网络使用交叉熵损失进行训练,并使用 WM-811K 训练数据进行增强。该分类器使用的架构与我们的 DA 方法中使用的预测流水线兼容,因此比较数据是公平和有意义的。分类器有三个卷积块和两个全连接块。每个卷积块有一个 CONV 层和一个 RELU 层。每个卷积层有{16、64、128}个递增输出滤波器。每个全连接块有一个 FC 层和一个 RELU 激活层。第一个 FC 层有 512 个神经元,第二个 FC 层有 128 个神经元。输出层有 9 个神经元,之后是 SOFTMAX 层,用于预测每个类别的概率。

・6) 香草分类器 + 不平衡目标数据集

使用不平衡的 WM- 811K 训练数据,训练与 5) 相同的深度神经网络。

结果和分析

在训练对抗性 DA 和其他分类模型时,我们使用了 TensorFlow 和 Keras 库。对于对抗性 DA,我们以 32 的批量大小训练了 20000 次迭代。使用亚当优化器,起始学习率为 2e-4,超参数为 λ = 0.1、β = 1 和 γ = 1(不使用验证样本调整超参数)。在微调方法中,Keras 实现的 VGG 16 预训练模型要求输入正好有三个输入通道,且宽度和高度不小于 32。目标训练数据的输入大小为 26 x 26 x 3,这是一个无效值。微调方法和 vanilla 分类器方法使用亚当优化器训练 60 个历元,批量大小为 32,学习率为 2e - 4。通过比较每个epoch的性能,可以在训练中采用提前停止的方法,从而保留最佳权重。

在本次评估中,源训练数据集包含 5,294 个均匀分布的九个类别的晶片图。所有这些实验都是在仅包含 25、50、75、100、200、500 和 1000 个随机选取样本的目标训练数据集上进行的。这些实验的目的是显示目标训练数据大小对不同模型性能的影响。在目标测试数据上计算了平衡分类准确率和正确率,95% 的置信区间见表 I 和图 2。这些置信区间来自五次重复实验。表 II 显示了不同方法的训练和测试时间。该性能指标适用于评估非平衡数据集上的模型。平衡准确度的目的是在不平衡数据上表现良好。它被定义为每个类别的平均召回率,计算方法是真阳性之和除以真阳性和假阴性之和。另一方面,精确度的计算方法是所有类别的真阳性之和除以所有类别的真假阳性之和。误报越多,准确率越低。

图 2:使用强化和不平衡目标数据实现的分类准确率得分,比较了六种方法:在强化/不平衡目标样本上训练的 vanilla 深度 CNN、在强化/不平衡目标数据上微调的预训练 VGG 16 模型、在强化/不平衡目标数据上训练的强化/不平衡本文的对抗式 DA 架构在目标数据上进行了训练。

表 I.

WM-811K 测试数据的平衡分类准确性和平均重现性。

表 II.

三种方法的训练和测试时间比较。结果是在从扩展目标训练数据中抽取的 1000 个目标数据上得出的。提出的 da 模型可以离线训练。预测时间与 vanilla 分类器相当。

在 25-1000 个样本的情况下,我们可以看到,我们的目标增强对抗 DA 方法在准确度和精确度的平衡方面优于微调方法和深度 CNN 方法;在 ResNet 等更复杂的模型中,我们的方法和深度神经网络的表现会更好。尽管如此,在可比架构和极少数据的情况下,香草分类器方法的训练表现不如深度神经网络方法,这说明了深度神经网络方法的局限性:需要大量的训练数据来学习模型的输入输出函数。如果训练做得不好,就会出现众所周知的过拟合问题,即模型会记住训练数据,无法很好地泛化到新的测试数据、网络可以获得合理的权重,并将其应用到目标任务中。然而,它并不能直接解决训练数据不足的问题。我们推测,微调方法在实验中表现不佳的原因可能是 ImageNet 和 WaferMap 之间的主要差异,后者需要合理数量的目标数据才能成功更新预训练模型中的权重。另一方面,我们的对抗性 DA 方法取得了最佳结果,因为它使用了优化过程中出现的领域不变特征,从而缓解了目标训练数据较少的问题。如果源数据足够均衡,即使目标数据非常有限,对抗学习框架也能学习到特征。

对于所有三种方法来说,在增强目标数据上进行训练都能显著提高性能,这证明了数据增强技术在处理高度不平衡数据时的有效性。例如,在对抗性 DA 方法中使用增强目标,在 25-1000 个样本的情况下,平衡精度提高了 5%-16%,精确度提高了 6%-15%。对于微调方法和普通分类器方法来说,这一观察结果更为明显。在目标不平衡的情况下,微调方法无法进行有效学习。另一方面,有证据表明,即使使用 1000 个增强目标样本进行训练,作者的 DA 方法也优于其他方法,这证实了这种 DA 方法在目标测试数据(真实数据)上具有更好的通用性。

将 DA 用于分类以外的任务

作者处理训练数据不足问题的方法可以扩展到分类以外的任务。本节将简要介绍优化、强化学习和机器人学习领域的最新方法,以应对领域转移并实现有效的知识转移。

在转移优化(TO)领域,各种源优化问题的解被用作目的优化问题的解;Jiang 等人的方法是通过将 DA 方法集成到经典进化优化算法中来提高动态优化问题的搜索效率。它将 DA 方法集成到经典进化优化算法中,以提高动态优化问题的搜索效率。提出的另一种方法是通过人工神经网络(ANN)为待优化函数(即目标函数)建模。这种近似方法可以有效降低成本,例如减少计算成本。不过,这些方法需要使用已知函数生成的输入输出对来训练人工神经网络。当底层目标函数未知且可用测量数据有限时,我们的 DA 可以使用已知函数的输入输出对作为目标域,即使用源域来指导由未知函数主导的非常有限的测量样本的训练。使用。

强化学习(RL)中尚未解决的一个问题是,由于输入数据的分布可能会随时间发生变化,因此学习到的策略在新的输入数据上可能表现不佳。最近,有人提出了一种应用 DA 的方法,以确保 RL 代理即使在输入分布随时间变化的情况下也能有效工作。在这种情况下,源域是具有特定奖励结构的特定输入分布。在目标域中,输入分布发生了变化,但奖励结构不变。域转移也是基于学习的机器人在感知和控制方面面临的一大挑战。

由于模拟数据和真实数据之间的差距,在模拟数据上训练的机器人在真实环境中往往会失败。Tzeng 等人采用区域混淆损失(类似于 Lg)和成对损失相结合的方法,将姿势估计从合成图像调整到真实图像。成功的结果。

限额

虽然来自单一源域的可用数据可用于提高相关目标任务的通用性,但来自许多相关域的数据可能也很有用。例如,长期收集的或来自不同利益相关者的多标签制造数据集可用作源域。我们目前的方法并不直接支持多源域适应。要在多源环境中使用作者的方法,需要将所有源数据合并为一个源域,或在每个源域中分别进行训练,然后选择性能最好的一个。更好的方法是将每个源域视为一个单独的域,并学习不同域之间共享的信息。与单一源方法相比,沿着这一方向进行的研究表明,在目标处的泛化性能更好。

作者方法的另一个局限是,它要求目标领域中的每个类别至少有一些标记数据。其原因在于,基于自动编码器的数据增强程序要求原始目标数据包含每个类别的标签数据,以便构建平衡的目标数据集。只要目标数据是平衡的,作者的对抗性数据挖掘方法就可以单独用于目标数据中没有标签的无监督环境。

相关研究

A. 基于对抗学习的方法

这些方法通常通过使用两个相互竞争的网络来学习与领域无关的表征:一个特征提取器/生成器和一个领域判别器。最早的对抗性 DA 模型之一--域对抗神经网络(DANN)由三个部分组成:特征提取器、标签预测器和域分类器。特征提取器以敌对方式进行训练,以便通过反梯度使域分类器的损失最大化。特征提取器与标签预测器同时进行训练,以创建一个包含领域不变特征的表征,用于分类。Singla 等人提出了 DANN 和 ADDA 的混合版本,其中生成器使用标准 GAN 损失函数进行训练。

所有这些方法都旨在学习源域和目标域之间与领域无关的表征。然而,这些方法都假设源数据和目标数据具有相同的特征空间(例如,它们都具有相同的维度)。相反,我们的模型支持异构领域适应,即两个领域的数据可能具有不同的维度/不同的特征数量。所有这些方法也都考虑了目标数据仍有足够的未标记数据的情况,而且目标数据即使没有标签也仍然是平衡的。然而,在某些应用中,这些模型可能会出现相对于真实数据的类分布不平衡的问题。在本研究中,我们考虑了一种更现实的低质量目标数据设置,即目标数据只有少量标签数据,并且高度不平衡。

B. 合成数据扩展

有些方法使用基于 GAN 的架构来生成合成数据,如 DCGAN、CycleGAN 和 Conditional GAN。生成式建模的另一种常见策略是使用自动编码器--一种经过训练可重建输入的神经网络。该网络由两部分组成:编码器和解码器,前者产生压缩的潜在空间,后者产生重构。通过在压缩表示中添加噪声,自动编码器产生原始数据的变化。近年来,扩散模型因其卓越的生成能力而备受关注。扩散模型的训练包括两个阶段:一个是正向扩散阶段,即用噪声对输入数据进行迭代扰动;另一个是反向扩散阶段,即逆转前一个阶段,尝试恢复输入数据。然而,由于扩散模型在训练过程中需要迭代,因此计算成本很高,不适合时间敏感型任务。要为手头的任务选择合适的生成模型,需要考虑每种模型的优势、局限性和成本。

这是因为众所周知,GANs 的学习不稳定,在训练过程中容易出现模式崩溃。此外,GANs 还需要大量的训练数据。另一方面,基于自动编码器的数据增强方法所需的训练数据较少,适合目标数据有限的问题设置。与更复杂的扩散模型相比,它们的速度也更快。

结论

本文提出了一种新颖的对抗性 DA 方法,以支持源域与目标域具有不同特征时的异构适应。DA 方法旨在解决目标训练数据不足的问题,但在目标数据不平衡时效果不佳。许多制造商都面临着数据质量不高的现实,因此很难收集到平衡的数据。为了解决这个问题,作者进一步提出了一个管道,使用基于自动编码器的技术来增强训练数据中的少量类别,然后再使用作者的 DA 方法。在晶圆缺陷数据集上对这一管道进行的实验评估表明,与其他基准方法相比,它的性能更加优越。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定 日本创新融合学会 DX检定专家 联合公司Amico咨询 CEO

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们