半导体制造中稀有类预测模型的创新

预测模型 07/01/2025

三个要点
✔️ 开发新的预测模型，解决半导体制造数据中的类别不平衡问题
✔️ 优化特征选择和数据完成的方法，实现对稀有类别的准确预测
✔️ 利用 SMOTE 分析数据重采样策略对模型准确性的影响

Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing
written by Abdelrahman Farrag, Mohammed-Khalil Ghali, Yu Jin
[Submitted on 6 Jun 2024]
Comments: Accepted by arXiv
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

随着工业的发展，物理系统和数字系统实现了整合，从而能够收集大量有关生产过程的数据。这种集成为提高过程质量和设备健康管理提供了可靠的解决方案。然而，从现实世界的制造过程中收集到的数据面临着各种挑战，例如严重的类不平衡、高缺失率和高噪声特征，这些都阻碍了机器学习的有效实施。

本研究针对从智能半导体制造过程中收集的现场数据，开发了一种罕见类别预测方法。这种方法的主要目的是解决噪声和类不平衡问题，并加强类的分离。

与现有文献相比，所开发的方法显示出良好的效果，能够预测新的观测结果，为未来的维护规划和生产质量提供洞察力。该模型利用各种性能指标进行了评估，在 ROC 曲线上的 AUC 为 0.95，准确度为 0.66，重复性为 0.96。

介绍

半导体晶片生产涉及数百种先进的制造工艺，包括氧化、光刻、清洗、蚀刻和平面化。晶圆良品率的计算方法是合格产品占晶圆中半导体芯片总数的比例。

通过可靠、准确的质量控制保持高产量是半导体行业成功的关键。提高产量的一个重要步骤是确定对晶片产量有重大影响的操作，即所谓的 "关键工艺步骤"。

由于工艺数据本身的复杂性，选择关键工艺步骤面临着巨大挑战。这些数据主要是从大量现场传感器中获取的，因此通常具有高维和噪声特征。由于当前测量技术的局限性和测量频率较低，这些数据的缺失率也很高。

在生产过程中，每个晶片都要经过各种工艺步骤，并由测量设备进行检查。由于这些检查非常耗时，而且测量工具的能力有限，只有一小部分晶圆得到了实际测量。这种随机抽样的做法使数据分析更加复杂。例如，如果有五个工艺步骤，测量率为 20%，则获得所有步骤完整测量数据的概率为 0.032%。

在实际生产线中，这一问题会被放大，因为生产线上有超过 500 个工艺步骤，因此很难建立工艺步骤之间的关联。此外，大多数成熟的晶圆生产线会生产大量合格率高的晶圆，从而减少低产量晶圆的出现。

然而，要有效调查和提高晶圆良品率，必须同时分析高良品率和低良品率晶圆。低产量晶片体积小，因此很难评估工艺变异对整体生产质量的影响。

方法论

本节介绍了应对半导体制造中现场传感器数据挑战的方法。其中包括案例研究和所采用的数据预处理技术的详细信息。这些预处理步骤包括处理缺失值、数据分区和数据缩放。它还介绍了用于进行特征选择和纠正类不平衡的数据重采样技术。

建议的方法

如图 1 所示，建议的方法分为两个主要阶段：数据预处理和模型开发与预测。这一过程从最初的探索性数据分析（EDA I）开始，提供对数据的初步见解。下一步是特征选择，以补充缺失值并确保数据完整性。

处理后的数据进入 EDA II 阶段，通过试错过程进一步完善。这就进入了基于洞察力的特征选择的第二阶段（特征选择 II），在这一阶段，将选出最相关的特征用于最终模型。

图 1：拟议方法示意图。

案例研究

研究使用了 SECOM 数据集，这是一个代表复杂半导体制造过程的开源工业数据集（图 2、图 3）。该数据集包含 1567 个样本中的 591 个传感器测量值，其中 104 个样本被归类为故障。

处理半导体数据面临多重挑战。由于半导体制造成本高昂，生产流程的管理要尽量减少缺陷，因此数据集中存在严重的类不平衡，比例为 1:14。此外，由于传感器故障和操作遗漏，数据集中包含大量缺失数据。

图 2：SECOM 数据的探索性数据分析。

图 3：SECOM 数据的特征分析。

数据预处理

数据预处理包括缺失值处理、数据分割和数据缩放。作为缺失值补全策略，k-Nearest Neighbours（k-NN）补全被证明是最有效的。使用中位数对某些特征进行补全，而使用平均值对其他特征进行补全，以符合正态分布曲线。

数据分区

使用分层交叉验证对数据进行分割，这对不平衡的数据集特别有用。部分数据（训练集）用于训练算法，其余数据（测试集）用于评估算法的性能。

我们采用了五倍交叉验证技术，将数据随机分成五个样本数量相等的子组。以下各节描述的过程要执行五次，其中一次作为测试数据，其余四次作为训练数据。使用测试数据对生成的模型进行测试，并使用性能指标对其进行评估。

数据缩放

由于数据的不规则状态，需要进行缩放。特征缩放可提高学习算法的分类性能。数据归一化为 0 到 1 的线性范围，并使用以下公式

其中，Min(X) 是数据的最小值，Max(X) 是数据的最大值，Ave(X) 是数据的平均值。

特征选择

由于数百个特征中的大多数都是不必要的，因此特征选择对于稀有类别预测中有效的预测建模至关重要。所开发的模型偏重于稀有类别特征，并优先考虑对稀有类别有重大贡献的特征。特征选择是这类问题的重要步骤，而选择算法可能会受到特征高维度的影响。

因此，我们采用了一种投票策略，即使用三种或三种以上的特征选择方法来选择特征，并且只考虑来自少数类别的特征。这一过程不断重复，直到达到最佳特征数量。特征选择投票的结果是，21 个特征被投票者忽略，183 个特征被特征选择方法选中。

然而，在所有 12 种特征选择方法中，只有两种特征被选中。最终，有 81 个特征被选中。

数据重采样

数据重采样的主要目的是解决少数类和多数类之间的不平衡问题。这一步骤只适用于训练数据集，以防止对测试数据的过度训练。我们采用了两种不同的策略：对少数类进行超采样和对多数类进行欠采样。

SMOTE（合成少数群体过度取样技术）适用于少数群体类别，在现有数据点之间进行插值，以创建合成数据点。新的合成数据点按以下公式生成

其中，x_i 和 x_j 是现有的少数群体实例，λ 是介于 0 和 1 之间的随机数。

结合低取样和 SMOTE 策略，对少数群体班级超量取样 40%，对多数群体班级低取样 80%，将比例从 1:14 调整为约 4:5。通过这两种重新取样方法，努力拉近班级规模。

这就避免了一半的数据因初始类不平衡而成为合成数据。这些方法旨在解决类不平衡的问题，使模型能够泛化到未知数据。

估值指数

评估测试数据结果的指标有多种。对于不平衡和罕见类别数据，平衡准确度尤为重要，因为它通过平均灵敏度和特异度来考虑不平衡。平衡精度的计算方法如下：

准确度表示正向预测的准确度和所有正向预测中真阳性预测的比例。其定义公式如下

可重复性（灵敏度）表示识别模式所有相关实例的能力，以及在所有实际阳性实例中真阳性的比例。其计算方法如下

误报率 (FAR) 衡量所有负实例中的误报比例。其计算公式如下

接收者操作特征曲线（ROC）是二元分类问题的评价指标，是一条概率曲线，绘制了不同阈值下的真阳性率（TPR）和假阳性率（FPR）。曲线下面积（AUC）是区分类别能力的衡量标准，是 ROC 曲线的总结；AUC 越高，模型的性能越好。

结果

数据预处理

首先，对数据进行随机特征对绘图（见图 4）。观察发现，数据类别完全重叠，且分布不规则。缺失值的比例估计为 4.5%，因此删除了缺失值比例超过 50%的 28 列。对于其余 1.26%的缺失值，采用了六种不同的补全方法。

k-NN 完成法显示了最佳的数据分离效果，但有些特征使用中位数完成法拟合了正态分布曲线，有些则使用平均值完成法拟合了正态分布曲线。

图 4：数据预处理后 SECOM 数据的 EDA。

基于稀有类别的特征选择投票

通过特征选择方法，共有 183 个特征获得了投票。考虑到每个特征至少有三票，81 个特征被选中。所选特征按降序排列，如图 5 所示，其中特征 433 和 210 在所有特征选择算法中都获得了投票。

图 5：基于稀有类别特征选择方法的投票结果。

分类预测评估

本节将介绍分类模型在三种不同测试场景下的结果。使用性能指标和 ROC 曲线来展示每次运行的结果。最后，对三次运行的性能指标进行汇总。

测试方案 I：失衡模式

第一次运行的结果表明，XGB 和 DTC 的性能指标最好，而 GBC 的准确率值相对较低。然而，LR、SVM 和 RF 的结果并不理想：尽管 RF 的准确率达到了 100%，但它并不一定能正确预测所有阳性结果。

虽然 RF 模型预测了所有阴性病例，但由于可重复性非常低，它未能检测到阳性病例。最佳模型应具有最高的准确度、可重复性、平衡准确度、AUC 和最低的误报率；XGB 显示了相对较高的值，是不平衡数据的最佳模型。

图 6：第一个测试方案中不平衡数据的 ROC 曲线

表 1：第一个不平衡数据测试方案的结果汇总表

测试方案 II：SMOTE 模型的过度取样

在对少数类别进行 70% 的超采样后，SMOTE 的使用提高了所有模型的 AUC 和可重复性。这一点在 LR 和 RF 中尤为明显，SMOTE 提供了一个平衡的训练数据集，使模型能够更好地理解数据分布。

准确率值略有下降，重复率和误报率相应增加。这是由于少数类别的样本量增加了，这意味着分类器检测到了更多的少数类别，可能会误判为负面案例。这一结果凸显了合成数据生成的重要性。

图 7：SMOTE 模型第二个测试方案的 ROC 曲线

表 2：SMOTE 模型第二个测试方案的结果汇总表

测试方案 III：组合重采样模型

通过对多数类进行 80% 的低采样和对少数类进行 40% 的高采样，XGB 的 AUC 和重现性显著提高，分别达到 0.95 和 0.93。这表明数据重采样对模型的改进非常明显。

DTC 的平衡精度也提高到了 88%，被认为是最高精度值。不过，准确率值明显下降，误报率略有上升。造成这一结果的原因是合成数据的减少和两类观测数据的趋同。

图 8：组合重采样模型的第三种检测方案的 ROC 曲线。

表 3：组合重采样模型第三个测试方案的结果汇总表。

最后，总结了三次运行的结果，并显示了各项性能指标的变化趋势。除 DT 和 LR 外，平衡精度没有明显改善。重采样改善了故障检测，XGB 和 GBT 的重现性分别跃升至 93% 和 90%。错误检测率的提高导致合规产品分类率略有下降，误报率有所上升。

表 4：与最近发表的期刊文章比较

结论

在这项研究中，对来自真实半导体制造工厂的 SECOM 数据集进行了详细分析和分类。对 18 种不同的方法进行了评估，包括数据完成、数据不平衡处理、特征选择和分类等不同阶段。

此外，还多次尝试选择适当的算法进行缺失值补全、模型超参数调整和调整重采样率。

所提出的方法强调基于稀有类别的特征选择和特征投票，与现有方法相比，该方法显著提高了正面案例的模型预测能力。该方法有效地识别了最重要的特征，提高了模型准确预测故障的能力。

此外，还将对得票最高的特征与其他传感器信息一起进行分析，以便更深入地了解故障原因，并确定制造过程中最关键的阶段。

这项实验评估确定了 SECOM 数据集分类的最佳工具和阶段。结果表明，XGB（用于分类）、SMOTE（用于合成数据生成）、特征投票（用于特征选择）和混合算法（用于缺失数据补全）都具有优越性。

这些研究结果证明了所提出的方法在处理复杂和不平衡的行业数据集方面的有效性，并将为在半导体制造领域建立更可靠、更准确的预测模型铺平道路。

未来，大规模语言模型（LLM）和生成式人工智能可以为解决类不平衡问题提供创新的解决方案。通过生成合成数据和增强数据增强策略，这些先进的人工智能技术有望进一步提高模型的稳健性和处理不平衡数据集的准确性。

与本文相关的类别

友安昌幸 (Masayuki Tomoyasu): JDLA G检定2020#2,E资格2021#1 数据科学家协会 DS检定日本创新融合学会 DX检定专家联合公司Amico咨询 CEO

赶上最新的AI论文

半导体制造中稀有类预测模型的创新

摘要

介绍

相关研究

数据完成方法

阶级失衡

特征选择方法