
半导体制造中稀有类预测模型的创新
三个要点
✔️ 开发新的预测模型,解决半导体制造数据中的类别不平衡问题
✔️ 优化特征选择和数据完成的方法,实现对稀有类别的准确预测
✔️ 利用 SMOTE 分析数据重采样策略对模型准确性的影响
Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing
code:
written by Abdelrahman Farrag, Mohammed-Khalil Ghali, Yu Jin
[Submitted on 6 Jun 2024]
Comments: Accepted by arXiv
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
随着工业的发展,物理系统和数字系统实现了整合,从而能够收集大量有关生产过程的数据。这种集成为提高过程质量和设备健康管理提供了可靠的解决方案。然而,从现实世界的制造过程中收集到的数据面临着各种挑战,例如严重的类不平衡、高缺失率和高噪声特征,这些都阻碍了机器学习的有效实施。
本研究针对从智能半导体制造过程中收集的现场数据,开发了一种罕见类别预测方法。这种方法的主要目的是解决噪声和类不平衡问题,并加强类的分离。
与现有文献相比,所开发的方法显示出良好的效果,能够预测新的观测结果,为未来的维护规划和生产质量提供洞察力。该模型利用各种性能指标进行了评估,在 ROC 曲线上的 AUC 为 0.95,准确度为 0.66,重复性为 0.96。
介绍
半导体晶片生产涉及数百种先进的制造工艺,包括氧化、光刻、清洗、蚀刻和平面化。晶圆良品率的计算方法是合格产品占晶圆中半导体芯片总数的比例。
通过可靠、准确的质量控制保持高产量是半导体行业成功的关键。提高产量的一个重要步骤是确定对晶片产量有重大影响的操作,即所谓的 "关键工艺步骤"。
由于工艺数据本身的复杂性,选择关键工艺步骤面临着巨大挑战。这些数据主要是从大量现场传感器中获取的,因此通常具有高维和噪声特征。由于当前测量技术的局限性和测量频率较低,这些数据的缺失率也很高。
在生产过程中,每个晶片都要经过各种工艺步骤,并由测量设备进行检查。由于这些检查非常耗时,而且测量工具的能力有限,只有一小部分晶圆得到了实际测量。这种随机抽样的做法使数据分析更加复杂。例如,如果有五个工艺步骤,测量率为 20%,则获得所有步骤完整测量数据的概率为 0.032%。
在实际生产线中,这一问题会被放大,因为生产线上有超过 500 个工艺步骤,因此很难建立工艺步骤之间的关联。此外,大多数成熟的晶圆生产线会生产大量合格率高的晶圆,从而减少低产量晶圆的出现。
然而,要有效调查和提高晶圆良品率,必须同时分析高良品率和低良品率晶圆。低产量晶片体积小,因此很难评估工艺变异对整体生产质量的影响。
相关研究
相关研究分为三个主要部分,重点关注半导体制造中数据预处理和特征选择的关键方面。
它首先解决了数据集中缺失数据的一般问题。接着,讨论了预测建模中的类不平衡问题,以及如何有效地平衡类不平衡。最后,讨论了提高分类模型预测准确性和效率的特征选择方法。
数据完成方法
缺失数据是许多研究中常见的重要问题,会影响统计分析的可靠性,造成信息丢失和参数估计偏差。缺失数据可分为三种形式:完全随机缺失(MCAR)、随机缺失(MAR)和依赖于缺失值本身的缺失(MNAR)。
MCAR 表示数据缺失与观测变量或非观测变量无关,即不存在系统性丢失。而 MAR 则是指缺失实例的出现与其他观测变量有关,表明数据集中的系统关系受到其他变量的影响。最复杂的 MNAR 指的是缺失数据取决于缺失值本身的情况。
在现实生活中,例如半导体制造,由于每个晶片都是随机选择的,因此很难确定确切的机制。因此,在实践中,缺失数据更有可能是 MARs,因为它们与观测值相关。
传统的补全方法包括删除法和均值补全法,这两种方法主要对 MCAR 有效。相比之下,最大似然法、多重完备法、热甲板完备法、回归完备法、期望最大化法(EM)和马尔可夫链蒙特卡罗法(MCMC)等现代方法旨在为归类为 MCAR 或 MAR 的数据提供无偏估计。
尽管缺失数据的比例会对统计推断的质量产生重大影响,但对于可接受的缺失数据比例并没有一个公认的阈值:一般认为低于 5%的缺失率可以忽略不计,而高于 10%的缺失率则可能会给统计分析带来偏差。可接受的缺失数据。
我们开发了一种新的数据完成方法--"内绘 KNN 完成",并在应用不同的机器学习方法后与平均完成策略进行了比较。与常见的数据完成方法(平均完成)相比,所开发的方法表现出更好的性能。性能指标得到了明显改善,可重复性提高了 10%,AUC 提高了 5%。
通过将所有连续特征转换为名义数据来补充缺失值的方法也被证明是有效的,这样就无需为每种不同的特征类型采用独特的方法。
阶级失衡
机器学习和数据分析中的缺陷数据抽样是一个重要问题,尤其是与质量控制和故障检测相关的数据集。在这些情况下,数据往往是不平衡的,"有缺陷 "或 "正面 "类(如故障或缺陷实例)与 "无缺陷 "或 "负面 "类之间存在很大的不平衡。
这种不平衡给预测建模带来了巨大挑战,因为缺陷类别很少,模型存在偏差,无法准确识别缺陷。模型可能偏向于多数类别,并显示出较高的准确性,但它无法有效识别少数类别的实例,从而导致假阴性率增加。
这在缺陷检测中尤其成问题,因为漏检真正的缺陷(假阴性)可能会造成严重后果。失衡也会导致准确性和可重复性之间的权衡,在这种情况下,提高其中一个往往会损害另一个。
为解决这些问题,对数据进行重新取样(对少数类进行过量取样或对多数类进行过量取样)、使用不同的性能指标(F1 分数、精确度-可重复性曲线、ROC-AUC)以及采用专门针对不平衡数据的算法都是有效的方法。
欠采样技术通过保留超采样多数类中最具代表性的实例来解决类不平衡问题。与数据驱动模型的整合大大推进了这一方法的发展,并通过有选择地对接近少数类的实例进行欠采样,更有效地缓解了失衡问题。
作为具体方法,基于聚类的最近邻算法、Tomek-linked 最近邻算法和 Condensed Nearest Neighbours 最近邻算法可以细化决策边界,提高分类器的准确性。每种欠采样技术都有其自身的优势和挑战,例如,编辑最近邻算法(ENN)使用 k 最近邻算法来移除有噪声的多数类实例,但计算成本高,而且可能导致信息丢失。
另一方面,超采样技术通过增加少数类别来解决类别不平衡的问题。随机超采样可以复制少数类的实例,但可能导致过度学习。
SMOTE(合成少数群体过度采样技术)等方法可创建合成实例以增加多样性,但可能会引入噪声;Borderline-SMOTE 可创建接近决策边界的样本,但可能会引入噪声。自适应合成采样 (ADASYN) 侧重于难以学习的少数群体实例,但也有引入噪声的风险。
特征选择方法
特征选择算法包括 Boruta、多元自适应回归样条(MARS)和主成分分析(PCA),这些算法被用来选择最重要的特征。结果表明,Boruta 和 MARS 比 PCA 更准确。当数据不平衡并使用随机森林(RF)和逻辑回归(LR)分类时,它们的准确度值也高于梯度提升树(GBT)。
此外,还使用了 Chi-Square 、互信息含量和 PCA 等特征选择方法。在分类模型方面,采用了 LR、k-近邻(KNN)、决策树(DT)和奈夫贝叶斯(NB),其中 DT 的效果最好,F 值为 64%,准确率为 67%。
为了解决高维数据的问题,使用了 SMOTE 来减少高维数据,并应用了 PCA。利用 ROC 曲线对模型进行了评估,结果显示比 KNN 和 LR 更好,RF 的 AUC 为 0.77。
此外,还开发了一个早期检测预测模型,以快速检测设备故障,从而保持生产率和效率。在数据预处理和特征选择之后,运行了 NB、KNN、DT、SVM 和 ANN 四种预测模型,与其他模型相比,NB 的结果最好;为了提高 SECOM 数据集上分类预测模型的准确性,应用了 XGBoost 早期检测预测模型、与 RF 和 DT 相比,该模型取得了明显的效果。
提出了一种应用深度学习和元启发式方法的方法,利用 CSO 算法优化隐藏层节点,结果显示准确率为 70%,召回率为 65%,精确率为 73%。应用了深度学习模型的集合,并使用 PSO 来确定模型的权重。与 KNN、RF、AdaBoost 和 GBT 相比,这种方法显示出更好的结果。
虽然大多数分类模型都是以准确性为基础开发的,但这些预测模型在准确性方面存在悖论。就不平衡数据而言,仅有准确率是不够的。预测稀有类很困难,因为稀有类与多数类相比很小。而预测多数类则很容易,其准确性也很容易分类。
然而,少数群体类别是很难预测的,因此,如果仅以准确率来衡量预测模型的性能,则可能无法预测少数群体类别。因此,即使准确率很高,也很可能只预测多数类,而不考虑少数类。在这种情况下,平衡准确率是关键指标。
在之前的一些研究中,采用了抽样策略来增加少数群体的数量。但是,如果根据数据分布来选择特征,特征选择算法可能会在过多采样少数群体或过少采样多数群体之前受到影响。
方法论
本节介绍了应对半导体制造中现场传感器数据挑战的方法。其中包括案例研究和所采用的数据预处理技术的详细信息。这些预处理步骤包括处理缺失值、数据分区和数据缩放。它还介绍了用于进行特征选择和纠正类不平衡的数据重采样技术。
建议的方法
如图 1 所示,建议的方法分为两个主要阶段:数据预处理和模型开发与预测。这一过程从最初的探索性数据分析(EDA I)开始,提供对数据的初步见解。下一步是特征选择,以补充缺失值并确保数据完整性。
处理后的数据进入 EDA II 阶段,通过试错过程进一步完善。这就进入了基于洞察力的特征选择的第二阶段(特征选择 II),在这一阶段,将选出最相关的特征用于最终模型。
图 1:拟议方法示意图。 |
案例研究
研究使用了 SECOM 数据集,这是一个代表复杂半导体制造过程的开源工业数据集(图 2、图 3)。该数据集包含 1567 个样本中的 591 个传感器测量值,其中 104 个样本被归类为故障。
处理半导体数据面临多重挑战。由于半导体制造成本高昂,生产流程的管理要尽量减少缺陷,因此数据集中存在严重的类不平衡,比例为 1:14。此外,由于传感器故障和操作遗漏,数据集中包含大量缺失数据。
图 2:SECOM 数据的探索性数据分析。 |
图 3:SECOM 数据的特征分析。 |
数据预处理
数据预处理包括缺失值处理、数据分割和数据缩放。作为缺失值补全策略,k-Nearest Neighbours(k-NN)补全被证明是最有效的。使用中位数对某些特征进行补全,而使用平均值对其他特征进行补全,以符合正态分布曲线。
数据分区
使用分层交叉验证对数据进行分割,这对不平衡的数据集特别有用。部分数据(训练集)用于训练算法,其余数据(测试集)用于评估算法的性能。
我们采用了五倍交叉验证技术,将数据随机分成五个样本数量相等的子组。以下各节描述的过程要执行五次,其中一次作为测试数据,其余四次作为训练数据。使用测试数据对生成的模型进行测试,并使用性能指标对其进行评估。
数据缩放
由于数据的不规则状态,需要进行缩放。特征缩放可提高学习算法的分类性能。数据归一化为 0 到 1 的线性范围,并使用以下公式
其中,Min(X) 是数据的最小值,Max(X) 是数据的最大值,Ave(X) 是数据的平均值。
特征选择
由于数百个特征中的大多数都是不必要的,因此特征选择对于稀有类别预测中有效的预测建模至关重要。所开发的模型偏重于稀有类别特征,并优先考虑对稀有类别有重大贡献的特征。特征选择是这类问题的重要步骤,而选择算法可能会受到特征高维度的影响。
因此,我们采用了一种投票策略,即使用三种或三种以上的特征选择方法来选择特征,并且只考虑来自少数类别的特征。这一过程不断重复,直到达到最佳特征数量。特征选择投票的结果是,21 个特征被投票者忽略,183 个特征被特征选择方法选中。
然而,在所有 12 种特征选择方法中,只有两种特征被选中。最终,有 81 个特征被选中。
数据重采样
数据重采样的主要目的是解决少数类和多数类之间的不平衡问题。这一步骤只适用于训练数据集,以防止对测试数据的过度训练。我们采用了两种不同的策略:对少数类进行超采样和对多数类进行欠采样。
SMOTE(合成少数群体过度取样技术)适用于少数群体类别,在现有数据点之间进行插值,以创建合成数据点。新的合成数据点按以下公式生成
其中,x_i 和 x_j 是现有的少数群体实例,λ 是介于 0 和 1 之间的随机数。
结合低取样和 SMOTE 策略,对少数群体班级超量取样 40%,对多数群体班级低取样 80%,将比例从 1:14 调整为约 4:5。通过这两种重新取样方法,努力拉近班级规模。
这就避免了一半的数据因初始类不平衡而成为合成数据。这些方法旨在解决类不平衡的问题,使模型能够泛化到未知数据。
估值指数
评估测试数据结果的指标有多种。对于不平衡和罕见类别数据,平衡准确度尤为重要,因为它通过平均灵敏度和特异度来考虑不平衡。平衡精度的计算方法如下:
准确度表示正向预测的准确度和所有正向预测中真阳性预测的比例。其定义公式如下
可重复性(灵敏度)表示识别模式所有相关实例的能力,以及在所有实际阳性实例中真阳性的比例。其计算方法如下
误报率 (FAR) 衡量所有负实例中的误报比例。其计算公式如下
接收者操作特征曲线(ROC)是二元分类问题的评价指标,是一条概率曲线,绘制了不同阈值下的真阳性率(TPR)和假阳性率(FPR)。曲线下面积(AUC)是区分类别能力的衡量标准,是 ROC 曲线的总结;AUC 越高,模型的性能越好。
结果
数据预处理
首先,对数据进行随机特征对绘图(见图 4)。观察发现,数据类别完全重叠,且分布不规则。缺失值的比例估计为 4.5%,因此删除了缺失值比例超过 50%的 28 列。对于其余 1.26%的缺失值,采用了六种不同的补全方法。
k-NN 完成法显示了最佳的数据分离效果,但有些特征使用中位数完成法拟合了正态分布曲线,有些则使用平均值完成法拟合了正态分布曲线。
图 4:数据预处理后 SECOM 数据的 EDA。 |
基于稀有类别的特征选择投票
通过特征选择方法,共有 183 个特征获得了投票。考虑到每个特征至少有三票,81 个特征被选中。所选特征按降序排列,如图 5 所示,其中特征 433 和 210 在所有特征选择算法中都获得了投票。
图 5:基于稀有类别特征选择方法的投票结果。 |
分类预测评估
本节将介绍分类模型在三种不同测试场景下的结果。使用性能指标和 ROC 曲线来展示每次运行的结果。最后,对三次运行的性能指标进行汇总。
测试方案 I:失衡模式
第一次运行的结果表明,XGB 和 DTC 的性能指标最好,而 GBC 的准确率值相对较低。然而,LR、SVM 和 RF 的结果并不理想:尽管 RF 的准确率达到了 100%,但它并不一定能正确预测所有阳性结果。
虽然 RF 模型预测了所有阴性病例,但由于可重复性非常低,它未能检测到阳性病例。最佳模型应具有最高的准确度、可重复性、平衡准确度、AUC 和最低的误报率;XGB 显示了相对较高的值,是不平衡数据的最佳模型。
图 6:第一个测试方案中不平衡数据的 ROC 曲线 |
表 1:第一个不平衡数据测试方案的结果汇总表 |
测试方案 II:SMOTE 模型的过度取样
在对少数类别进行 70% 的超采样后,SMOTE 的使用提高了所有模型的 AUC 和可重复性。这一点在 LR 和 RF 中尤为明显,SMOTE 提供了一个平衡的训练数据集,使模型能够更好地理解数据分布。
准确率值略有下降,重复率和误报率相应增加。这是由于少数类别的样本量增加了,这意味着分类器检测到了更多的少数类别,可能会误判为负面案例。这一结果凸显了合成数据生成的重要性。
图 7:SMOTE 模型第二个测试方案的 ROC 曲线 |
表 2:SMOTE 模型第二个测试方案的结果汇总表 |
测试方案 III:组合重采样模型
通过对多数类进行 80% 的低采样和对少数类进行 40% 的高采样,XGB 的 AUC 和重现性显著提高,分别达到 0.95 和 0.93。这表明数据重采样对模型的改进非常明显。
DTC 的平衡精度也提高到了 88%,被认为是最高精度值。不过,准确率值明显下降,误报率略有上升。造成这一结果的原因是合成数据的减少和两类观测数据的趋同。
图 8:组合重采样模型的第三种检测方案的 ROC 曲线。 |
表 3:组合重采样模型第三个测试方案的结果汇总表。 |
最后,总结了三次运行的结果,并显示了各项性能指标的变化趋势。除 DT 和 LR 外,平衡精度没有明显改善。重采样改善了故障检测,XGB 和 GBT 的重现性分别跃升至 93% 和 90%。错误检测率的提高导致合规产品分类率略有下降,误报率有所上升。
表 4:与最近发表的期刊文章比较 |
结论
在这项研究中,对来自真实半导体制造工厂的 SECOM 数据集进行了详细分析和分类。对 18 种不同的方法进行了评估,包括数据完成、数据不平衡处理、特征选择和分类等不同阶段。
此外,还多次尝试选择适当的算法进行缺失值补全、模型超参数调整和调整重采样率。
所提出的方法强调基于稀有类别的特征选择和特征投票,与现有方法相比,该方法显著提高了正面案例的模型预测能力。该方法有效地识别了最重要的特征,提高了模型准确预测故障的能力。
此外,还将对得票最高的特征与其他传感器信息一起进行分析,以便更深入地了解故障原因,并确定制造过程中最关键的阶段。
这项实验评估确定了 SECOM 数据集分类的最佳工具和阶段。结果表明,XGB(用于分类)、SMOTE(用于合成数据生成)、特征投票(用于特征选择)和混合算法(用于缺失数据补全)都具有优越性。
这些研究结果证明了所提出的方法在处理复杂和不平衡的行业数据集方面的有效性,并将为在半导体制造领域建立更可靠、更准确的预测模型铺平道路。
未来,大规模语言模型(LLM)和生成式人工智能可以为解决类不平衡问题提供创新的解决方案。通过生成合成数据和增强数据增强策略,这些先进的人工智能技术有望进一步提高模型的稳健性和处理不平衡数据集的准确性。
与本文相关的类别