最新AI論文をキャッチアップ

半導体製造における希少クラス予測モデルの革新

半導体製造における希少クラス予測モデルの革新

Prediction Model

3つの要点
✔️ 半導体製造データのクラス不均衡問題に対処する新しい予測モデルを開発
✔️ 希少クラスの正確な予測を可能にする特徴選択とデータ補完の最適化の手法
✔️ SMOTEを活用したデータ再サンプリング戦略がモデル精度に与える影響を分析

Rare Class Prediction Model for Smart Industry in Semiconductor Manufacturing
written by Abdelrahman FarragMohammed-Khalil GhaliYu Jin
[Submitted on 6 Jun 2024]
Comments: Accepted by arXiv
Subjects: 
Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

産業の進化により、物理システムとデジタルシステムの統合が進み、製造プロセスに関する大量のデータ収集が可能になりました。この統合により、プロセス品質の向上や機器の健康管理に信頼性の高い解決策が提供されます。しかし、実際の製造プロセスから収集されるデータは、深刻なクラス不均衡、高い欠損値率、ノイズの多い特徴といった課題を抱えており、効果的な機械学習の実装を妨げます。

本研究では、スマート半導体製造プロセスから収集されたインシチュデータに対する希少クラス予測アプローチを開発しました。このアプローチの主な目的は、ノイズとクラス不均衡の問題に対処し、クラスの分離を強化することです。

開発されたアプローチは既存の文献と比較して有望な結果を示し、将来のメンテナンス計画や生産品質への洞察を提供する新しい観測の予測が可能となりました。モデルはさまざまな性能指標を用いて評価され、ROC曲線でAUCが0.95、精度が0.66、再現率が0.96を示しました。

はじめに

半導体ウェーハの製造には、酸化、フォトリソグラフィ、クリーニング、エッチング、平坦化など、数百もの高度な製造プロセスが含まれます。ウェーハ歩留まりは、ウェーハ内の総半導体チップに対する適合製品の割合として計算されます。

半導体業界で成功するためには、信頼性が高く正確な品質管理を通じて高い歩留まりを維持することが重要です。歩留まり改善の重要なステップは、ウェーハ歩留まりに大きく影響を与える操作、いわゆる「重要なプロセスステップ」を特定することです。

重要なプロセスステップの選定は、プロセスデータの本質的な複雑さのために重大な課題を伴います。これらのデータは主に多数のインシチュセンサーから取得され、そのため高次元でノイズの多い特徴を持つことが一般的です。また、データは現在の測定技術の限界や低い測定頻度のために高い欠損値率に苦しんでいます。

製造中、各ウェーハはさまざまなプロセスステップを経て、測定機器によって検査されます。これらの検査は時間がかかり、測定ツールの容量が限られているため、実際に測定されるウェーハの割合はごく一部に過ぎません。このランダムサンプリングの実践はデータ分析をさらに複雑にします。たとえば、5つのプロセスステップがあり、測定率が20%の場合、すべてのステップで完全な測定データを得る可能性は0.032%です。

この問題は、500以上のプロセスステップが存在する実際の製造ラインではさらに拡大し、プロセスステップ間の相関関係を確立することが難しくなります。さらに、成熟したウェーハ製造ラインの大部分は、適合品質の高いウェーハを多数生産し、低歩留まりウェーハの発生率を低減します。

しかし、ウェーハ歩留まりを効果的に調査し改善するためには、高歩留まりと低歩留まりの両方のウェーハを分析することが重要です。低歩留まりウェーハの数量は少なく、プロセスの変動性が全体の生産品質に与える影響を評価することを困難です。

関連研究

関連研究は、半導体製造におけるデータ前処理と特徴選択に関する重要な側面に焦点を当てた3つの主要セクションに分かれています。

まず、データセット内の欠損データの一般的な問題に対処します。次に、予測モデリングにおけるクラス不均衡の課題を取り上げ、その効果的なバランス方法を検討します。最後に、分類モデルの予測精度と効率を向上させるための特徴選択方法を議論します。

データ補完方法

欠損データの問題は多くの研究で共通する重要な課題であり、統計分析の信頼性に影響を与え、パラメータ推定において情報の損失やバイアスを引き起こします。欠損データは、完全にランダムに欠損する場合(MCAR)、ランダムに欠損する場合(MAR)、および欠損値自体に依存する場合(MNAR)の3つの形式に分類されます。

MCARは、観測された変数や未観測の変数に依存せずにデータが欠損する場合を示し、系統的な損失がないことを意味します。一方、MARは、他の観測変数に関連して欠損インスタンスが発生する場合であり、データセットの他の変数によって影響を受ける系統的な関係を示します。最も複雑なMNARは、欠損データが欠損値自体に依存する場合を指します。

半導体製造のような実際のシナリオでは、各ウェーハがランダムに選ばれるため、正確なメカニズムを特定することが難しい場合があります。したがって、欠損データは観測値に関連しているため、実際にはMARである可能性が高いです。

伝統的な補完方法としては、削除や平均補完があり、これらは主にMCARの場合に効果的です。これに対し、最大尤度法、多重補完、ホットデック補完、回帰補完、期待値最大化法(EM)、およびマルコフ連鎖モンテカルロ法(MCMC)などの現代的な手法は、MCARまたはMARとして分類されるデータに対してバイアスのない推定を提供するために設計されています。

欠損データの割合が統計的推論の品質に大きな影響を与えるにもかかわらず、許容される欠損データの割合には普遍的に受け入れられている閾値はありません。5%以下の欠損率は一般的に無視できるとされ、10%を超える場合は統計分析にバイアスを導入する可能性が高いとされています。

新しいデータ補完アプローチである「インペインティングKNN補完」が開発され、さまざまな機械学習アプローチを適用した後に平均補完戦略と比較されました。この開発されたアプローチは、一般的なデータ補完手法である平均補完よりも優れた性能を示しました。性能指標は大幅に改善され、再現率が10%、AUCが5%向上しました。

また、連続的な特徴をすべて名義データに変換することで欠損値の補完を行い、異なる特徴タイプごとに一意のアプローチが不要になる手法も効果的であることが示されています。

クラス不均衡

機械学習とデータ分析における欠陥データサンプリングは、特に品質管理や故障検出に関連するデータセットで重要な問題です。これらのシナリオでは、データはしばしば不均衡であり、「欠陥」や「陽性」クラス(例えば、故障や欠陥のインスタンス)と「非欠陥」や「陰性」クラスの間に大きな不均衡が存在します。

この不均衡は、予測モデリングにおいて重大な課題を引き起こし、欠陥クラスが希少であるため、モデルがバイアスを持ち、欠陥を正確に識別できなくなります。モデルは多数派クラスに偏り、高い精度を示すかもしれませんが、少数派クラスのインスタンスを効果的に識別できないため、偽陰性率が増加します。

これは、欠陥検出において特に問題であり、実際の欠陥を見逃す(偽陰性)ことが重大な影響を及ぼす可能性があります。また、不均衡は、精度-再現率のトレードオフを引き起こし、どちらかを改善すると他方が損なわれる傾向があります。

これらの問題に対処するために、データの再サンプリング(少数派クラスのオーバーサンプリングまたは多数派クラスのアンダーサンプリング)、異なる性能指標の使用(F1スコア、精度-再現率曲線、ROC-AUC)、および不均衡データに特化したアルゴリズムの採用が効果的です。

アンダーサンプリング技術は、過剰サンプリングされた多数派クラスの最も代表的なインスタンスを保持することにより、クラス不均衡に対処します。データ駆動モデルとの統合により、このアプローチは大幅に進化し、少数派クラスに近いインスタンスを選択的にアンダーサンプリングすることで、不均衡問題をより効果的に軽減します。

特定の方法として、クラスターベース、Tomekリンク、および凝縮近傍法(Condensed Nearest Neighbours)が意思決定境界を洗練し、分類器の精度を向上させます。各アンダーサンプリング技術には独自の利点と課題があり、例えばEdited Nearest Neighbours(ENN)はノイズの多い多数派クラスインスタンスを除去するためにk近傍アルゴリズムを使用しますが、計算量が多く、情報の損失を招く可能性があります。

一方、オーバーサンプリング技術は、少数派クラスを増強することによりクラス不均衡に対処します。ランダムオーバーサンプリングは少数派クラスのインスタンスを複製しますが、過学習を引き起こす可能性があります。

SMOTE(Synthetic Minority Over-sampling Technique)などの方法は、合成インスタンスを生成して多様性を高めますが、ノイズを導入することがあります。Borderline-SMOTEは決定境界近くにサンプルを作成し、クラス間の距離が近い場合に有用です。ADASYN(Adaptive Synthetic Sampling)は学習が難しい少数派インスタンスに焦点を当てますが、ノイズの導入リスクもあります。

特徴選択方法

特徴選択アルゴリズムには、Boruta、マルチバリアット適応回帰スプライン(MARS)、および主成分分析(PCA)が含まれ、最も重要な特徴を選択するために適用されました。結果は、BorutaとMARSを使用した場合、PCAよりも精度が高いことを示しました。また、データが不均衡であり、ランダムフォレスト(RF)およびロジスティック回帰(LR)で分類した場合、勾配ブースティングツリー(GBT)よりも精度が高い値を示しました。

また、Chi-Square、相互情報量、およびPCAなどの特徴選択アプローチも使用されました。分類モデルとしては、LR、k近傍法(KNN)、決定木(DT)、およびナイーブベイズ(NB)が適用され、DTが最も良い結果を示し、F測定が64%、精度が67%となりました。

高次元データの問題に対処するために、SMOTEを使用して高次元を削減し、PCAを適用しました。モデルはROC曲線で評価され、RFがAUCで0.77を示し、KNNおよびLRよりも優れた結果を示しました。

さらに、早期検出予測モデルを開発し、生産性と効率を維持するために機器故障を迅速に検出しました。データ前処理と特徴選択の後、NB、KNN、DT、SVM、ANNの4つの予測モデルが実行され、NBが他のモデルと比較して最良の結果を示しました。SECOMデータセットの分類予測モデルの精度を向上させるために、XGBoostを使用した初期検出予測モデルが適用され、RFおよびDTと比較して有意な結果を示しました。

深層学習とメタヒューリスティックアプローチを適用し、CSOアルゴリズムを使用して隠れ層ノードを最適化するアプローチが提案され、精度70%、再現率65%、精度73%を示しました。深層学習モデルのアンサンブルを適用し、PSOを使用してモデルの重みを決定しました。このアプローチは、KNN、RF、AdaBoost、およびGBTと比較してより良い結果を示しました。

大多数の分類モデルは精度に基づいて開発されていますが、これらの予測モデルは精度のパラドックスを提示します。不均衡データの懸念においては、精度だけでは十分ではありません。希少クラスの予測は、希少クラスが大多数クラスと比較して小さいため困難です。大多数クラスの予測は簡単であり、その精度は容易に分類されます。

しかし、少数派クラスは困難であり、その結果、予測モデルの性能が精度だけで測定される場合、少数派クラスは予測されない可能性があります。そのため、精度が優れているとしても、大多数クラスのみを予測し、少数派クラスを考慮しない可能性が高いです。これらのケースでは、バランスの取れた精度が重要な評価指標となります。

いくつかの先行研究では、少数派クラスの数を増やすためのサンプリング戦略が採用されました。しかし、特徴がデータ分布に基づいて選択された場合、少数派クラスのオーバーサンプリングや大多数クラスのアンダーサンプリングの前に、特徴選択アルゴリズムが影響を受ける可能性があります。

方法論

このセクションでは、半導体製造におけるインシチュセンサーデータの課題に対処するためのアプローチを説明します。ケーススタディと採用されたデータ前処理技術の詳細を含んでいます。これらの前処理ステップには、欠損値への対処、データの分割、データのスケーリングが含まれます。さらに、特徴選択を行い、クラス不均衡を修正するためのデータ再サンプリング技術も説明します。

提案されたアプローチ

図1に示すように、提案された方法論は2つの主要なステージに構成されています:データ前処理とモデル開発および予測。プロセスは初期の探索的データ分析(EDA I)から始まり、データに関する予備的な洞察が得られます。次に、次のステップで欠損値を補完し、データ完全性を確保するための特徴選択が行われます。

処理されたデータはEDA IIに進み、試行錯誤を経てさらに洗練されます。これにより、インサイトに基づいた特徴選択の第2フェーズ(特徴選択II)が行われ、最終的なモデルに使用される最も関連性の高い特徴が選択されます。

図1:提案するアプローチの概略。

ケーススタディ

この研究では、複雑な半導体製造プロセスを代表するオープンソースの産業データセットであるSECOMデータセットを使用しました(図2, 3)。データセットには1567サンプル中591のセンサ測定が含まれており、そのうち104サンプルは故障と分類されています。

半導体データの取り扱いには複数の課題が伴います。半導体製造の高コストのため、プロセスは欠陥を最小限に抑えるように管理されており、その結果、データセットには1:14の比率で顕著なクラス不均衡が存在します。また、センサの故障や操作の見落としに起因する欠損データが多く含まれています。

図2:SECOMデータの探索的データ分析。

図3:SECOMデータの特徴分析。

データ前処理

データ前処理には、欠損値の処理、データの分割、およびデータのスケーリングが含まれます。欠損値の補完戦略として、k-Nearest Neighbors(k-NN)補完が最も効果的であることが示されました。特定の特徴は中央値を使用して補完され、他の特徴は平均値を使用して正規分布曲線に適合するように補完されました。

データ分割

データは不均衡データセットに特に有用な層別交差検証を使用して分割されます。データの一部(トレーニングセット)はアルゴリズムのトレーニングに使用され、残り(テストセット)はアルゴリズムの性能を評価するために使用されます。

5フォールド交差検証技術が採用され、データは均等なサンプル数を持つ5つのサブグループにランダムに分割されます。以下のセクションで説明されているプロセスは5回実行され、1つのフォールドがテストデータとして使用され、残りの4つのフォールドがトレーニングデータとして使用されます。得られたモデルはテストデータを使用してテストされ、性能指標を使用して評価されます。

データスケーリング

データの不規則な状態のため、スケーリングが必要です。特徴スケーリングにより、学習アルゴリズムの分類性能が向上します。データは0から1の線形スケールに正規化され、次の式を使用します:

ここで、Min(X)はデータの最小値、Max(X)はデータの最大値、Ave(X)はデータの平均値です。

特徴選択

数百の特徴のほとんどが不要であるため、希少クラス予測において効果的な予測モデルを作成するためには特徴選択が重要です。開発されたモデルは希少クラスの特徴に偏り、希少クラスに大きく寄与する特徴に優先順位を与えます。特徴選択はこの種の問題において重要なステップであり、選択アルゴリズムは特徴の高次元性に影響を受ける可能性があります。

したがって、3つ以上の特徴選択方法で選ばれた特徴を選択する投票戦略が採用され、少数派クラスからの特徴のみを考慮します。このプロセスは最適な特徴数に達するまで繰り返されます。特徴選択投票の結果、21の特徴が投票者によって無視され、183の特徴が特徴選択方法によって選ばれました。

しかし、12の特徴選択方法すべてで選ばれた特徴は2つだけでした。最終的に81の特徴が選ばれました。

データ再サンプリング

データ再サンプリングの主な目的は、少数派クラスと多数派クラスの間の不均衡問題を解決することです。このステップは、テストデータの過学習を防ぐためにトレーニングデータセットのみに適用されます。少数派クラスのオーバーサンプリングと多数派クラスのアンダーサンプリングの2つの異なる戦略が実行されます。

SMOTE(Synthetic Minority Over-sampling Technique)は少数派クラスに適用され、既存のデータポイント間を補間して合成データポイントを作成します。新しい合成データポイントは次の式で生成されます:

ここで、x_iおよびx_jは既存の少数派クラスインスタンス、λは0から1のランダムな数値です。

アンダーサンプリングとSMOTEの組み合わせ戦略は、少数派クラスを40%オーバーサンプリングし、多数派クラスを80%アンダーサンプリングし、比率を1:14から約4:5に調整します。両方の再サンプリングアプローチで、クラスのサイズを近づける努力がなされます。

これにより、最初のクラス不均衡が大きいためにデータの半分が合成データになることを防ぎます。これらの方法は、クラス不均衡の問題に対処し、モデルが未知のデータに対して一般化できるようにすることを目的としています。

評価指標

テストデータの結果を評価するために、いくつかの指標が使用されます。不均衡および希少クラスデータには、感度と特異度を平均化することにより不均衡を考慮したバランス精度が特に重要です。バランス精度は次のように計算されます:

精度は陽性予測の正確さを示し、すべての陽性予測の中で真陽性の割合を示します。次の式で定義されます:

再現率(感度)はモデルの関連インスタンスをすべて識別する能力を示し、すべての実際の陽性インスタンスの中で真陽性の割合を示します。次のように計算されます:

誤警報率(FAR)はすべての陰性インスタンスの中で偽陽性の割合を測定します。次の式で与えられます:

受信者動作特性(ROC)曲線は、二値分類問題の評価指標であり、さまざまな閾値値で真陽性率(TPR)と偽陽性率(FPR)をプロットする確率曲線です。曲線下面積(AUC)は、クラス間の区別能力を示す指標であり、ROC曲線の要約として機能します。AUCが高いほど、モデルの性能が良いことを示します。

結果

データ前処理

まず、データのランダムな特徴ペアプロットが実行されました(図4参照)。データクラスが完全に重なり、不規則に分布していることが観察されました。欠損値の割合は4.5%と推定され、50%を超える欠損値率を持つ28列が削除されました。残りの1.26%の欠損値については、6つの異なる補完アプローチが採用されました。

k-NN補完が最も良いデータ分離を示しましたが、一部の特徴は中央値補完、他は平均値補完を使用して正規分布曲線に適合させました。

図4:データ前処理後のSECOMデータのEDA。

希少クラスベースの特徴選択投票

特徴選択アプローチの結果、183の特徴が投票されました。各特徴に対して少なくとも3つの投票を考慮し、81の特徴が選択されました。選択された特徴は、図5に示すように、降順で表示されており、特徴433と210はすべての特徴選択アルゴリズムで投票されました。

図5:レアクラスベースの特徴選択アプローチの投票結果。

分類予測評価

このセクションでは、3つの異なるテストシナリオにわたる分類モデルの結果が示されます。各ランの結果は性能指標とROC曲線を使用して示されます。最終的に、3つのランの性能指標のサマリープロットが実行されます。

テストシナリオI:不均衡モデル

最初のランの結果は、XGBとDTCが最も良い性能指標を持ち、GBCが比較的低い精度値を示すことがわかります。しかし、LR、SVM、およびRFは良好な結果を示しませんでした。RFの精度値が100%であるにもかかわらず、必ずしもすべての陽性を正しく予測できるわけではありません。

RFモデルはすべての陰性ケースを予測する一方で、再現率が非常に低いため、陽性ケースを検出できませんでした。最良のモデルは、最も高い精度、再現率、バランス精度、AUC、および最も低い誤警報率を持つべきです。XGBは比較的高い値を示しており、不均衡データにおいて最良のモデルです。

図6:不均衡データの最初のテストシナリオのROC曲線
表1:不均衡データの最初のテストシナリオの要約結果表

テストシナリオII:SMOTEモデルのオーバーサンプリング

少数派クラスを70%オーバーサンプリングした後、SMOTEの使用によりすべてのモデルのAUCと再現率が向上しました。特にLRとRFで顕著です。SMOTEはバランスの取れたトレーニングデータセットを生成するため、モデルがデータ分布をよりよく理解することができます。

精度値のわずかな低下と再現率および誤警報率の対応する増加が見られます。これは、少数派クラスのサンプル数が増えるため、分類器がそれをより多く検出し、負のケースを誤分類する可能性があるためです。この結果は、合成データ生成の重要性を強調しています。

図7:SMOTEモデルの第2テストシナリオのROC曲線
表2:SMOTEモデルの第2テストシナリオの要約結果表

テストシナリオIII:再サンプリングモデルの組み合わせ

多数派クラスを80%アンダーサンプリングし、少数派クラスを40%オーバーサンプリングすることにより、AUCと再現率が大幅に向上し、XGBではそれぞれ0.95と0.93に達しました。これは、データ再サンプリングによるモデルの大幅な改善を示しています。

DTCのバランス精度も88%に向上し、これは最高の精度値とされます。しかし、精度値の顕著な低下と誤警報率のわずかな増加が見られます。この結果は、合成データの削減と2つのクラスの観測の収束に起因します。

図8:複合リサンプリングモデルの第3検査シナリオのROC曲線
表3:複合リサンプリングモデルの第3テストシナリオの要約結果表

最後に、3つのランの結果を要約し、各性能指標の傾向を示します。バランス精度は、DTとLRを除いて大きく改善されませんでした。再サンプリングにより、欠陥の検出が改善され、XGBでは再現率が93%、GBTでは90%に急上昇しました。エラーの検出が増加することで、適合製品の分類がわずかに低下し、誤警報率が増加しました。

表4:最近発表されたジャーナル論文との比較

結論

この研究では、実際の半導体製造プラントから得られたSECOMデータセットを詳細に分析し、分類しています。データ補完、データ不均衡の処理、特徴選択、分類のさまざまな段階を含む18の異なるアプローチが評価されました。

さらに、欠損値補完のための適切なアルゴリズムの選択、モデルのハイパーパラメータチューニング、再サンプリングの割合の調整など、数多くの試行が行われました。

提案されたアプローチは、希少クラスに基づく特徴選択と特徴投票を強調しており、既存の方法と比較して陽性ケースのモデル予測可能性の大幅な改善を示しました。このアプローチは、最も重要な特徴を効果的に特定し、正確に故障を予測するモデルの能力を向上させました。

さらに、最高の投票を得た特徴は、故障原因のより深い洞察を提供し、製造プロセスの最も重要なステージを特定するために、追加のセンサー情報とともに分析されることになるでしょう。

この実験的評価により、SECOMデータセットを分類するための最適なツールとステージが特定されました。結果は、分類においてXGB、合成データ生成においてSMOTE、特徴選択において特徴投票、欠損データ補完において混合アルゴリズムの優位性を示しています。

これらの発見は、複雑で不均衡な産業データセットを扱う上で、提案された方法論の有効性を主張しており、半導体製造におけるより信頼性が高く正確な予測モデルの道が開かれるでしょう。

将来的には、大規模言語モデル(LLM)や生成AIを活用することで、クラス不均衡の問題に対処するための革新的なソリューションを提供できる可能性があります。これらの高度なAI技術は、合成データを生成し、データ拡張戦略を強化することで、モデルの堅牢性と不均衡データセットの取り扱いにおける精度をさらに向上させることが期待できます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定 日本イノベーション融合学会 DX検定エキスパート 合同会社アミコ・コンサルティング CEO

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする