最新AI論文をキャッチアップ

ラベル付き学習データ不足の問題に対処する敵対的ドメイン適応

ラベル付き学習データ不足の問題に対処する敵対的ドメイン適応

Domain Adaption

3つの要点
✔️ ソースドメインがターゲットドメインと異なる特徴を持つ場合に、異種適応をサポートする新しい敵対的ドメイン適応アプローチ
✔️ ドメイン適応アプローチとオートエンコーダーベースのデータ増強アプローチを組み合わせることで、ターゲットデータセットのバランスが悪いという問題に対処
✔️ ターゲットデータセット中のラベル付きサンプル数が著しく少なく、ターゲットデータセットが不均衡な場合に、他のアルゴリズムに対して優れた性能を示すことを実証

Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation
written by Adrian Shuai LiElisa BertinoRih-Teng WuTing-Yan Wu
[Submitted on 31 May 2023]
Comments: Published on arxiv.
Subjects: 
Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この論文では、半導体製造工程でのウェハー欠陥予測の画像データをモティーフにしています。業界関係者には興味深いと思いますし、それ以外の読者にもAIを含むITを支える半導体デバイスの製造工程についての論文は興味深いのではないかと思います。

ディープラーニング(DL)技術は、画像からの欠陥検出に非常に有効です。しかし、DL分類モデルの学習には膨大な量のラベル付きデータが必要であり、その収集にはコストがかかることが多いです。多くの場合、利用可能な学習データは限られているだけでなく、不均衡である可能性もあります。本論文では、類似の学習タスクに使用される既存のソースデータセットから得られた知識を転送することで、ターゲット学習タスクのラベル付き学習データ不足の問題に対処する、新しいドメイン適応(DA)アプローチを提案します。本アプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同じ特徴空間を持つ、あるいは異なる特徴空間を持つシナリオに対して有効です。著者らのDAアプローチとオートエンコーダーベースのデータ増強アプローチを組み合わせることで、ターゲットデータセットのバランスが悪いという問題に対処します。著者らは、ウェハー欠陥予測のための画像データを用いて、著者らの組み合わせアプローチを評価します。実験の結果、ターゲットデータセット中のラベル付きサンプル数が著しく少なく、ターゲットデータセットが不均衡な場合に、他のアルゴリズムに対して優れた性能を示します。

はじめに

欠陥検出は重要な製造工程ですが、人的コストが高く、時間もかかることが多いです。例えば、半導体のウェハー製造では、ウェハー表面の顕微鏡画像をスキャンし、欠陥があるかどうかをオペレーターが手作業で検査しなければなりません。別の例として、食品産業で使用される溶液中の結晶サイズ分布の分析が挙げられますが、この分析は顕微鏡を使用してオペレーターが手作業で行っています。したがって、機械学習(ML)技術が、機械の故障診断、製造装置の寿命予測、製品の欠陥認識、センサーの故障に対する堅牢性の向上などの多くのアプリケーションで、画像、音、振動など、さまざまな種類のデータを効率的かつ効果的に分析する能力があるため、使用されていることは驚くべきことではありません。

しかし、MLベースのソリューションを使用するための要件は、適切な量のトレーニングデータセットが利用可能であることです。Shaoらが論じているように、ディープラーニング(DL)モデルのような複雑なMLモデルを使用する場合、このような要件は特に重要です。その理由は、これらのモデルは層数が多く、大規模な学習データセットを必要とするからです。このような問題に対処するための有望なアプローチは、移転学習(Transfer Learning:TL)技術の使用です。移転学習では、事前学習済みモデルまたは学習データの形で、知識を、ソース・ドメインと呼ばれるあるドメインから、学習データが乏しいターゲット・ドメインと呼ばれる関連するが異なる別のドメインに移転することができます。関連するドメインの例としては、異なる年齢層の脳MRI画像、夏と冬の写真、異なるカラーフィルターで撮影された写真などがあります。また、学習データは、特に収集プロセスが不正確または困難な場合、ラベルの欠如やクラス分布の不均衡など、品質が低い可能性があることに注意することが重要です。

データ不足の問題に対処するために、従来のTLベースのアプローチは、通常、事前に訓練されたモデルを活用し、ターゲットドメインの限られた訓練サンプルを使用して、訓練可能なパラメータを微調整します。しかし、これらの事前学習済みモデルは、通常、ImageNetのような巨大なデータセットから推論を学習するため、モデルには多くの冗長な特徴や、ターゲット推論タスクには何のメリットもない無関係な潜在空間が含まれています。さらに、例えばどのレイヤーを学習可能かを決定するために、手作業が必要となります。一方、敵対的ドメイン適応(DA)は、同じラベルセットを持つソースドメインからの学習サンプルを活用することで、ターゲットタスクを学習することを目的としています。ドメインシフトに適応するために、DAではニューラルネットワークを使用して、異なるドメインからのデータのドメインに依存しない表現を作成します。ドメインに依存しない表現がソース・ドメインのオブジェクトを効果的に分類できれば、ターゲット・ドメインでも同じオブジェクトを認識できる可能性があります。DAアプローチは、多くの画像ベンチマークで有効であることが示されています。しかし、バランスの取れたターゲット領域のデータセット(ターゲットも限られたラベルを持つ)という仮定は、多くのDAアプローチの共通の限界です。現実のデータセットは、クラス分布が不均衡であることが多く、DAモデルの性能に悪影響を与える可能性があります。

クラスの不均衡に対処するために、一般的なアプローチとして、画像のワーピング、重み付き損失関数、少数クラスと多数クラスそれぞれの学習データのオーバーサンプリングとアンダーサンプリングがあります。しかし、これらの手法の有効性は、データセットの性質や手元の学習タスクに大きく依存します。また、生成的敵対ネットワーク(Generative Adversarial Network:GAN)、オートエンコーダ(Autoencoder:AE)、拡散モデル(Diffusion Model)などの生成モデルを活用して、データ補強用の合成画像を生成するアプローチもあります。生成モデルは、識別モデルとは異なり、現実的なデータサンプルを生成することができるため、今後数年間で、多くの応用領域において大きな影響を与えることが期待されています。合成データは通常、実世界のデータよりも入手が容易でコストもかからりません。それにもかかわらず、これらのモデルから生成された合成データの大きな問題の1つは、合成データセットを使用して構築されたシステムが、実世界に展開されたときにしばしば失敗することです。これは、合成データと実データ間の分布のずれによるもので、シム-トゥ-リアル(sim-to-real)問題として知られています。

本稿では、これらの欠点を解決するパイプラインを紹介します。このパイプラインは、(A)ガウシアンノイズとエンコーダによって学習された潜在空間を利用して少数クラスの合成データを生成することによってターゲットデータを増強することができる、オートエンコーダーベースの手法と、(B)学習データの不足と合成データのシフト問題に対処する、敵対的DAに基づく新しいTLドメインアーキテクチャを組み合わせます。オートエンコーダーに基づく手法は、DA用に拡張されたターゲットデータがバランスの取れたクラス分布を持つことを保証します。実ターゲットデータへの汎化を改善するために、ソースデータと拡張ターゲットデータを用いて提案するDAアプローチを適用します。本論文の主な貢献は以下の通りです:

1) 少ないデータセットと不均衡なデータセットの問題に対処するDLパイプライン
2) 異種ソースデータセットとターゲットデータセット(例えば、ソースデータとターゲットデータが異なる特徴空間を持つ)の適応のための、新しい敵対的DAベースのアプローチ
3) 一般的に使用されるウェハ製造データセットを用いた、提案パイプラインの広範な評価と他の手法との比較。両手法を併用することで、各手法を単独で使用する場合と比較して、より優れた性能が得られることを示す。

データ増強による敵対的ドメイン適応

本論文のパイプラインは2つのステップで構成されています。最初のステップでは、オートエンコーダーベースのアプローチを用いて、対象データセットにアンバランスなクラスを補強します。ソースデータセットはバランスが取れていると仮定します。第二のステップは、ターゲットデータセットのクラスを予測するための分類モデルを生成します。分類モデルは、著者らの敵対的DAアプローチを使用して、ソースデータセットと拡張されたターゲットデータセットから学習されたドメインに依存しない潜在空間を入力として使用します。

A. オートエンコーダによるデータ補強

オートエンコーダは、入力を再構成するように学習されたニューラルネットです。すなわち、入力 x に対して圧縮された潜在空間 h = enc(x) を生成するエンコーダ enc と、再構成 $ \hat{x} $ = dec(h) を生成するデコーダ dec です。目的は、以下の再構成誤差を最小化することです:

オートエンコーダはミニバッチ勾配降下法で学習できます。各バッチで、オートエンコーダにいくつかのデータを与え、誤差をバックプロパゲートしてレイヤーを通してネットワークの重みを調整します。オートエンコーダはデータから有用な情報を抽出することができますが、データの有用な特性を学習することなく、入力を出力にコピーすることでごまかすことができます。コピータスクを防ぐ1つの方法は、潜在空間の次元が入力よりも小さい不完全オートエンコーダを使用することです。次元が小さくなると、オートエンコーダはデータの最も重要な属性を学習せざるを得なくなります。

不完全オートエンコーダを用いて合成データを生成するために、まずターゲットデータを用いて(1)の損失関数を用いてオートエンコーダを訓練します。次に、アルゴリズムは学習済みオートエンコーダの入力として元データを受け取り、元データを圧縮表現にマッピングします。生成された表現をデコーダに渡す代わりに、標準ガウス分布から引かれたランダムなノイズを表現に加え、それをデコーダに渡して新しい合成データを生成します。新しいデータは元のデータと同じクラスとしてラベル付けされます。バランスの取れた学習データセットを得るために、サンプルの少ないクラスに対してアルゴリズムを何度も繰り返します。最後に、上記の手順で生成された元データと合成データを組み合わせて、拡張されたターゲットデータを得ます。拡張されたデータは、後述するDAアルゴリズムで使用されます。

B. 敵対的ドメイン適応

・1) ネットワーク、入力と出力

本論文のアーキテクチャは5つのニューラルネットワークから構成されています(図1参照)

1) GS はソースのプライベート・ジェネレーター

2) GT はターゲットのプライベート・ジェネレーター

3) G は共有ジェネレーター

4) D は識別器

5) C は分類器

簡単のため、ニューラルネットワークの名前には、ネットワーク・アーキテクチャとそのすべての重みが含まれていることに注意してください。

図1. 提案するDAアルゴリズムの説明図

ソース・データは (xs, ys, ds) で与えられ、xs はソース・データ・サンプル、ys はラベル、ds はソースのドメイン ID です(例えば、任意のソース・サンプル $ x^s_i $ に対して $ d^s_i $= 0)。同様に、ターゲット・データは (xt, yt, dt) で与えられ、xt はターゲット・データ・サンプル、yt はラベル、dt はターゲットのドメイン ID です(例えば、任意のターゲット・サンプル $ x^t_i $ に対して $ d^t_i $= 1)。さらに、Ns はソース・ドメインのサンプル数、Nt はターゲット・ドメインのサンプル総数を表します。Ns ≫ Nt とします。

xsとxtはそれぞれプライベート・ジェネレーターGSとGTへの入力。GSとGTは別々のネットワークなので、入力xsとxtは異なる次元を持つことができます。共有生成器Gは、GSとGTの出力から領域独立表現(DI )を学習します。したがって、プライベート・ジェネレータは同じ形状の出力ベクトルを 持たなければなりません。対応するネットワークによるDIの出力は

DIはその後、ネットワークDとCの入力として使用されます。2つのネットワークの出力は、識別器Dからの$ \hat{d} $と分類器Cからの$ \hat{y} $です。

・2)損失関数とトレーニング

分類損失は以下の式で定義され、両ドメイン(ソースでは十分なラベル付きデータ、ターゲットでは限られたラベル付きデータを考慮)におけるラベル予測の誤差を測定します。

ここで$ y^s_i $ と$ y^t_i  $はそれぞれソース入力$ x^s_i $ とターゲット入力$ x^t_i $ のラベルのワンホットエンコーディング。$ \hat{y}^s_i $ と $ \hat{y}^t_i $ は C のソフトマックス出力で、ターゲットデータ点から得られる損失値に対するペナルティ係数として λ を用います。良い分類器は、ソースデータ点とターゲットデータ点に対して正しいラベルを予測するべきです。

識別器の損失は、DIがソース・データから生成されたものか、ターゲット・データから生成されたものかを区別するために識別器を訓練します。diはデータxi(di∈{0, 1})のドメイン識別で、$ \hat{d}_i $は識別器Dの出力です。識別器の目的はドメイン分類誤差を減らすことなので、Ldを最小化します。 

生成器の損失は、ドメイン真理ラベルを反転した(5)の損失。Lgを最小化することで、ジェネレータは敵対的な方法で訓練され、識別器の損失を最大化します。

 DAを成功させるための要点は、予測可能でドメインに依存しない特徴をドメイン横断的に学習することです。ドメインに依存しない豊かな表現には、入力データがどのドメインのものであっても、効果的な分類に必要な十分な情報が含まれていなければなりません。ドメイン不変性を達成するために、識別器と複数の生成器を敵対的に学習します。DIに予測情報を持たせるために、分類損失を最小化するようにジェネレータも訓練します。次の段落では、訓練アルゴリズムの詳細を説明します。

GS、GT、Gの訓練はLgとLcの最適化から成り、ドメイン分類精度を最小化し、ラベル分類精度を最大化したいからです。識別器は、ドメイン分類精度を最大化するためにLdで訓練されます。分類器の学習にはLcを用います。著者らの学習アルゴリズムは、ミニバッチ勾配降下法に従います。このような手順は、同数のソースサンプルとターゲットサンプルを選択し、出力と損失関数を計算し、重みを勾配ベクトルと反対方向に調整します。この同じプロセスを損失関数が減少しなくなるまで繰り返します。具体的には、固定サイズのミニバッチを作成した後、以下のステップが実行されます。ジェネレータは、式7~9のように、ジェネレータ損失と分類損失を最小化するようにその重みを更新します。分類器は、式11に基づいて、分類損失を最小化するようにその重みを更新します。このステップの間、識別器の重みは凍結されたままです。次に、識別器は式 10 に従って識別器損失を最小化するように重みを更新します。

ここでμは学習率。ハイパーパラメータβ、γは、損失関数の相対的な重みです。

実験

このパイプラインをウェハ欠陥予測に応用します。ウェハー検査は半導体製造における重要なステップであり、ウェハ内のダイを評価し、欠陥のあるダイをフィルタリングします。過去の研究では、機械学習(ML)アプローチを使用して予測プロセスを迅速化してきました。しかし、著者らの実験が示すように、現実のウェハーデータは、ラベルの欠如や不均衡なクラス分布などの低品質に悩まされており、ほとんどのML手法は適していません。実験では、微調整ベースの手法やDLベースの手法など、既存のアルゴリズムとの比較も行いました。

A. ウェハデータセット

・1) ソース・データセット

MixedWM381データセットをソースデータセットとして使用します。MixedWM38には、1つの正常パターン、8つの単一欠陥パターン、29の混合欠陥パターンがあり、各カテゴリに約1000のサンプルがあります。これらのウェーハマップはウェーハ製造工場で取得されたものです。各ウェハマップのサイズは 52 × 52 です。MixedWM38には欠損ラベルがなく、データサイズも一定です。学習データセットもバランスが取れています。

・2) ターゲット・データセット 

WM-811Kデータセット2をターゲットとしています。WM-811K データセットは、46293 ロットから収集された 811457 枚のウェハーマップから構成されています。このデータセットには8つの単一欠陥パターンと1つの正常クラスが含まれており、これらはMixedWM38にも含まれています。しかし、WM-811Kデータセットには製造データセットに見られる3つの共通の問題があります。第一の問題は、このデータセットには大量のラベル無しサンプルがあることです。9種類のウェーハマップのうち、学習に使用できるラベル付きウェーハマップは約20%に過ぎません。次に、ラベル付けされたウェハーマップのサイズが異なることです。最後に、データセットは非常に不均衡です。

最初の2つの問題を解決するために、ラベルのないウェハーマップを削除し、残りのデータからサイズ26×26のウェハーマップを選択します。このサイズを選んだのは、各クラスにデータがある唯一のサイズグループだからです。不良の分布によってグルーピングして、中央90枚、ドーナツ1枚、edge-loc 296枚、edge-ring 31枚、local 297枚、near-full 16枚、random 74枚、scratch 72枚、normal 13489枚。ドーナツ以外の各クラスについて、60%のウェハーマップをトレーニングセットからランダムに選択し、残りをテストセットに含めました。この2つのセットは、ドーナツクラスで同じデータを共有する以外は不連続で、利用可能なサンプルが1つしかないため、このようなパターンを分類に含めたいと考えています。

第3の問題、すなわち不均衡な訓練データに対処するために、紹介したオートエンコーダーベースのデータ増強法を使います。エンコーダは64の3×3のCONV層、1つのRELU活性化層、1つのMAXPOOLING層を持ちます。デコーダは 64 3 × 3 CONVT 層、UPSAMPLING 層、3 3 × 3 CONV 層、SIGMOID 出力層。トレーニングセットの各欠陥クラスについて、2000 枚の合成ウェハーマップを生成しました。ノーマルクラスはトレーニングセットに既に多くのデータが含まれているため、スキップしました。データ増強は、WM-811Kのテストデータを見ることなく、WM-811Kのトレーニングデータのみを使用することに注意してください。

B. 実験の説明

異なる設定と異なるアプローチでパイプラインを比較します。検討した方法は以下のとおりです:

・1)敵対的DA+拡張ターゲットデータ

著者らはMixedWM38訓練データをソース訓練データとして使用し、拡張WM-811K訓練データをターゲット訓練データとして使用します。これらのデータは敵対的DAネットワークの入力として使用され、その後説明したプロセスに基づいて学習されます。これが提案するアプローチです。

 実験に使用したアーキテクチャでは、GS/GTは2つの畳み込み層:8つの5×5フィルタ(CONV1)、16の5×5フィルタ(CONV2)、CONV1とCONV2の後にそれぞれ2×2のサイズの2つのマックスプーリング層、そして2028のニューロンを持つ1つの完全接続層を持ちます。GはGSとGTと同じ構成ですが、最後の完全接続層は1024ニューロンしかなく、ネットワークの最初に(26, 26, 3)のリシェイプ層を追加します。Dの構成はGと似ていますが、ドメイン予測のためのソフトマックス出力層があります。分類器は、それぞれ1024と512のニューロンを持つ2つの完全接続層と、クラス予測のためのソフトマックス出力層を持ちます。

・2)敵対的DA+不均衡なターゲットデータ

敵対的DAネットワークを使用することに変わりはありませんが、ターゲットの訓練データを、オーグメンテーションなしの不均衡なWM-811K訓練データに置き換えます。このアプローチとアプローチ1)を比較することで、データ増強ステップが敵対的DAのパフォーマンスを向上させるかどうかを判断します。

・3) ファインチューニング + ターゲットデータの増強

誘導モーター、ギアボックス、ベアリングの画像から機械の故障を識別するために、一般的な画像から学習した知識を転送するために、Shaoらによる微調整アプローチを使用します。彼らは、ImageNetで事前に訓練されたVGG 16モデルを使用します。VGG 16には5つの畳み込みブロックと完全連結ブロックがあります。最初の3つの畳み込みブロックをフリーズさせ、最後の2つの畳み込みブロックと完全連結ブロックを、機械故障診断データセットを使用して再トレーニングします。クロスエントロピー損失は、真のラベルと予測確率の誤差を評価するのに役立ちます。著者らは彼らのアプローチを実装しますが、機械故障データセットを拡張WM-811Kトレーニングデータセットに置き換えます。事前に訓練されたVGG 16モデルの出力層は、9つのクラスに対応する9つのニューロンを持つ新しい層に置き換えられます。

・4) ファインチューニング + アンバランスなターゲットデータセット

このアプローチは前のものと同じですが、アンバランスなWM-811Kトレーニングデータセットを使用します。このアプローチと前回のアプローチを比較することで、データ増強ステップが微調整アプローチに有効かどうかを判断します。

・5) バニラ分類器 + 拡張ターゲットデータセット

ウェハーマップの欠陥を検出する分類器として機能するディープニューラルネットワークを学習します。このネットワークは、クロスエントロピー損失を使用して、WM-811Kのトレーニングデータを拡張してトレーニングされます。この分類器は、当社のDA手法で使用されている予測パイプラインと互換性のあるアーキテクチャを採用しているため、比較数値は公正で意味のあるものとなります。分類器には3つの畳み込みブロックと2つの完全連結ブロックがあります。各畳み込みブロックにはCONV層とRELU層があります。畳み込み層は、それぞれ{16, 64, 128}の増加出力フィルタを持ちます。各完全接続ブロックには FC 層と RELU 活性化層があります。第 1 FC 層は 512 ニューロン、第 2 FC 層は 128 ニューロン。出力層は9ニューロンで、各クラスの確率を予測するためのSOFTMAX層が続きます。

・6) バニラ分類器+不均衡ターゲットデータセット

不均衡なWM- 811K訓練データを用いて、5)と同じディープニューラルネットワークを訓練します。

結果と分析

敵対的DAと他の分類モデルのトレーニングには、TensorFlowとKerasライブラリを使用します。敵対的DAでは、バッチサイズ32で20000回の反復学習を行います。アダム・オプティマイザを2e-4の開始学習率で使用し、ハイパーパラメータλ = 0.1, β = 1, γ = 1を設定します(ハイパーパラメータは検証サンプルを使用してチューニングされていません)。微調整アプローチでは、Kerasによって実装されたVGG 16の事前学習済みモデルは、入力が正確に3つの入力チャンネルを持ち、幅と高さが32より小さくないことを要求します。対象となる学習データの入力サイズは26×26×3であり、無効な値です。ファインチューニングアプローチとバニラ分類器法では、バッチサイズ32、学習率2e - 4のAdamオプティマイザで60エポックの学習を行います。各エポックにおける性能を比較することで、最適な重みを保存する早期停止手法を学習に適用します。

この評価のために、ソーストレーニングデータセットは9つのカテゴリから5,294個のウェハーマップが均等に分布しています。これらの実験はすべて、無作為に選択された25、50、75、100、200、500、1000サンプルのみを含むターゲットトレーニングデータセットに対して行われました。これらの実験の目的は、異なるモデルの性能に対するターゲットトレーニングデータサイズの影響を示すことです。バランスの取れた分類精度と正確さは、ターゲットテストデータ上で計算され、95%信頼区間は、表Iと図2に示されます。これらの信頼区間は5回の繰り返し実験から得られたものです。表IIは、異なるアプローチのトレーニング時間とテスト時間を示しています。性能指標は、不均衡なデータセット上でモデルを評価するのに適しています。バランス精度は、アンバランスなデータでうまく機能するように設計されています。これは各クラスで得られたリコールの平均として定義され、真陽性の合計を真陽性と偽陰性の合計で割ったものとして計算されます。一方、精度は、すべてのクラスにわたる真陽性の合計を、すべてのクラスにわたる真陽性と偽陽性の合計で割ったものとして計算されます。偽陽性が多ければ、精度は低くなります。

図2. 補強されたターゲットデータと不均衡なターゲットデータを用いて達成された分類精度スコア、6つのアプローチを比較:補強/不均衡ターゲットサンプルで訓練されたバニラディープCNN、補強/不均衡ターゲットデータで微調整された事前訓練VGG 16モデル、補強/不均衡ターゲットデータで訓練された本論文の敵対的DAアーキテクチャ。

表 I

WM-811Kテストデータにおけるバランスの取れた分類精度と平均再現率の比較

表II

3つの手法の訓練時間とテスト時間の比較。結果は、拡張されたターゲット訓練データからサンプリングされた1000個のターゲットデータで得られています。提案するdaモデルはオフラインで学習可能。予測時間はバニラ分類器と同程度。

25~1000サンプルでは、我々のターゲット増強付き敵対的DA手法は、精度と精度のバランスという点で、ファインチューニング手法やディープCNN手法を凌駕していることがわかります。ResNetのようなより洗練されたモデルを使えば、我々の手法とディープニューラルネットワークの性能はさらに向上するでしょう。とはいえ、同等のアーキテクチャで、非常に少ないデータで訓練した場合のバニラ分類器アプローチの劣った性能は、DLアプローチの限界を示しています:モデルの入力出力関数を学習するためには、多くの訓練データが必要です。この学習がうまくいかないと、モデルが学習データを記憶してしまい、新しいテストデータに対してうまく汎化できないという、よく知られているオーバーフィッティングの問題が発生します。TLアプローチとして、ファインチューニングは事前に訓練されたモデルを使用するため、ネットワークはターゲットタスクに転送できる賢明な重みを得ることができます。しかし、学習データの不足という問題に直接対処することはできません。我々の実験における微調整アプローチのパフォーマンスの低さは、事前学習モデルの重みをうまく更新するために相応の量のターゲットデータを必要とするImageNetとウェハーマップの大きな違いに起因しているのではないかと推測しています。一方、私たちの敵対的DAアプローチは、最適化の過程で出現するドメイン不変な特徴を使用することで、少ないターゲット学習データの問題を軽減するため、最高の結果を達成します。十分なバランスの取れたソースデータがあれば、敵対的学習フレームワークによって、非常に限られたターゲットデータでもその特徴を学習することができます。

3つの方法すべてにおいて、増強されたターゲットデータで学習することで性能が大幅に向上し、高度に不均衡なデータに対処する際のデータ増強技術の有効性が示されます。例えば、敵対的DAアプローチに増強されたターゲットを使用した場合、25~1000サンプルのバランス精度は5%~16%向上し、精度は6%~15%向上します。この観察は、ファインチューニングとバニラ分類器の手法ではさらに顕著です。アンバランスなターゲットでは、fine-tuning 法は有用な学習ができません。一方、1000個の増強されたターゲットサンプルをトレーニングに使用した場合でも、著者らのDAアプローチが他の手法を上回るという証拠は、このDAアプローチがターゲットテストデータ(実データ)においてより良く汎化することの確認になります。

分類以外のタスクにDAを使用

学習データ不足の問題に対処する著者らのアプローチは、分類以外のタスクにも拡張可能です。ここでは、最適化、強化学習、ロボット学習の分野における、ドメインシフトを扱い、効果的な知識伝達を達成するための最近のアプローチについて簡単に説明します。

移転最適化(Transfer Optimization: TO)の分野では、様々な移転元最適化問題からの解を、移転先最適化問題の解として利用します。Jiangらのアプローチは、動的最適化問題の探索効率を向上させるために、古典的な進化的最適化アルゴリズムにDA法を統合したものです。また、最適化すべき関数、すなわち目的関数を人工ニューラルネットワーク(ANN)を介してモデル化するアプローチも提案されています。このような近似は、計算コストの削減など コストを削減するのに有効です。しかし、これらのアプローチでは、既知の関数から生成された入出力ペアを使用してANNをトレーニングする必要があります。基礎となるターゲット関数が未知であり、利用可能な測定値が限られている場合、我々のDAは、既知の関数からの入出力ペアを、ターゲット領域、すなわち、未知の関数に支配される非常に限られた測定サンプルの学習を導くためのソース領域として使用することができるという意味で使用することができます。

強化学習(RL)において、未解決の問題の1つは、入力データの分布が時間とともに変化する可能性があるため、学習されたポリシーが新しい入力データに対してうまく機能しない可能性があることです。最近では、入力分布が時間と共に変化してもRLエージェントが有効に機能するようにDAを適用するアプローチが提案されています。このシナリオでは、ソース・ドメインは特定の報酬構造を持つ特定の入力分布です。ターゲット・ドメインでは入力分布が変更されますが、報酬構造は同じです。ドメインシフトは、学習ベースのロボットの知覚と制御における主要な課題でもあります。

シミュレートされたデータを使って訓練されたロボットは、シミュレートとリアルのギャップのために、現実の環境ではしばしば失敗します。Tzengらによるアプローチは、領域混同損失(Lgに類似)とペアワイズ損失を併用することで、合成画像から実画像への姿勢推定の適応に成功しています。

限界

関連するターゲット・タスクの汎化を向上させるために、単一のソース・ドメインからの利用可能なデータを使用しますが、関連する多くのドメインからのデータが有用である場合もあります。例えば、ソース・ドメインとして使用するために、時間をかけて収集された、または異なる関係者から収集された、複数のラベル付き製造データセットがあります。我々の現在のアプローチは、マルチソースドメイン適応を直接サポートしていません。マルチソースの設定で著者らのアプローチを使用するには、すべてのソースデータを 1 つのソース・ドメインとして結合するか、各ソース・ドメインで個別に学習し、最も優れたパフォーマンスを持つものを選択する必要があります。より良いアプローチは、各ソース・ドメインを個別のドメインとして扱い、異なるドメ イン間で共有される情報を学習することです。この方向に沿った研究は、単一ソース・アプローチよりもターゲットで優れた汎化パフォーマ ンスを示しています。

著者らのアプローチのもう1つの限界は、ターゲット・ドメインの各クラスから少なくともいくつかのラベル付きデータが必要なことです。その理由は、オートエンコーダーベースのデータ増強手順では、バランスの取れたターゲットデータセットを構築するために、元のターゲットが各カテゴリからのラベル付きデータを持つ必要があるからです。著者らの敵対的DAアプローチは、ターゲットデータにラベルがない教師なし設定で、ターゲットデータがバランスされていることを条件に、単独で使用することができます。

関連研究

A. 敵対的学習に基づくアプローチ

これらの手法は通常、特徴抽出器/生成器とドメイン識別器の2つの競合するネットワークを使用することで、ドメインに依存しない表現を学習します。最初の敵対的DAモデルの1つであるドメイン敵対的ニューラルネットワーク(DANN)は、特徴抽出器、ラベル予測器、ドメイン分類器の3つのコンポーネントを持ちます。特徴抽出器は、その勾配を反転させることでドメイン分類器の損失を最大化するように、敵対的な方法で学習されます。特徴抽出器はラベル予測器と同時に訓練され、分類のためのドメイン不変特徴を含む表現を作成します。ADDA(Aversarial discriminative domain adaptation)も同様のコンポーネントを持ちますが、その学習プロセスにはコンポーネントを学習するための複数のステージが含まれます。Singlaらは、DANNとADDAのハイブリッド版を提案し、生成器は標準的なGAN損失関数で学習されます。

これらの手法はすべて、ソース・ドメインとターゲット・ドメインの間のドメインに依存しない表現を学習することを目的としています。しかし、これらの手法はソースデータとターゲットデータが同じ特徴空間を持つ(例えば、両者が同じ次元を持つ)ことを前提としています。代わりに、我々のモデルは、2つのドメインからのデータが異なる次元/異なる特徴数を持つことができる異種ドメイン適応をサポートします。また、これらの手法はすべて、ターゲットがまだ十分なラベルのないデータを持っており、ターゲットデータがラベルを持っていないにもかかわらず、まだバランスが取れているという設定を考慮しています。しかし、アプリケーションによっては、これらのモデルは現実のデータに対して不均衡なクラス分布に悩まされる可能性があります。本研究では、対象が少数のラベル付きデータしか持たず、非常に不均衡であるという、より現実的な低品質対象データの設定を考えます。 

B. 合成データ拡張

いくつかのアプローチは、DCGAN、CycleGAN、Conditional GANなど、合成データを生成するためにGANベースのアーキテクチャを使用します。生成モデリングのもう1つの一般的な戦略は、オートエンコーダ-入力を再構成するように訓練されたニューラルネットワーク-を使用することです。このネットワークには、圧縮された潜在空間を生成するエンコーダと、再構成を生成するデコーダの2つのコンポーネントがあります。圧縮された表現にノイズを加えることで、オートエンコーダは元データのバリエーションを生成します。近年、拡散モデルは、その顕著な生成能力により大きな注目を集めています。拡散モデルの学習は、入力データをノイズで反復的に摂動させる順拡散段階と、前段階を逆にして入力データを復元しようとする逆拡散段階の2段階から構成されます。しかし、拡散モデルは学習中に繰り返しステップを踏むため計算コストが高く、時間に敏感なタスクには不向きです。手元のタスクに適した生成モデルを選択するには、各モデルの利点、限界、コストを考慮する必要があります。

GANは学習が不安定で、学習中にモード崩壊を起こしやすいことが知られているからです。また、GANは大量の学習データを必要とします。一方、オートエンコーダーベースのデータ増強法は、学習に必要なデータが少ないため、対象が限られたデータしか持たないという問題設定に合致します。また、より複雑な拡散モデルよりも高速です。

結論

本論文では、ソースドメインがターゲットドメインと異なる特徴を持つ場合に、異種適応をサポートする新しい敵対的DAアプローチを提案しました。DAアプローチは、2つのプライベートジェネレータと1つの共有ジェネレータを訓練することで実現されます。DAアプローチはターゲットトレーニングデータの不足の問題に取り組むことを目的としていますが、ターゲットデータが不均衡な場合はうまく機能しません。多くのメーカーが低品質データの現実に直面しており、バランスの取れたデータを収集することは困難です。この問題に対処するために、著者らはさらに、訓練データ中の少数クラスを補強するためのオートエンコーダーベースの技術を用いたパイプラインを提案し、その後に著者らのDAアプローチを行います。ウェハ欠陥データセットに対するこのパイプラインの実験的評価は、他のベースラインアプローチと比較して、その優れた性能を実証しました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定 日本イノベーション融合学会 DX検定エキスパート 合同会社アミコ・コンサルティング CEO

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする