異常性、新規性、オープンセット、外れ値検出を統一的にサーベイ

Survey, Review 2022年01月14日

3つの要点
✔️ 似たような概念である異常性、新規性、オープンセット、外れ値の検出について統一的手法でサーベイ
✔️ それぞれの境界のは様々な定義があり、それに伴って分離する手法のバリエーションがあります
✔️ このサーベイでは、包括的な分析と、今後の研究課題が整理

A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges
written by Mohammadreza Salehi, Hossein Mirzaei, Dan Hendrycks, Yixuan Li, Mohammad Hossein Rohban, Mohammad Sabokrou
(Submitted on 26 Oct 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

機械学習モデルでは、テストデータが学習データと同じ分布(独立同一分布)から引き出されるという「クローズドセット」の仮定が一般的です。しかし、実際には、分類器を学習していないものも含めて、あらゆる種類のテスト入力データに遭遇する可能性があります。残念ながら、モデルは、見たことのないテストサンプルに対して、誤解を招くような信頼値を割り当てることがあります。このため、特にセーフティクリティカルなアプリケーションにおいては、分類器の信頼性が懸念されています。文献では、いくつかの分野で、オープンワールドの設定で未知のもの/異常なもの/分布外のデータを識別するという問題に取り組もうとしています。特に、異常検知（AD）、新規性検知（ND）、１クラス分類（OCC）、分布外（OOD）検知、オープンセット認識（OSR）の問題は、その基本的な重要性と実用的な関連性のために大きな注目を集めています。これらは似たようなタスクに使用されていますが、その違いや関連性は見落とされがちです。

具体的には、OSRは、Nクラスの訓練データセットのKクラスでモデルを訓練し、テスト時には、訓練時には見られなかったN - K個の異なるクラスにモデルを直面させます。OSRは、テスト時に見たサンプルに正しいラベルを割り当て、見たことのないサンプルを検出することを目的としています。新規性の検出や1クラス分類は、Kが1であるオープンセット認識の極端なケースです。マルチクラス分類の設定では、OOD検出の問題はOSRに典型的なものです。つまり、分布中（ID）のサンプルを既知のカテゴリに正確に分類し、意味的に異なるためモデルで予測すべきではないOODデータを検出します。しかし、OOD検出は、より広い範囲の学習タスク（例：マルチラベル分類、強化学習）と解空間（例：密度推定）を包含しており、本稿ではそれらを包括的にレビューしています。前述の領域では、全く正常な学習データセットにアクセスすることを前提としていますが、異常検知では、学習データセットがフィルタリングを適用せずに完全に教師なしで取得されることを前提としているため、異常なサンプルも含まれている可能性があります。しかし、異常な事象はほとんど発生しないため、ADの手法はこの事実を利用し、正常な特徴を完全に把握する最終的なセマンティック空間に到達するために、学習プロセス中にそれらをフィルタリングすることを提案しています。これまでの手法は、物体検出や画像分類の領域で多く用いられてきましたが、異常な事象がほとんど発生せず、正常なサンプルには正常性の概念が共有されている産業用欠陥検出タスクでは、このような設定が一般的です。Fig．1は、これらの領域の違いを視覚的に表したものです。なお、これらの領域の定式化に違いがあっても、共通点が多いため、同じ意味で使われています。

重要な研究分野である異常検知については、これまでにいくつかのサーベイが行われていますが、それぞれの分野に独立して焦点を当てたり、異なる種類のデータセットをすべてカバーするために非常に一般的な異常検知の概念を提供したりしています。その代わりに、それぞれの分野の方法論を詳しく説明しています。このようにして、アイデアを容易に伝播させ、将来の研究にインスピレーションを与えるために、領域間の橋渡しをしています。例えば、タスク固有の特徴を向上させるために、異なるデータセットから外れ値のサンプルを使用するというアイデアは、Outlier ExposureあるいはBackground modelingと呼ばれており、半教師付き異常検知と非常によく似ています。アイデアが共有されているにもかかわらず、いずれもそれぞれの領域において斬新なアイデアであると考えられます。

要約すると、この論文の主な貢献は以下の通りです。

1）相互に関連性が高いにもかかわらず、これまで別々に検討されてきた異なる研究分野の関係を明らかにする。

2）最近の著名な研究を包括的に方法論的に分析し、レビューした手法を理論的かつ視覚的に明確に説明する。

3）現在および将来の研究のための強固な基盤を提供するために、既存のベースラインに対して包括的なテストを行う。

4）将来の研究の方向性を提示し、公正性、敵対的堅牢性、プライバシー、データ効率、説明可能性など、将来提示される手法に必要な基本事項を明示する。

手法分類の一般的な視点

ここでは、入力空間X =R^dおよびラベル（出力）空間Y上の確率変数である合同分布P_X,Yからの学習サンプル(x₁,y₁),(x₂,y₂),...を持つデータセットを考えます。ここで、XとYはそれぞれ入力空間X =R^dとラベル（出力）空間Y上の確率変数です。ADやNDでは、ラベル空間Yは、正常と異常の2値セットとなっています。テスト時には、入力サンプルxが与えられ、モデルは、1クラス設定の場合には、P（Y＝Normal／seen／クラス内｜X＝x）を推定する必要があります。OOD検出やマルチクラス分類のOSRでは、ラベル空間に複数の意味的カテゴリーが含まれる可能性があるため、モデルは、事後確率p(Y = y | x)に基づいて正常なサンプルの分類を追加で行う必要があります。ADでは、入力サンプルに正常なサンプルに加えてノイズ（異常）が含まれる可能性があるため、問題はノイズラベルの1クラス分類問題に変換されますが、検出タスクの全体的な定式化は変わりません。条件付き確率をモデル化するために、一般的に知られているのは、生成的モデリングと識別的モデリングという2つの視点です。OOD検出やOSRの設定では、訓練サンプルのラベルにアクセスできるため、判別モデルは容易かもしれませんが、ラベルがないため、AD、ND（OCC）は困難です。なぜなら、1クラス分類問題は、正常か異常かに関わらず、各入力を与えられたラベルYにマッピングし、その結果、目的関数を可能な限り最小化するという些細な解決策を持っているからです。この問題は、DSVDDのように、大量の学習エポックを用いて学習を行うと、正常・異常に関わらず、すべての入力を一点にマッピングしてしまうアプローチにも見られます。

しかし、この問題を解決するために、P(Y | X)の定式化にいくつかの変更を加えたアプローチがあります。それらは、正規化された分布が変化しないように、Xの分布に一連のアフィン変換を適用します。そして、総和$ \sum^{｜T｜}_{i=1} $ P(T_i｜T_i(X))が推定され、変換された入力T_i(X)が与えられたときに、各変換T_iが入力Xに適用される集約された確率を計算し、｜T｜P(Y｜X)と等しくなります。これは、P(Y | X)を直接推定することに似ていますが、崩壊することはないので、1クラスの条件付き確率を推定する代わりに使用することができます。この単純な方法は、折りたたみの問題を回避しますが、正規化分布の整合性という制約を満たすためには、変換された入力ができるだけ互いに交差しないようにしなければならないため、問題は変換に依存することになります。したがって、後に示すように、OSR法はADアプローチを分類モデルと組み合わせて採用することで、その問題を克服することができます。同様の状況は、OODドメインにも当てはまります。

生成モデリングでは、AE（Autoencoder）ベース、GAN（Generative Adversarial Network）ベース、および自動回帰モデルやフローベースモデルなどの明示的な密度推定ベースの手法がデータ分布のモデル化に用いられます。AEの場合、2つの重要な前提があります。オートエンコーダーが正常なトレーニングサンプルのみで学習された場合、

- オートエンコーダーは、目にしたことのない正常なテスト時のサンプルを、トレーニング時のサンプルと同じように正確に再構成することができるでしょう

- 異常なテスト時間のサンプルは、正常な入力と同じように正確に再構成することはできません。

しかし、最近提案された AE を用いた手法では、上述の仮定が必ずしも正しいとは限らないことが示されています。例えば、AE が正常なサンプルを完全に再構成できたとしても、わずか 1 画素のシフトでは、再構成の損失が大きくなります。

同様に、もう1つの有名なモデルファミリーであるGANは、AD、ND、OCC、OSR、およびOODの検出に広く使用されています。GANが完全に正常なトレーニングサンプルでトレーニングされた場合、GANは次のような仮定で動作します。

- 入力が正常であれば、潜在的なベクトルが存在し、それが生成された場合には、入力との不一致が少ない。

- 入力が異常な場合、生成されたとしても、入力との不一致が小さい潜在的なベクトルは存在しない。

ここで、不一致は、生成画像とテスト時間入力のピクセルレベルのMSE損失に基づいて定義することができ、また、生成画像とテスト時間入力を与えられたときの識別器の特徴の層間距離のようなより複雑な関数を定義することができます。GANは、与えられた学習データセットの意味的抽象化を捉える能力があることが証明されていますが、モード崩壊、不安定な学習プロセス、再現不可能な結果の問題に悩まされています。

最後に、自動回帰モデルとフローベースモデルを用いて、データ密度を明示的に近似し、割り当てられた尤度に基づいて異常なサンプルを検出することができます。直感的には、正常なサンプルは異常なサンプルに比べて高い尤度を持たなければなりませんが、後述するように、自動回帰モデルは、学習過程で異常なサンプルを見ていないにもかかわらず、異常なサンプルに高い尤度を割り当ててしまうため、AD、ND、OSR、OODの検出性能が低下してしまいます。この問題を解決するために、OOD領域では、OSR、AD、NDで使用可能ないくつかの改善策が提案されているが、OOD検出の一般的なテストプロトコルは、ADやNDなどの他の領域とはかなり異なる可能性があることを考慮すると、その信頼性についてより多くの評価が必要です。

異常と新規性の検出

異常検出（Anomaly Detection: AD）と新規性検出（Novelty Detection: ND）は、文献上では同じ意味で使われていますが、その違いを論じた作品はほとんどありません。異常検出では、学習データが完全に正常なサンプルで構成されているという仮定に反して、ある種の本質的な問題があります。例えば、物理的な実験では測定ノイズが避けられないため、教師なしの学習プロセスでは、アルゴリズムが自動的に正常なサンプルを検出し、それに焦点を当てなければならなりません。しかし、新規性検出問題はそうではありません。最小限の監視できれいなデータセットを提供することが容易なアプリケーションはたくさんあります。これらの領域は時間の経過とともに分離されてきたが、その名称は文献ではまだ適切に使われていません。

異常検知への関心は1969年にさかのぼり、異常/外れ値を「それが発生したサンプルの他のメンバーから著しく逸脱しているように見えるサンプル」と定義し、トレーニングサンプルの大部分が従う基本的な共有パターンの存在を明示的に仮定しています。この定義には曖昧な点があります。例えば、偏差という概念の基準を定義したり、「著しく」という言葉をより定量的なものにする必要があります。そのために、深層学習法の登場の前後には、前述の概念をより明確にするための大きな努力がなされてきました。トレンドから逸脱したサンプルを見つけるためには、適切な距離指標を採用することが必要です。また、正常なサンプルからの乖離が大きいかどうかを判断するための閾値を選択するという課題があります。

ロバストなディープオートエンコーダーによる異常検知

インライアとアウトライアの両方を含むデータセットでオートエンコーダー(AE)を学習します。このとき、外れ値は、内値の方が有意に頻度が高く、正常な概念を共有していると仮定して、学習中に検出し、フィルターします。このようにして、AEは正常な学習サンプルでのみ学習されるため、結果的に異常なテスト時の入力をうまく再構成することができません。そこで、ADMM（Alternating Direction Method of Multipliers）を用いて、目的を2つ（またはそれ以上）に分割して計算します。

ここで、EとDはそれぞれエンコーダーネットワークとデコーダーネットワークです。 L_DはトレーニングデータXの外れ値部分であり、Sは外れ値部分であると想定されます。ただし、Sとθを一緒に最適化する必要があるため、上記の最適化は簡単には解決できません。この問題に対処するために、乗数の交互方向法（ADMM）が使用されます。これは、対物レンズを2つ（またはそれ以上）の部分に分割します。最初のステップでは、Sを固定することにより、パラメーターθの最適化問題がL_D = X − Sとなるように解かれ、目的は|| L_D −D_θ（E_θ（L_D））|| ₂になります。次に、L_Dをトレーニング済みAEの再構成に設定することにより、SをX −L_Dに設定すると、そのノルムの最適化問題が解決されます。 L1ノルムは微分可能ではないため、次のように各最適化ステップの近似として近位演算子が使用されます。

このような関数は収縮演算子として知られており、L1最適化問題では非常に一般的です。 || S || ₁を使用した前述の目的関数は、トレーニングデータセットの通常のコンテンツから、構造化されていないノイズ、たとえばトレーニングサンプルのガウスノイズのみを分離します。トレーニングサンプルの大部分とはまったく異なる意味を伝えるサンプルなどの構造化ノイズを分離するために、L_2,1最適化基準を次のように適用できます。

ブロックワイズソフトスレッショルド機能と呼ばれる近位オペレーターを使用します[27]。テスト時には、異常な入力を拒否するために再構成エラーが使用されます。

新規性検出のための逆学習一クラス分類法 (ALOCC)

完全に正常な学習サンプルが与えられていると仮定し、それらを用いて新規性検出モデルを学習することを目的としています。まず、（1）再構成損失を減少させ、（2）GANベースの設定で識別器を誤魔化すために、Denoising Auto Encoder（DAE）として（R）を学習します。これにより、DAEはぼやけた出力ではなく、高品質な画像を生成することができるようになります。これはAEモデルの損失が、一方では、各画素に独立したガウス分布を明示的に仮定しているために起こります。そして一方では、ピクセルの真の分布は通常マルチモーダルであるため、ガウスの平均値は異なるモードの間に落ち着かざるを得ません。そのため、複雑なデータセットでは、ぼやけた画像になってしまいます。この問題を解決するために、AEをGANベースのフレームワークで学習することで、各ガウスの平均値が、対応する真の分布の1つのモードだけを捉えるように強制することができます。さらに、ピクセルレベルの損失の代わりに識別器の出力（D）を用いることで、適切に再構成されていない正常なサンプルを正常として検出することができます。この損失により、vanilla DAEのFalse Positive Rate（FPR）が大幅に減少します。

これにより、モデルは異常検出のためのAEの機能を備えているだけでなく、より高品質の出力を生成できます。さらに、前述のようにD(R(X))に基づいて検出を行うことができます。 Fig．2は、この作品の全体的なアーキテクチャを示しています。

制約付き潜在的表現を持つGANを用いた一クラスの新規性検出（OC-GAN）

完全に正常な学習サンプルで学習したAEは、目に見えない異常な入力をさらに低い誤差で再構成することができます。この問題を解決するために、エンコーダの潜在的な分布(EN(-))を一様分布に類似させることを、敵対的な方法で試みます。同様に、デコーダ(De(・))は均一分布から潜在値をサンプリングしたインクラスアウトプットを再生するよう強制されます。学習対象は、再生された出力が正常な入力と異常な入力の両方について正常なクラスに完全にまたは少なくとも大まかに似るように、潜在的な空間に正常な特徴を分布します。また、情報量の多いネガティブサンプルマイニングと呼ばれる別の手法を潜在空間で使用して、低品質の画像を生成する領域を積極的に探します。そうするために、分類器は、デコーダーの再構成された出力と偽の画像を区別するように訓練されます。

新規性検出のための潜在的空間自己回帰（Latent Space Autoregression for Novelty Detection (LSA))

この手法では、新規性検出のために、潜在空間における入力サンプルのユニークさを規定する「サプライズ」と呼ばれる概念を提案します。この概念は、潜在空間における入力サンプルのユニークさを規定するものです。サンプルがユニークであればあるほど、潜在空間におけるそのサンプルの可能性は低くなり、その結果、そのサンプルが異常なサンプルである可能性が高くなります。これは、特にトレーニングデータセットに類似した正常なトレーニングサンプルが多数存在する場合に有益です。視覚的に類似した学習サンプルに対して、AEは通常、MSE誤差を最小化するために、その平均値を出力として再構成するように学習します。そのため、出力がぼやけてしまい、そのような入力に対しては再構成誤差が大きくなってしまいます。しかし、サプライズロスと再構成誤差を併用することで、この問題を軽減することができます。また、異常なサンプルは、通常、より驚くべきものであり、これにより、新規性スコアが増加します。サプライズスコアは、Fig．4に示すように、潜在空間の自己回帰モデルを用いて学習されます。自己回帰モデル(h)は、LSTMやRNNネットワークなどの異なるアーキテクチャから、より複雑なものまでインスタンス化することができます。また、他のAEベースの手法と同様に、再生誤差が最適化されています。

教師なし異常検知のためのメモリ支援型ディープオートエンコーダー（Mem-AE）

この手法では、AE を使用する際の 2 番目の仮定に挑戦しました。訓練データセットに異常なサンプルが含まれていなくても、異常なサンプルが完璧に再構成される可能性があることを示しました。直感的には、AEは正常なサンプルを一意に記述する特徴を学習しないため、結果として、異常な入力から異常な特徴を抽出して完璧に再構成してしまう可能性があります。このため、正常なサンプルのみを正確に再構成するための特徴を学習する必要があります。そのために、Mem-AEでは、正常な学習サンプルのユニークで十分な特徴を記憶するメモリを採用しています。学習中、エンコーダは暗黙のうちにメモリのアドレス生成器の役割を果たしています。エンコーダーは埋め込みを生成し、生成された埋め込みと類似したメモリの特徴が結合されます。結合されたエンベッディングはデコーダに渡され、対応する再構成された出力が作られます。また、Mem-AEでは、少数のメモリアイテムしか使用しないスパースアドレッシング技術を採用しています。したがって、Mem-AEのデコーダは、少数のメモリアイテムを使用して再構成を実行するように制限されており、メモリアイテムを効率的に利用する必要がありません。さらに、再構成エラーは、通常の入力を代表するプロトタイプのパターンをメモリに記録させます。

逆学習型一群分類器の学習パラダイムの再定義（古いものは金になる）

この手法は、ALOCCのアイデアを拡張したものです。ALOCCはGANベースで学習されるため、安定性と収束の問題に悩まされます。一方で、ALOCCの過剰学習は、現実的に生成された偽データのために識別器Dを混乱させる可能性があります。一方で、ALOCCの過小学習は識別器Dを混乱させ、過小学習は識別器の特徴の使い勝手を悪くします。この問題に対処するため、2段階の学習プロセスを提案します。第1段階では、ALOCCと同様のトレーニングプロセスを行います。

第1段階の進行に伴い、後でトレーニングの第2段階で使用するための低エポックの生成モデルGoldが保存されます。第２段階では、サンプル$ \hat{X} $ =Gを高品質な再構成データと見なします。サンプル$ \hat{X_{low}} = Gold(X)は、低品質のサンプルとみなされます。そして、疑似異常サンプルを以下のように作成します。

敵対的鏡像オートエンコーダ(Adversarial Mirrored Autoencoder (AMA))

AMAの全体的なアーキテクチャはALOCCと似ています。しかし、AMAはAEの第一の前提に挑戦しています。l_pノルムは、ぼやけた再構成を引き起こし、その後、正常なサンプルの誤差を増大させるため、異常検出領域におけるAEの学習には適していないことが示されています。この問題に対処するため、AMAは分布P_X,Xと$ P_{X,\hat{X}} $の間のワッサーシュタイン距離を最小化することを提案します。

マーカー発見を導く生成的アドバーサリア・ネットワークを用いた教師なしの異常検知（AnoGAN）

この手法では、通常の学習サンプルでGANを学習させ、テスト時には、矛盾を最小化することで最適な潜在空間zを見つけようとする最適化問題を解きます。生成画像と入力画像が与えられたときに、生成画像と入力画像のピクセルレベルの損失と、異なる層での識別器の特徴の損失を組み合わせて、不一致が求められます。直感的には、正常なテスト時間サンプルであれば、異常なものであっても望ましい潜在的なベクトルを見つけることができます。Fig. 8に本手法の構成を示します。Fig．9はAnoGANとEfficient-GANの構造を比較します。

OC-SVM

初等的なAD法では、異常な入力を検出するために、各サンプルを訓練データセットの平均値と比較するような統計的アプローチを用いるが、これは、訓練データセットに一般化できない暗黙のガウス分布の仮定を課すことになります。前提条件の数を減らしたり、従来の統計的手法の前述の欠点を解消するために、OC-SVMが提案されました。OC-SVMは、その名が示すように、片側にサンプル、反対側に原点を含む超平面を用いて、原点からの学習サンプルの距離を最大化する1クラスSVMです。式19は、OC-SVMの原形を示しており、学習サンプルがちょうど片側に8つ存在する空間を見つけようとし、原点の距離が線上にあるほど、最適化問題に対するベターな解が得られます。

。

深層ワンクラス分類器(Deep One-Classification(DeepSVDD))

この手法は、SVDDを拡張したものであり、深さのあるネットワークを用いて、トレーニングサンプル間に共通の特徴が存在することを確認し、トレーニングサンプルがそれらを取り囲む最小体積の球体に圧縮されるような空間を見つけようとするものです。従来の方法との違いは、パラメータWを最適化することで、カーネル関数φを自動学習することです。

深層半教師異状検知(Deep Semi-Supervised Anomaly Detection)

限定数のラベル付けされた標準的なサンプルを仮定する半教師版DSVDDです。ロス関数が定義されているため、標準的なサンプルの事前定義された中心からの距離を最小化しつつ、ラベル付けされた標準的なサンプルの数が限られています。損失関数は、標準サンプルの事前定義された非球面中心からの距離を最小化するように定義されています。

幾何学的変形を用いた深層異状検知(Deep Anomaly Detection Using Geometric Transformations(GT))

GTは、1クラス問題から多クラス分類への変形を試みます。GTは、データ分布を変えるない変型セットを定義し、それを区別するために分類器を訓練し、基本的には、分類器は自己監視された方法で訓練されます。また、異なる変換を入力に適用し、対応するディリッヒレト確率の合計をノベルティスコアとします。

分別器ネットワークの内値優先を通じた効果的エンドトゥエンド教師なし外れ値検知

本手法では、GTと同様に、自己教師付き学習（SSL）タスクを採用し、訓練データセットに少数の外れ値や異常なサンプルが存在する場合を除き、異常検出器を訓練します。ただし、トレーニングデータセットに異常なサンプルが存在するため、異常なサンプルの客観的スコアが常に高くなるとは限りません。この問題に対処するために、各ステップの勾配の大きさと方向は、インライアサンプルの損失関数を最小化する傾向が強いことが示されています。したがって、ネットワークは異常なスコアと比較して低いスコアを生成します。

一般データの分類器ベース異状検知 (GOAD)

この手法はGTと非常によく似ています。しかし、クロスエントロピー損失を用いたり、最終的なコンフィデンスにディリクレ分布を学習する代わりに、各変換の中心を見つけ、各変換データとそれに対応する中心との距離を最小化します。

このアイデアは、GTの変換が使用されるDSVDDとGTの組み合わせと見なすことができ、さまざまな圧縮された超球がそれらを分離するために学習されます。 M個の異なる変換がテスト時に各サンプルを変換し、正しいラベル確率の平均が異常スコアとして割り当てられます。

CSI: 分布シフト実体の対照学習を通じた新規性検知

本手法では、新規性検出の問題をSimCLRと同様の対照的なフレームワークに定式化することを試みます。対照学習の考え方は、類似したサンプルを他のサンプルから区別するために必要な情報を抽出するエンコーダf_θを学習することです。xをクエリとし、x₊, x_-をそれぞれ正と負のサンプルのセットとし、zをエンコーダの出力特徴または各入力に対する追加投影層gφ(fθ(x))の出力とし、sim(z,z)をcosine類似度とします。対照損失は次のように定義されます。

対照学習では、一連の負のサンプルを定義する必要があります。この目的のために、トレーニングサンプル（S）の分布をシフトする変換のコレクションが指定され、各入力に適用されたときに目的の負のセットが作成されます。たとえば、回転またはパッチの順列は、元の入力サンプルの分布を完全にシフトします。したがって、それらはネガティブサンプルとして使用できます。

Uninformed Students: 分別潜在埋め込みによる生徒ー教師異状検知

本手法では、メトリック学習と知識化技術を用いて教師ネットワークを学習し、意味的・識別的な特徴空間を提供します。教師Tは、まずパッチサイズの画像pをメトリック空間に埋め込むネットワーク$ \hat{T} $を学習することで得られます。次に、$ \hat{T} $からTへの決定論的なネットワーク変換により、入力画像全体に対する高速で高密度な局所特徴抽出を実現することができます。$ \hat{T} $を学習するために、例えばImageNetのような画像データベースをランダムに切り出すことで、多数の学習パッチpを得ます。

異常検知と局所化のための自己教師学習 (CutPaste)

本手法では、グローバルなセマンティックレベルの規則性ではなく、ローカルなピクセルレベルの規則性を捉えるために、シンプルなSSLタスクを設計しました。GTやGOADでは、回転、平行移動、ジッタリングなどの変換を行いますが、CutPasteでは、学習入力の一部を切り取り、別の場所にコピーします。このネットワークは、欠陥のあるサンプルと無傷のサンプルを区別するように訓練されています。カットアウトやスカーなどの追加の補助タスクは、カットペースト操作と組み合わせて使用することができます。学習後、正常な学習サンプルの信頼度スコアをもとに、KDEまたはガウス密度推定器を学習し、テスト時に使用します。この手法は単純であるため、分類タスクに対して簡単にオーバーフィットしてしまう可能性があります。

異常検知のための多解像知識蒸留 (Multi-KD)

生成モデルは、ピクセルレベルの異常を検出するのに適していますが、複雑なセマンティックレベルの異常では失敗する可能性があります。一方、識別モデルは、セマンティクスを捉えるのに適しています。意味論と構文論の両方を捉えるSSLタスクを設計することは容易ではありません。この問題を解決するために、Multi-KDは、VGGで事前に学習されたネットワークの中間層（中間知識）を、知識の蒸留を用いてより単純なネットワークに模倣しようとしています。このようにして、正常な学習分布の多解像度モデリングが得られ、テスト時にピクセルレベルとセマンティックレベルの両方の異常を検出することができます。ここで、知識の概念は、ImageNet上で事前に学習されたネットワークの長さと方向性であると定義されています。クローナーネットワークは、ソースと比較して、シンプルでありながら全体的に類似したアーキテクチャを持っているため、通常のトレーニングサンプルでは、その知識はソースと同様になります。テスト時には、クローナーは正常なテスト時間のサンプルではソースに従うことができますが、異常なサンプルでは失敗します。この結果、テスト時に使用できる高い不一致が得られます。Fig. 14に全体のアーキテクチャを示します。

オープンセット認識

Open-set recognition (OSR)は、ADやNDよりも多くの監督を受けます。この設定では、トレーニング時にK個の通常クラスが与えられ、テスト時にはN個のクラスにN - K個の未知クラスとK個の既知クラスが存在します。その目的は、既知のクラスを分類しながら、未知のクラスを識別することです。この手法は、正常なデータセットにラベルを付けることが可能な場合や、異常なサンプルを含まないクリーンなデータセットを集めることが可能な場合など、多くの用途があります。より多くの監視が必要なため、学習データは4つのクラスに分類されます。

-known known classes（KKC）: 既知のトレーニングサンプルです。既に与えられており、ラベルも貼られています。

- known unknown classes（KUC）: 既知ではないことがわかっているトレーニングサンプル。つまり、既知のカテゴリーに属さないものです。例えば、背景画像や、既知のクラスに分類されないことがわかっている画像は、このグループに入ります。これらはすでに与えられ、ラベル付けされています。

- unknown known classes（UKC）: 既知のクラスであることがわからないトレーニングサンプル。例えば、既知のテスト時間のサンプルはこのグループに入ります。これらは学習段階では与えられていません。

- unknown unknown classes (UUC)：未知のクラス。既知でないことがわからないトレーニングサンプル。例えば、未知のテスト時間のサンプルがこのグループに入ります。これらはトレーニングの段階では与えられません。

オープンセット深層ネットワークに向けて (OpenMax)

本手法では、分類モデルが、見たことのないテスト時間のサンプルに対して過信したスコアを生成するという問題を解決します。ソフトマックスの計算では正規化が行われているため、ロジットスコアが全く異なる2つのサンプルが、同じ信頼スコア分布を持つことがあります。OpenMaxでは、信頼度スコアを使う代わりに、アクティベーション・ベクトル（AV）で示されるロジット・スコアを利用します。各サンプルのAVは、クラスごとの分布を表しています。平均AV（MAV）は、全サンプルのAV値の平均と定義されます。各入力サンプルにおいて、グランドトゥルースに対応するAVの値は高く、MAVの対応する値との距離も高いと考えられます。AVの各要素とMAVの対応する要素との距離をランダムな変数として考えると、正しく分類された入力は、グランドトゥルースの要素に対する距離が最も高くなるでしょう。これは、正解と強い関係を持ちながら、正解ではないクラスがいくつかある場合に起こります。例えば、ヒョウというクラスが正解で、チーターがそれに近いクラスであるような場合です。

多クラスオープンセット分類のための生成的OpenMax (G-OpenMax)

この手法は、GANでUUCサンプルを人工的に生成し、OpenMaxを微調整する以外は、OpenMaxと同様です。これにより、検証データセットを用意する必要がなくなりました。

反事実的画像によるオープンセット学習

本手法では、G-OpenMaxのようにUUCサンプルを生成するアイデアを踏襲しています。生成された入力は、KKCに似ていますが、同じクラスに割り当てられないようにします。このような生成された入力は、反実例と呼ばれます。これらのサンプルは、UUCの境界付近にあるため、実際のUUC分布の近似に役立ちます。

Reducing Network Agnostophobia

物体検出などのアプリケーションでは、通常、背景と呼ばれるクラスがあります。インターネット上では、大量のサンプルが検索され、それが特定のタスクのための「背景」として利用されることがあります。本研究では、分類器を学習するための補助的なKUC分布として、背景サンプルを採用しています。この学習により、KUCは特徴の大きさが小さく、KKCは特徴の大きさが大きくなり、マージンが定義されます。また、信頼層のエントロピーは、背景サンプルに対して最大化されます。これは、このような入力に対する分類器の不確実性を高めることに相当します。この学習では、信頼スコアのエントロピーを最大化する単純なエントロピー的オープンセット損失と、最終特徴のL2ノルムを最小化する対象球損失を採用しています。Fig．18は、最終層における各クラスのサンプルの幾何学的位置に対する各損失の効果を示したものです。

オープンセット認識のためのクラス条件付きオートエンコーダ (C2AE)

本手法では、AE を使用する第 2 の前提として、異常なテスト時間のサンプルは正常なサンプルと同じようには再構成されないと仮定していますが、OSR では、AD や ND にもかかわらず、学習ラベルが AE の能力を高めることができます。

しかし、OSR では、AD や ND にもかかわらず、学習ラベルによって AE の能力を高めることができます。ここでは、AE をメタ認識機能とし、そのエンコーダを認識タスクの分類器の役割とします。直感的には、エンコーダには、渡されたサンプルを正しく分類して、元の入力を再構成できるような埋め込みを提供してほしいと考えています。さらに、エンコーダの埋め込みを線形変換などで簡単に変換できないようにすることで、AEが学習した特徴量を利用して異常な入力や見えない入力を再構成できないようにしています。

多クラス新規性検知のための深層転移学習(DTL)

この手法も、背景となるデータセット（リファレンスデータセットと呼ばれる）を使用するという考え方を踏襲しています。DTLは、OSRにおいてsoftmax lossを使用することの欠点を解決しています。メンバーシップ損失という新しい損失関数を提案します。具体的には、最終層の各活性化スコア値fiをシグモイド関数を用いて[0,1]に正規化します。正規化されたスコアは、入力画像が個々のクラスに属する確率と解釈できます。理想的には、ラベルyが与えられたとき、f(x)はy=iのときに1、それ以外のときに0となるべきです。

検出性能を向上させるためのもう1つの手法は、「グローバルネガティブフィルター」に基づいています。特定のクラスの証拠を提供するフィルターはポジティブフィルターと見なされ、その逆も同様です。事前にトレーニングされたニューラルネットワークの場合、最終的な特徴マップのごく一部のみがポジティブにアクティブ化されることが示されています。さらに、一部のフィルターは常に負にアクティブ化され、すべての既知のクラスに関連性がないことを示します。グローバルにネガティブなフィルターをアクティブにする入力を破棄することにより、新しいサンプルが高いアクティブ化スコアを生成する可能性が低くなります。ドメイン固有のタスクのこのようなフィルターを学習するために、DTLは最後のレイヤーまで共有の重みを持つ2つの並列ネットワークをトレーニングします。最初のネットワークは参照データセットの分類タスクを解決し、2番目のネットワークはメンバーシップの喪失と組み合わせてドメイン固有の分類タスクを解決します。参照データセットとドメイン固有のデータセットが多くの情報を共有していない場合、それらは相互にネガティブフィルターを提供します。また、参照データセットはさまざまなクラスで構成されているため、これらの学習済みフィルターはグローバルに負のフィルターと見なすことができます。最後に、ドメイン固有の分類器の信頼スコアと組み合わせた並列ネットワークのフィルターが、新規性の検出に使用されます。Fig. 19にネットワークアーキテクチャ全体を示します。

オープンセット認識のための分類-再生学習(CROSR)

この手法は、C2AEと同様のアイデアに基づいています。特に、CROSRでは、分類のためにエンコーダネットワークを使用し、再構築タスクのために潜在ベクトルを生成します。重要なのは、再構成タスクに使用される潜在ベクトルzと、分類タスクに使用される最終層yが共有されていないことです。その理由は、最終層での情報損失が大きすぎるため、未知のサンプルと既知のサンプルの区別がつきにくくなるからです。

オープンセット認識のための生成ー識別特徴表現 (GDFR)

CROSRと同様に、本研究では、識別モデルと生成モデルを組み合わせて学習します。識別的なアプローチは、見たことのあるサンプルと見たことのないサンプルを区別するために有用な重要な特徴を失う可能性があります。生成的モデルは、補完的な情報を提供することができる。GTと同様に、GDFRは識別器の特徴を改善するためにSSLを採用しています。共有ネットワークは、入力に適用される幾何学的変換を予測することで、分類とSSLの両方のタスクを実行する。さらに、AEのような生成モデルを用い、与えられた入力xに対する再構成出力$ \hat(x) $を生成します。そして、入力-再構成ペアの集合(x, $ \hat(x) $)を識別器ネットワークに渡し、分類とSSLのタスクを行う。未見のサンプルに対する$ \hat(x) $とxの間の不一致は、識別器ネットワークがそれらを検出するのに役立ちます。Fig. 21にこの手法を示します。

オープンセット認識のための条件ガウス分布学習 (CGDL)

この研究の主旨は、CROSRと非常によく似ています。しかし、CGDLでは、変分符号化・復号化に基づく確率的ラダーネットワークを使用しています。学習時には、エンコーダにサンプルを渡して、各層のμとσを推定します。その平均値と分散値は、対応するデコーディング層のプライヤーとして使用することができます。エンコーダーの最上層の最終的な埋め込みzは、分類タスクとデコーディングプロセスの合同に使用されます。エンコーダの最終層の分布は、異なる多変量ガウス$ p^k_θ(z) = N(z;μ_k,I) $に類似するように強制されます。ここで、kは既知のクラスのインデックスであり、μkは、入力のラベルのワンショット・エンコーディングを潜在空間にマッピングする完全連結層によって得られます。デコーダの各層はガウス確率分布で、その平均と分散の事前分布がエンコーダの統計の対応する層によって追加されます。

オープンセット認識のためのハイブリッドモデル

本手法では、分類ネットワークをフローベースの生成モデルと組み合わせて学習します。ピクセルレベルの生成モデルでは、目に見えないサンプルや数十個のサンプルに対して識別可能な結果が得られない可能性があり、また、意味的に無関係なノイズに対してもロバストではありません。この問題を解決するために、ピクセルレベルの空間ではなく、特徴表現の空間でフローベースのモデルを適用します（Fig．23参照）。フローベースのモデルを使用する理由は、その手軽さと包括的な理論的能力にあります。学習損失は、単純なクロスエントロピー損失と負の対数尤度を組み合わせたもので、フローベースのモデルの学習に用いられます。テスト時には、各入力の尤度に閾値を適用し、それが保持されていれば、分類器の出力がクラス内ラベルとして割り当てられます。

識別可能な相互点を持つオープンセットネットワークの学習 (RPL)

Mem-AEと同様に、本手法でもプロトタイプの特徴という考え方が用いられています。その目的は、各プロトタイプとの距離に基づいて各入力にラベルを割り当てることができるプロトタイプまたは相互点のセットを学習することです。RPLは、softmaxやOpenMaxと比較して、モデルが異なるクラスの境界をうまく調整するのに役立ち、リスク要因を減少させます。最初に、ランダムな相互点が選択されます。逆数点の位置と分類器ネットワークの重みは、分類損失を最小化するように調整されます。これにより、ネットワークは各クラスの特徴を特定の相互点の近くに配置し、少なくとも一組の点を用いて望ましいクラス境界を得るようにします。リスクファクターを減少させるために、各クラスのサンプルは、学習過程で学習された相互点に対するマージンを持つように強制されます。

距離ベースオープンセット認識のための損失 (CAC)

この手法の考え方は、RPLやGOADと似ています。CACは、各クラスに対して、次元N-クラス数のアンカー・ベクトルを定義する。各ベクトルにおいて、クラスラベルに対応する要素は1、それ以外は0です。学習過程では、各学習サンプルのロジットスコアが、真のクラスのアンカーベクトルに対してコンパクトなボールに入るように、他のクラスのアンカーからは大きな距離を持つようにします。CACは、マルチクラスのDSVDDとも言えます。

メタ学習を用いた数ショットオープンセット認識 (PEELER)

本手法では、メタ学習のアイデアをオープンセット認識と組み合わせています。メタ学習とは、見たことのないタスクに簡単に適応できる一般的な特徴を学習することです。メタ学習は、学習するための学習とも呼ばれます。メタ学習は、数ショットの設定で動作する能力があるため、データ量が少ない場合に有用です。メタ反復iでは、メタモデルhは前のメタ反復で生成されたもので初期化されます。$ (S^s_i, T^s_i)^{N^s}_{i=1} $をN^s個の学習問題を持つメタ学習データセットとすると、2つのステップが実行されます。まず、学習セット$ S^s_i $に対する最適モデルの推定値hが生成されます。そして、テストセット$ T^s_i $は、適切な損失関数Lを持つモデルを見つけるために使用されます。

オープンセット認識のためのプレースホルダーの学習 (PROSER)

本手法では、ターゲットクラスと非ターゲットクラスの間を行き来できる分類器の学習を試みている。特徴抽出器を共有したモデルのソフトマックス層に、ダミーの分類器を追加します。そして、正しく分類されたサンプルに対して、2番目の最大値を持つように強制されます。分類器が新規の入力に遭遇した場合、既知のクラスはすべて非ターゲットであるため、ダミー分類器は高い値を生成します。ダミー分類器は、すべての既知のクラスによく適合する、インスタンス依存の閾値と見なすことができます。

反事実ゼロショットとオープンセット視覚認識

この手法は、反事実に忠実な方法で異常なサンプルを作ることを試みています。この論文で言及されているように、G-OpenMaxのような生成的アプローチのほとんどは、見たことのないサンプルの実際の分布に似ていない、望ましい偽サンプルを生成しません。この目的のために、β-VAE を用いて、サンプル属性変数Zとクラス属性変数Yを独立にします。β-VAEの損失関数は単純なVAEと似ているが、KL項は係数βで誘導されます。これは、分離されたサンプル属性Zの学習に非常に有効であることが示されています。YとZを分離するために、提案手法では、変数Zを変更して生成されたサンプルにもかかわらず、与えられた入力xとの距離が大きくなるように変数Yを変更して反実サンプルを作成します。反実サンプルを忠実に作成するために、生成された反実画像と割り当てられたラベルとの対応関係を検証する識別器D(X,Y)にWasserstein GAN 損失を用います。最後に生成されたサンプルは、あらゆるOSR問題の性能を向上させるために使用することができます。

分布外(Out-Of-Distribution)検出

OOD検出は、トレーニングデータのカテゴリとは意味的に異なるため、既知のクラスに予測すべきではないテスト時のサンプルを識別することを目的としています。例えば、CIFAR-10とCIFAR-100は相互に排他的なクラスであるため、CIFAR-10（分布内のデータ）でモデルを学習し、次にCIFAR-100を分布外のデータセットとして評価することができます。マルチクラスの設定では、OOD検出の問題はOSRと同様に、既知のクラスからサンプルを正確に分類し、未知のクラスを検出するというものです。しかし、OOD検出は、より広い範囲の学習タスク（例えば、マルチラベルの分類）と解空間（例えば、分類なしの密度推定）を包含します。いくつかのアプローチは、OSRによって課された制約を緩和し、強力な性能を達成しています。ここでは、OSRの制約を緩和して高い性能を発揮する手法を紹介します。

ニューラルネットワークで誤分類された分布外の例を検出するためのベースライン

本研究では、「分布外(OOD)検出」という言葉を作り、深層学習の分布外検出器の評価方法を示しました。これまでの深層分類器の異常検出では、低品質なデータセットや独自のデータセットを使用することが多かったが、本研究では既存のデータセットを再利用して分布外データセットを作成し、評価を容易にしました。この研究では、最大ソフトマックス確率（MSP）を用いて、分布外のサンプルを検出することを提案しています。すなわち、max_k p(y = k | x)です。MSPのスコアが大きいテストサンプルは、分布外(OOD)ではなく分布内(ID)のサンプルとして検出されます。また、分布外の検出にはp(y | x)モデルが有効であり、p(x)モデルは必ずしも必要ではないことを示しました。今日に至るまで、このモデルは一般的なベースラインとして機能しており、これを超えることは容易ではありません。OSRの研究では、検出用のソフトマックス確率をさらに改良することが提案されました。

ニューラルネットワークにおける分布外画像検出の信頼性の向上 (ODIN)

この作品では、温度スケーリングと呼ばれる技術が採用されました。温度スケーリングは、知識抽出などの他の領域でも使用されていますが、本研究の主な新しさは、この技術の有用性をOOD領域で示すことです。温度スケーリングでは、ソフトマックス・スコアが式59のように計算されます。OODサンプルは、最大クラス確率の閾値に基づいてテスト時に検出されます。このシンプルなアプローチは、制御された小さなノイズを加えることと相まって、ベースラインアプローチであるMSPと比較して大幅な改善を示しました。ODIN はさらに、最大スコアを向上させる方向に入力に 1 ステップの勾配を加えることで、クラス内サンプルにより大きな効果を与え、OD サンプルとのマージンを大きくすることを示しています。

分布外のサンプルと敵対的な攻撃を検出するためのシンプルな統合フレームワーク

この手法は、P(X = x | Y = y)を多変量ガウス分布とみなすLDA(LinearDiscriminant Analysis)の考え方にヒントを得たものです。P(Y = y | X = x)をソフトマックス形式に近づけるために、第1層の特徴空間はガウス分布に従うと仮定します。そこで、各クラスの特徴量から平均と分散のベクトルを単純に推定し、それに多変量ガウスを当てはめます。仮定の妥当性を確認するために、ソフトマックス関数の代わりに、テスト時の画像のマハラノビス距離を用いて分類を行います。

事前ネットワークによる予測不確実性の推定 (DPN)

この手法では、3つの異なる不確実性の原因について議論しています。(1）データの不確かさ、（2）分布の不確かさ、（3）モデルの不確かさ。不確実性をこれらの用語に分解することの重要性が議論されました。例えば、モデルの不確実性は、モデルが与えられた分布をうまく近似する能力を欠いているために起こるかもしれません。一方、データの不確実性は、類似したクラスが本質的に交差しているために起こるかもしれません。例えば、異なる種類の犬を分類することは、完全に別々のクラスで分類問題を解決するよりもデータの不確実性が高くなります。分布の不確実性は、AD、ND、OSR、OODの検出問題に関連しています。

トレーニング時に、ディリクレ事前ネットワーク（DPN）は、OODサンプルのシンプレックス全体で平坦な分布を生成すると予想されます。これは、xからyへのマッピングに大きな不確実性があることを示しています。一部の分布外データは、Dir（µ |α）のKL距離とフラットなディリクレ分布を最小化するために使用されます。クラス内のサンプルでは、Dir（µ |α）とシャープでスパースなディリクレ分布の間のKL発散が最小限に抑えられます。客観的なディリクレ分布は、トレーニングプロセス中にパラメーターを事前設定することによって取得されます。テスト時間中、最大確率、最終層のエントロピー、および式65のような分布の不確実性などのさまざまな基準はOOD検出に使用されます。

分布外のサンプルを検出するための信頼度校正済み分類器

この手法は、OODサンプルの信頼度スコアのエントロピーを最大化することを試みています。また、GANと分類器を共同で学習することで、OODサンプルを生成します。式66に示すように、第1項はクラス内サンプルの分類タスクを解き、第2項はKLダイバージェンスを用いて、生成されたOODサンプルの信頼スコア分布を一様にします。残りの項は、クラス内サンプルでGANを訓練します。GANは、分類器に渡されたときに高い不確実性をもたらす高品質のOODサンプルを生成するように強制されることに注意してください。そのため、生成されたサンプルは、クラス内分布と外れ値分布の境界に位置しています。また、本論文では、境界上のインクラスサンプルを活用することで、その信頼性キャリブレーションが大幅に改善されることを示しています。

外れ値の露出による深層異常検出 (OE)

本手法では、Outlier Exposure（OE）を導入し、その有用性について様々な実験を行いました。Outlier Exposure lossは、分類器に適用すると、外れ値に対して一様なソフトマックス分布を出力するようにモデルを促します。一般的にはOutlier Exposure目的関数は、次の通りです。

$ D^{OE}_{out} $を作成するには、トレーニングデータとは異なるデータをスクレイプするか、キュレートするか、ダウンロードする必要があります。 $ D^{OE}_{out} $からのサンプルは、タスク固有の目的関数に直接関連していない可能性のある既存の利用可能なデータセットから収集されます。ただし、さまざまなバリエーションが含まれているため、パフォーマンスを大幅に向上させることができます。

自己教師学習を使用し、モデルの堅牢性と不確実性を向上できる

本研究では、単純な分布のずれやOOD検出タスクに対する分類器のロバスト性を向上させるために、SSL法と組み合わせて教師付き学習タスクをトレーニングすることの利点を調査しました。そのために、単純な教師付き分類に補助的な回転予測を加えました。この研究では、ガウスノイズ、ショットノイズ、ぼかし、ズーム、フォギングなどの単純な破損に対する堅牢性を測定しています。その結果、補助的なSSLタスクは分類精度を向上させないものの、モデルのロバスト性と検出能力が大幅に向上することが確認された。さらに、全損失関数を敵対的にロバストな方法で学習すると、ロバスト精度が向上します。最後に、回転予測と、GTやGOADと似ているがより単純な水平・垂直方向の移動予測を用いて、NDの設定でこの手法をテストしています。また、多クラス分類の設定でもテストを行い、補助的な自己教師付き学習目的が最大ソフトマックス確率検出器を改善することを発見しました。さらに、背景や外れ値のサンプルに対する信頼層の分布を一様にすることを試みています。Outlier Exposureのように、アクセス可能な他のデータセットから外れ値を選択します。

最大分類器の不一致による教師なし分布外検出

本手法は、異なるランダム初期化で学習した2つの分類器が、見たことのないテスト時間のサンプルに対して、それぞれの信頼層で異なる動作をするという驚くべき事実に基づいています。この事実に基づいて、この研究では、見たこと。のないサンプルでは不一致を大きくし、見たことのあるサンプルでは不一致を小さくすることを試みます。不一致の損失は、第一の分類器の最後の層のエントロピーと第二の分類器のエントロピーの差です。これにより、クラス内の入力に対しては分類器は同じ信頼度スコアを持つようになりますが、それ以外の入力に対しては不一致が大きくなります。Fig．26は、全体のアーキテクチャを示しています。

まず、2つの分類器をクラス内サンプルで学習させ、同じ信頼度のスコアを出すようにします。次に、OODデータとクラス内データの両方を含むラベルなしのデータセットを用いて、外れ値に対する不一致を最大化する一方で、内値に対する一貫性を維持します。

ReLUネットワークがトレーニングデータから遠く離れた信頼性の高い予測をもたらす理由

この手法により、ReLUネットワークは区分的アフィン関数を生成することが証明されました。したがって、ポリトープQ（x）でf（x）= V^lx + a^lと次のように記述できます。

n^lとLは、それぞれl番目のレイヤーの非表示ユニットの数とレイヤーの総数です。

α→∞の場合、方程式は1になります。このことから、ReLUネットワークには、信頼性の高い予測をもたらす入力が無限に存在することを意味します。入力のドメインが制限されているため、任意の高信頼性予測を取得できないことに注意してください。

深層生成モデルは、彼らが知らないことを知っていますか？

この論文では、尤度比を使用して、生成モデルでのOOD検出の問題を軽減します。重要なアイデアは、背景情報と前景情報を別々にモデル化することです。直感的には、意味的に無関係な情報が入力分布に追加された場合、背景情報は前景情報よりも害が少ないと見なされます。したがって、2つの自己回帰モデルは、ノイズの多い元の入力分布でトレーニングされ、それらの尤度比は式７５として定義されます。

テスト時には、尤度比スコアにしきい値法が使用されます。

分布外検出の尤度比

本論文では、生成モデルにおけるOOD検出の問題を緩和するために、尤度比を採用しています。その鍵となるアイデアは、背景情報と前景情報を別々にモデル化することです。直感的には、意味的に無関係な情報が入力分布に追加された場合、背景情報は前景情報よりも害が少ないと仮定します。

一般化ODIN

ODINの拡張として、本研究では、温度スケーリングを学習するために特化したネットワークと、摂動の大きさを選択するための戦略を提案しています。G-ODINは、入力xがinlierであるか否か（すなわち、x ∼ pin）を表す明示的な二値の領域変数d∈{din,dout}を定義します。事後分布は、p(y | din, x) = p(y,din|x) p(din|x) と分解することができます。この式では、p(y,din | x)とp(din | x)の値が小さいためにp(y | din,x)の値が大きくなるので、外れ値に過信のスコアを割り当てる理由がより明確になると思われることに注意してください。そこで、これらを分解し、共有の特徴抽出器ネットワークの異なるヘッドを用いて、p(y | din,x)とp(din | x)に対してそれぞれhi(x)とg(x)として推定する。このような構造を配当／分割と呼び、クラスiのロジットfi(x)はhi(x) g(x)と書くことができます。目的の損失関数は、これまでのアプローチと同様に、単純なクロス・エントロピーです。損失は、hi(x)を大きくするか、g(x)を小さくすることで最小化できることに注意してください。例えば、データが分布内の高密度エリアにない場合、hi(x)は小さいかもしれません。したがって、目的関数を最小化するためには、g(x)を小さくせざるを得ません。他のケースでは、g(x)は大きな値を持つことが推奨されます。そのため、前述の分布p(y | din,x)とp(din | x)の役割を近似的に果たしている。テスト時には、maxi hi(x)またはg(x)が使用される。Fig．27は、この手法の概要を示したものです。

外れ値を意識した分類のためのバックグラウンドデータのリサンプリング

前述のように、AD、ND、OSR、およびOODの検出では、一部のメソッドはバックグラウンドまたは外れ値のデータセットを使用してパフォーマンスを向上させます。ただし、さまざまな種類のバイアスを回避するには、補助データセットのサイズが重要になります。この作業では、境界上のサンプルが最適化タスクでより影響力のある役割を果たすように、外れ値データセットから最適な数のトレーニングサンプルを選択するためのリサンプリング手法を提案します。この作業は、最初に、外れ値の露出手法に関する興味深い確率的解釈を提供しました。損失関数は式78のように書くことができます。ここで、L_clsとL_uniはそれぞれ式76と式77に示されています。

尤度ベースの生成モデルによる入力の複雑さと分布外の検出

この論文では、生成モデルがOODサンプルに高い尤度値を割り当てる問題をさらに調査しました。特に、OODサンプルの複雑さと尤度値の間に強い結びつきが見られます。入力が単純なほど、尤度値が高くなる可能性があります。この現象をFig. 28に示します。さらに、主張を裏付ける別の実験は、各ステップで平均平均プーリングが適用されるランダムノイズから開始するように設計されています。ディメンションを保持するために、平均的なプーリングの後にアップスケーリングが実行されます。驚くべきことに、より多くの平均プーリングが適用されるより単純な画像は、より高い可能性を達成します。これに動機付けられて、尤度値と組み合わせて入力の複雑さを考慮することによってOODサンプルを検出することを提案した作業。入力の複雑さを計算するのは難しいため、この論文では代わりにロスレス圧縮アルゴリズムを使用して上限を計算します。同じビット深度でコード化された入力のセットxが与えられると、それらの圧縮バージョンの正規化されたサイズL（x）（次元あたりのビット数）が複雑さの測定値として使用されます。最後に、OODスコアは次のように定義されます。

エネルギーベースの分布外検出

この作業は、OOD検出にロジット出力から導出されたエネルギースコアを使用することを提案し、softmaxスコアよりも優れていることを示しました。エネルギーベースモデルは、各入力xをエネルギーと呼ばれる単一の決定論的点にマッピングします。エネルギー値のセットE（x、y）は、ギブス分布によって密度関数p（x）に変換できます。

Likelihood Regret: 変分オートエンコーダの分布外検出スコア

以前の研究では、VAEがOODサンプルを完全に再構築できるため、OODサンプルの検出が困難になることが示されていました。異なるデータセットにわたるVAEの平均テスト可能性は、PixelCNNまたはGlowよりもはるかに狭い範囲であり、VAEではOODサンプルとインライアサンプルを区別するのがはるかに難しいことを示しています。その理由は、入力分布をモデル化する方法が異なるためである可能性があります。自己回帰およびフローベースの方法は、入力をピクセルレベルでモデル化しますが、VAEのボトルネック構造により、モデルは一部の情報を無視します。

この問題に対処するために、可能性後悔と呼ばれる基準が提案されています。これは、たとえば単純なVAEなどのトレーニングデータセットの平均尤度を最大化するようにトレーニングされたモデルと、単一の入力画像の尤度を最大化するモデルとの間の不一致を測定します。後者は、各サンプルの理想的なモデルと呼ばれます。直感的には、トレーニングされたモデルと理想的なモデルの尤度の差は大きくない可能性があります。ただし、これはOOD入力には当てはまりません。単純なVAEをトレーニングするために、次の最適化が実行されるとします。

分布と機能の階層を介したディープインバーシブルネットワークによる異常検出の理解

この作業では、OOD検出のためのフローベース生成モデルの問題を研究しました。滑らかなローカルパッチなどのローカル機能が可能性を支配する可能性があることに注意してください。その結果、SVHNなどのより滑らかなデータセットは、トレーニングデータセットに関係なく、CIFAR-10などのより滑らかでないデータセットよりも高い可能性を実現します。別のエキサイティングな実験は、尤度値を使用してOODサンプルを検出する際に、畳み込みグローネットワークよりも完全に接続されたネットワークのパフォーマンスが優れていることを示しています。これもまた、連続性や尤度値などのローカル統計間の関係の存在をサポートします。Fig. 30は、ピクセル値とその3×3の隣接ピクセルの平均との差に基づいて計算されたさまざまなデータセットローカル統計の類似性を示しています。

疑似尤度と尤度の正確な値の間に強いスピアマンの相関が見られます。この問題に対処するには、次の3つの手順を使用します。

•80 Million Tiny Imagesのような一般的な画像分布で生成ネットワークをトレーニングします

•分布中から描画された画像で別の生成ネットワークをトレーニングします（例：CIFAR-10）

•OOD検出に尤度比を使用します

一般化可能な分布外検出のための自己教師学習

この作業では、自己監視学習法を使用して、ラベルのない外れ値データセットの情報を使用し、分布内分類器のOOD検出ユーティリティを改善します。そうするために、最初に、分類器は、望ましいパフォーマンスが達成されるまで、クラス内のトレーニングサンプルでトレーニングされます。次に、追加の出力（k個のリジェクトクラスのセット）が最後のレイヤーに追加されます。各トレーニングバッチは、IDデータといくつかの外れ値サンプルで構成されています。次の損失関数が使用されます。

SSD:自己教師外れ値検出のための統合フレームワーク

この研究は、GDFRと非常によく似たアイデアです。SSLメソッドが組み込まれているため、クラス内のサンプルにラベルを付ける必要がありません。これは、分類タスクを解決する必要がある前述のいくつかの方法とは異なります。その結果、SSDは、ND、OSR、OOD検出などのさまざまな設定で柔軟に使用できます。主なアイデアは、対照学習を採用してセマンティクス上意味のある特徴を学習することです。表現学習後、k-meansクラスタリングを適用して、平均と共分散（µm、Σm）を使用してクラス中心を推定します。次に、各テスト時間サンプルについて、最も近いクラス重心までの次のようなマハラノビス距離をOOD検出スコアとして使用します。

MOOD:マルチレベルの分布外検出

この研究では、最初にOOD検出の計算効率の側面を調査しました。直感的には、一部のOODサンプルは、複雑なモデリングを必要とせずに、低レベルの統計のみを使用して検出できます。この目的のために、Fig．31に示すように、複数の中間分類器がトレーニングされ、トレーニングされたネットワークのさまざまな深さで動作します。必要な既存の深さを見つけるには、入力の複雑さの近似が必要です。この問題に対処するために、圧縮されたimageL（x）をエンコードするために使用されるビット数が使用されます。したがって、出口の深さI（x）は、サンプルが属する複雑さの範囲に基づいて決定されます。

MOS: 大きな意味空間のための分布外検出のスケーリングに向けて

MOSは、分布クラスの数が増えると、OOD検出のパフォーマンスが大幅に低下する可能性があることを最初に明らかにしました。たとえば、分析によると、ImageNet1kでクラスの数が50から1,000に増えると、一般的なベースラインの平均偽陽性率（95％の真陽性率）は17.34％から76.94％に上昇します。この課題を克服するために、MOSの重要なアイデアは、大きな意味空間を同様の概念を持つ小さなグループに分解することです。これにより、既知のデータと未知のデータの間の決定境界を単純化できます。具体的には、MOSはCカテゴリの総数をKグループG1、G2、...、GKに分割します。グループ化は、ラベルスペースがわかっている場合はその分類法に基づいて行われ、事前にトレーニングされたネットワークの最後のレイヤーから抽出された特徴を使用してk-meansを適用するか、ランダムなグループ化を行います。次に、各グループGkの標準のグループごとのソフトマックスは次のように定義されます。

マルチラベル分類ネットワークは、彼らが知らないことを知ることができますか？

この研究では、マルチラベル分類設定でのOOD検出器の能力を調査しました。マルチラベル分類設定では、各入力サンプルに1つ以上の対応するラベルが含まれる場合があります。これにより、ラベル間の同時分布をモデル化するのが困難になる可能性があるため、問題が難しくなります。この作業では、複数のラベルからラベルごとのエネルギースコアを集計することによってOODインジケータースコアを推定する、シンプルで効果的な方法として、JointEnergy基準を提案します。また、JointEnergyは、結合尤度の観点から数学的に解釈できることも示しています。

野生の分布シフトを検出するための勾配の重要性について

この作業は、softmax出力と均一な確率分布の間のKL発散から逆伝播された、重みに関する勾配のベクトルノルムを利用する単純なposthocOODdetctionmethodGradNormを提案します。 GradNormは、一般に、OODデータよりも分布（ID）データの方が高くなります。したがって、OOD検出に使用できます。具体的には、KL発散は次のように定義されます。

データセット

セマンティック・レベル・データセット

以下に、セマンティック異常の検出に使用できるデータセットを要約します。セマンティック異常は、ピクセルの変化がセマンティックコンテンツの変更につながる種類の異常です。 MNIST、Fashion-MNIST、SVHN、COIL-100などのデータセットはおもちゃのデータセットと見なされます。 CIFAR-10、CIFAR-100、LSUN、およびTinyImageNetは、色、照明、および背景のバリエーションが多いハードデータセットです。最後に、FlowersとBirdsはきめの細かいセマンティックデータセットであるため、問題はさらに困難になります。

ピクセルレベル・データセット

これらのデータセットでは、見えないサンプル、外れ値、または異常値には、内値との意味上の違いはありません。これは、元の画像の一部に欠陥があることを意味します。ただし、元の意味はまだ到達可能ですが、キズを受けています。MVec AD、 PCB、 LaceAD、 Retinal-OCT、 CAMELYON16、 Chest X-Rays、Species、ImageNet-Oがあります。

合成データセット

これらのデータセットは通常、セマンティックレベルのデータセットを使用して作成されます。ただし、ピクセル変動の量は制御されているため、セマンティック情報を保持しながら、トレーニングされたモデルのさまざまな側面をテストするように、見えない、新しい、または異常なサンプルが設計されます。たとえば、MNIST-cには、ショットノイズやインパルスノイズなど、イメージングプロセス中に発生する可能性のあるランダムな破損であるさまざまな種類のノイズが追加されたMNISTサンプルが含まれています。これらのデータセットは、モデルの堅牢性をテストするだけでなく、新規性の検出や開集合の認識の代わりに、AD設定でモデルをトレーニングするためにも使用できます。異常検出の分野での包括的な研究が不足しているため、これらのデータセットは非常に有益な場合があります。

MINIST-C、 ImageNet-C、 ImageNet-Pがあります。

評価手順

評価指標には、AUC-ROCが多く使われますが、特定のしきい値が必要です。これに対して、FPR@TPRはTPRに対してのFPRの値を示します。AUPRは、Precision-Recall曲線下の面積です。これも、しきい値を必要としない指標です。

AccuracyはOSRで通常使用されます。F-measureあるいはFスコアは精度とリコールの調和平均です。

未来への挑戦

ベースラインの評価とOOD検出の評価プロトコル

OOD検出の評価プロトコルには、改善の余地があります。たとえば、CIFAR-10データセット（IDとして）で3つのガウス分布の混合をトレーニングし、TinyImagenet（クロップ）、TinyImagenet（サイズ変更）、LSUN、LSUN（サイズ変更）、iSUNなどのOODデータセットに対しての評価があります。モデルは、ピクセルレベルでチャネルごとにトレーニングされます。TABLE 1は、さまざまなデータセットでの検出結果を示しています。単純さにもかかわらず、結果はSOTAと同等です。特に、LSUNは、ほとんどの色とテクスチャが均一で、変化と構造がほとんどないため、パフォーマンスが低下します。尤度ベースの方法で観察されたものと同様に、LSUNはCIFAR-10の「内部に位置し」、平均は似ていますが分散が低く、より広い分布の下でより可能性が高くなります。また、分布に近いデータセットと分布から遠いデータセットの両方で評価された、OOD検出ベースラインのパフォーマンスに関するより良い洞察を提供します。 CIFAR10でトレーニングされたモデルの場合、OODに近いデータセットとしてCIFAR-100を使用します。結果をTABLE 2、3、および5に示します。示されているように、タスクを実行するために追加の補助データセットを使用するOEアプローチを除いて、どの方法も近距離および遠距離のOODサンプルの検出に適していません。また、マハラノビス距離を使用すると、遠方のOODサンプルを検出する際のほとんどの方法のパフォーマンスを向上させることができますが、近方のOOD検出のパフォーマンスは低下します。さらに、マハラノビス距離は、ガウス密度推定が不正確であるために、遠いOODサンプルの一部でさえ検出するパフォーマンスが低下する可能性があるためです。さらに、OODデータセットのサイズを変更したりトリミングしたりすると、パフォーマンスが大幅に変化し、低レベルの統計に依存していることがわかります。たとえば、TABLE 5のSVHN列に注目してください。これは、マハラノビス距離の不足について最近示されたものと一致しています。この問題を解決するための1つの解決策は、ODINなどの入力前処理技術を適用して、OODスコアを割り当てる際の1次および2次統計の影響を軽減することです。ただし、テスト中の余分な順方向パスと逆方向パスの合計によって実行速度が向上します。さらに、一部のOODデータセットでは、アンサンブルやMCDropoutなどの手法が他の手法よりもわずかに優れている場合があります。それでも、複数の順方向パスが必要であり、実行時間が大幅に増加します。たとえば、報告されたMC-Dropoutは、単純なMSPよりも40倍遅くなります。要約すると、近距離と遠距離の両方のOODデータセットでOOD検出を評価するための今後の作業をお勧めします。

AD Needs to Be Explored More

先に述べたように、ADとNDは歴史的にも根本的にも完全に同じではありません。実際のアプリケーションで非常に重要で実用的な問題のカテゴリは、簡単にクリーンできない問題であり、その結果、ラベルノイズやデータノイズなどのさまざまな種類のノイズが含まれます。これは、現代の原子力発電所、軍用空母、航空交通管制、およびその他の高リスクシステムなどの複雑で危険なシステムの場合です。 NDで最近提案された方法は、提案された合成データセットを使用してAD設定で評価する必要があり、新しいソリューションを提案する必要があります。 AD検出器の開放性スコアは通常高いため、実用性のためには、再現率を高くし、誤警報率を低くする必要があります。さらに、ほとんどすべてのADまたはNDメソッドは、one-vs-all設定で評価されます。これにより、いくつかの分散モードを持つ通常のクラスが作成されますが、これは実際のシナリオの適切な近似ではありません。したがって、ラベルにアクセスできない状態でOSRドメインと同様のマルチクラス設定でADまたはNDメソッドを評価すると、SOTAメソッドの実用性についてより明確な視点を得ることができます。

ピクセル・データセットのためのOSRメソッド

OSRに存在するほとんどすべてのメソッドは、セマンティックデータセットで評価されます。このようなデータセットのクラス境界は通常、互いに遠く離れているため、識別メソッドまたは生成メソッドは、それらの違いを効果的にモデル化できます。ただし、胸部X線データセットなどの多くのアプリケーションでは、変動は微妙です。既存の方法では、そのようなタスクのパフォーマンスが低下する可能性があります。たとえば、モデルは14の既知の胸部疾患についてトレーニングされる場合があります。 COVID19などの新しい病気が未知のものとして出現する可能性があります。この場合、モデルは、既存の疾患カテゴリに分類するのではなく、新しい疾患として検出する必要があります。また、医療データセットが収集される多くの臨床アプリケーションでは、通常、病気の画像は健康な画像よりもアクセスしやすくなっています。したがって、OSRの問題は、通常の画像としての病気について学習し、異常な入力として健康なものを検出する必要があります。

TABLE 4は、いくつかの頻繁な障害が通常のクラスと見なされる場合のMVTecADデータセットでの単純なMSPベースラインのパフォーマンスを示しています。このようなシナリオでの目標は、よく知られた障害を検出して分類すると同時に、まれな障害を別の方法で処理する必要がある外れ値として区別することです。これは一般的で実用的な産業環境ですが、ベースラインはランダムよりも優れたパフォーマンスを発揮せず、セーフティクリティカルなアプリケーションの一般性に疑問を投げかけています。最近、ある論文は、たとえば、前のセクションで紹介したFlowersまたはBirdsのデータセットのようにクラスの分布がそれぞれに非常に類似しているタスクで、前述のいくつかの作業で行われたのと同様に、分類器ネットワークの最後から2番目の層で以前のガウス分布を使用することの有効性を示しました。ただし、この設定は従来の設定よりも実用的で非常に難しいため、より多くの調査を行う必要があります。

小さなサンプルサイズ

小さなサンプルサイズで学習することは常に困難ですが、望ましいことです。この問題に取り組む1つの方法は、メタ学習アルゴリズムを活用し、いくつかのトレーニングサンプルを使用してAD、ND、OSR、またはOOD検出に簡単に適応できる一般化可能な機能を学習することです。メタ学習の1つの課題は、トレーニングフェーズと適応フェーズの間の分布シフトを処理することです。これにより、1クラスのメタ学習アルゴリズムが生成される可能性があります。また、他のアプローチでは、クラス内サンプルの数ショット分類を改善するための合成OODデータセットの生成が検討されました。最近、メタ学習とAD、ND、OOD検出、OSRの組み合わせが大きな注目を集めていますが、少数のKUCのみを使用してUUCを検出するための一般化や、1クラス設定でのメタ学習アルゴリズムの収束など、いくつかの重要な側面が未踏のままです。

敵対的頑強性

ディープラーニングベースのモデルをだまして誤った予測を行うように注意深く設計された知覚できない摂動は、敵対的攻撃と呼ばれます。これまで、分類器は敵対的な攻撃を受けやすく、テスト時にパフォーマンスが大幅に低下することが示されていました。 OOD検出、OSR、AD、およびNDと同様に、敵対的な攻撃に対して堅牢であることが重要です。 OSR、ND、およびOOD検出の最近の研究では、モデルに対する敵対攻撃の影響が調査されています。ただし、もっと必要です。たとえば、ADの異常またはOSRのUUCはトレーニング時にアクセスできないため、攻撃された異常またはUUCで堅牢なモデルを実現することは簡単ではありません。敵対的攻撃に対するさまざまな防御アプローチと新規性の検出との関係も、モデルの内部メカニズムに関するいくつかの重要な洞察を明らかにする可能性があります。たとえば、メンバーシップ攻撃は、入力サンプルがトレーニングプロセス中に使用されたかどうかを推測しようとします。これは、UKCサンプルに一般化することなくノベルティ検出器を設計するものと見なすことができます。また、ある論文では、中毒攻撃の検出とノベルティ検出器の関係を調査しています。バックドア攻撃を達成するために攻撃者によって意図的に追加された中毒の例は、トレーニングデータセットの「外れ値」の1つのタイプとして扱われる可能性があります。差分プライバシーは、外れ値の検出と新規性の検出だけでなく、NDモデルのバックドア攻撃の検出も改善すると主張されています。まったく異なる観点から、敵対的なロバストトレーニングを使用して、学習した特徴空間を意味論的な方法で後押しすることができます。このパスは、ARAEおよびPuzzle-AEで採用されており、見えないテスト時間サンプルの検出におけるAEのパフォーマンスを向上させています。堅牢性が新規サンプルの検出に有益であることを示す1クラス学習法でも同様の意図があります。このパスは、さらに調査する必要があります。たとえば、分類タスクでの標準的な敵対的攻撃にも関わらず、ADまたはNDで攻撃を知覚できないようにする必要はなく、知覚可能な攻撃によって検出パフォーマンスがさらに向上する場合があります。

モデルの公平性とバイアス

公平性に関する研究は、近年大幅な成長を遂げています。モデルは、トレーニングプロセス中にいくつかの敏感な変数に偏ることが示されています。たとえば、ある論文はCelebAデータセットの属性分類タスクの場合、属性の存在が画像内の人物の性別と相関していることを示していますが、これは明らかに望ましくありません。上記の例の性別などの属性は、保護変数と呼ばれます。 OOD検出の文献では、最近の研究で、トレーニングセットの疑似相関がOOD検出にどのように影響するかを体系的に調査しています。結果は、スプリアス特徴とラベルの間の相関がトレーニングセットで増加すると、OOD検出パフォーマンスが大幅に悪化することを示唆しています。たとえば、予測のために水の背景とラベルwaterbirdの間の疑似相関を利用するモデル。その結果、スプリアス機能に依存するモデルは、同じ背景（つまり、水）であるが、異なるセマンティックラベル（たとえば、ボート）を持つOOD入力の信頼性の高い予測を生成できます。公平性とADまたはNDは、互いに根本的なコントラストがあるようです。公平を期すために、少数派のサンプルと多数派のサンプルの間の等式制約が保持される偏りのないモデルを作成する傾向がありますが、ADモデルの目標は、まれに発生するイベントにより高い異常スコアを割り当てることです。この問題に対処するために、トレーニングプロセスの追加の監視として保護された変数のラベルを使用しながら、公平性を意識したADを提案しました。別の観点からは、DSADなどの半教師あり異常検出方法に非常に重要なバイアスを導入します。監視カメラを使用して不審な人物を見つけるために、DSADが法執行機関に実装されているとします。プロセス中にいくつかのトレーニングサンプルが異常サンプルとして使用されたため、トレーニングされたモデルは、他のモデルよりも特殊なタイプの異常を検出する方向に偏っていた可能性があります。たとえば、補助的な異常トレーニングデータセットに女性よりも男性が多い場合、テスト時に男性としての異常イベントの検出の境界が女性よりも緩くなる可能性があります。これは、OOD検出やOSRなどの分類設定でも発生する可能性があります。ある論文は、胸部X線データセットで訓練された分類器の胸部疾患を検出する際のいくつかの無関係な保護変数に対する不公平なバイアスの存在を報告しています。言われていることから、公平性とAD、ND、OSR、およびOODの検出は、それらが使用されるいくつかの重要なアプリケーションのために強く相関しているように見えます。

マルチモーダル・データセット

多くの場合、トレーニングデータセットはマルチモーダルトレーニングサンプルで構成されます。たとえば、胸部X線データセットでは、放射線科医の処方にNLPメソッドを適用することで画像のラベルが自動的に検出されます。これらの状況では、さまざまなモードの共同トレーニングは、モデルがより優れたセマンティック機能を学習するのに役立ちます。ただし、このように、モデルはさまざまなモードでも堅牢である必要があります。たとえば、視覚的な質問応答タスクでは、モデルが配布されていない入力テキストまたは画像に対して回答を生成しないことを期待しています。ここでは、さまざまなモード間の相関関係に注意する必要があります。さまざまなモードのAD、ND、OOD検出、またはOSRモデルを個別にトレーニングすると、局所的な最小値が維持されます。この問題に対処するために、テスト時間のサンプルを検出することでVQAモデルのパフォーマンスを調査しました。ただし、この方法では、さらに多くの課題を調査する必要があります。

説明性チャレンジ

説明可能なAI（XAI）は、最近提案されたディープネットワークアーキテクチャで、特にセーフティクリティカルなアプリケーションで使用される場合に、非常に重要な役割を果たしていることがわかりました。 AD、OSR、ND、およびOODの検出では、それらの重要なアプリケーションのいくつかが原因で、モデルが行う決定の理由を説明できるはずです。たとえば、監視カメラで人が疑わしいと識別された場合、モデルが決定を下した理由には十分な理由があるはずです。説明可能性の課題は、2つの異なるアプローチに定義できます。最初に、サンプルが正常である、既知である、または分布していない理由を説明する必要があります。次に、サンプルが異常である、不明である、または分布していない理由を説明する必要があります。 Multi-KD、CutPaste、Grad-cam、Smoothfgradなどの文献にモデルの決定を説明するためのさまざまな手法があります。ただし、これらは正常なサンプル、見られたサンプル、または分布内のサンプルを説明するためにのみ使用されており、その結果は十分な入力または見えない入力または異常な入力ほど正確ではありません。理由を提供できるVAEベースの方法を提案もあります。正常サンプルの説明も正確に行いながら、入力サンプルの異常を検出します。ただし、CIFAR-10などの複雑なトレーニングデータセットではうまく機能しません。これは、問題を軽減するためにさらに調査を行う必要があることを示しています。説明可能性のもう1つの重要な課題は、1クラス分類またはNDアプローチに見られます。トレーニング時に1つのラベルにのみアクセスできます。したがって、細粒度ラベルの可用性を使用するGradcamまたはSmoothgradは、もはや使用できません。この問題に対処するために、受容野アップサンプリングと呼ばれるヒートマップアップサンプリングアルゴリズムと組み合わせた完全畳み込みアーキテクチャを提案しました。サンプルの潜在ベクトルから、適用された畳み込み演算子の効果を逆にして、指定された入力サンプル内の重要な領域を見つけます。ただし、説明可能なOCCモデルはまだ大部分が未踏であり、この方向でのさらなる調査が依然として必要です。

マルチラベルOOD検出と大規模データセット

マルチクラス分類のOOD検出は広く研究されてきましたが、マルチラベルネットワークの問題はまだ調査中です。これは、各入力に、認識されなければならない複数の真のラベルがあることを意味します。マルチラベル分類タスクにはより複雑なクラス境界があり、入力サンプルラベルのサブセットで目に見えない動作が発生する可能性があるため、これはより困難です。マルチラベルデータセットの課題は、異常なセグメンテーションタスクで調査できます。画像全体を異常入力として報告できる分類とは異なり、ここでは特定の異常部分を指定する必要があります。現在の方法は、主にCIFARなどの小さなデータセットで評価されています。 CIFARベンチマークで開発されたアプローチは、セマンティックスペースが大きいImageNetベンチマークに効果的に変換されない可能性があることが示され、大規模な実世界の設定でOOD検出を評価する必要性が強調されています。したがって、将来の検索では、ImageNetベースのOOD検出ベンチマークで評価し、開発された方法の限界をテストすることをお勧めします。

データ拡張

既知または通常のトレーニングサンプルを分類する際の不確実性の1つの原因は、一般化パフォーマンスの欠如である可能性があります。たとえば、鳥の画像を回転させても、その内容が損なわれることはなく、再び鳥として区別する必要があります。言及された作品のいくつかは、さまざまなSSL目的関数を設計することにより、この機能をモデルに埋め込もうとしています。ただし、データ拡張を使用して、これを行う別の方法もあります。データ拡張は、トレーニングデータセットを充実させるための一般的な手法です。いくつかのアプローチは、さまざまなデータ拡張手法を使用して一般化のパフォーマンスを向上させます。

別の観点では、目に見えない異常なサンプルを生成し、それらを使用して1クラスの学習問題を単純な2クラスの分類タスクに変換しようとします。OSR設定では、他の論文が同じアイデアに従っています。これらの作業は、さらなる検出タスクのためにデータセットをより豊かにするためのトレーニングデータセットに取り組んでいると見なすこともできます。言われていることから、モデルの代わりにデータに取り組むことは非常に効果的な結果を達成できることは明らかであり、将来のさまざまなトレードオフの感覚でさらに検討されるべきです。

オープンワールド認識

制御されたラボ環境では、新規、未知、または分布外のサンプルを検出するだけで十分ですが、新規カテゴリを継続的に検出して、実際の運用システムの認識機能に追加する必要があります。このようなシステムは、学習する場合でも最小限のダウンタイムしか必要としないという事実を考慮すると、これはさらに困難になります。既存のオープンワールド認識には、さらにいくつかの手順が必要です。つまり、新しいクラスを継続的に検出し、システムを更新して、これらの新しいクラスを多クラスオープンセット認識アルゴリズムに含める必要があります。前述のプロセスは、現在の開集合認識アルゴリズムのスケーラビリティから、OSR分類器の壊滅的な忘却などの問題を回避するための新しい学習アルゴリズムの設計まで、さまざまな課題をもたらします。さらに、前述のすべての将来の作品は、オープンワールドの認識問題で再び再定式化することができます。つまり、この主題のいくつかの既存の研究を検討することによって、さらに調査する必要があります。

OOD検知とOSRにおけるVision Transformers

ビジョントランスフォーマー（ViT）は、CNNに代わるものとして最近提案され、オブジェクト検出、医療画像セグメンテーション、視覚追跡などのさまざまなアプリケーションで優れたパフォーマンスを示しています。同様に、いくつかの方法は最近、OOD検出におけるViTの利点を報告し、OODに近いサンプルを検出する能力を示しています。たとえば、ViTがCIFAR-10でトレーニングされ、CIFAR-100でそれぞれインライアおよびアウトライアのデータセットとしてテストされた場合、以前の作品と比較して有意な優位性を持つことが報告されています。ただし、ViTは通常、トレーニングおよびテストデータセットとの交差が大きいImageNet-22Kなどの特大データセットで事前トレーニングされるため、トレインテストの不一致の整合性はもはや保持されず、問題は「事前トレーニングからどれだけ覚えているか」に変換されます。つまり、ViTは、事前にトレーニングされた知識と交差しないデータセットで評価する必要があります。この問題に対処するために、ランダムに選択された6つのクラスが正常と見なされ、残りのクラスが外れ値または見えないものと見なされる場合に、SVHNおよびMNISTでViT-B16を評価しました。 MSPは未知のサンプルを検出すると考えています。TABLE 6に示すように、ImageNet-22Kで事前トレーニングされたViT-B16は、スクラッチからトレーニングされた他のベースラインほど良くありません。すべての実験は近いODD検出設定で評価されるため、ViTの前述の欠陥をサポートします。言われていることから、研究の将来の方向は、それらの実際の利益がより正確になるように、より制御された状況でViTを評価することである可能性があります。実際、最近のSpeciesデータセットは、ImageNet-22Kクラスのいずれにも該当しない例を収集しており、この問題を修正するための最初のステップです。

まとめ

多くのアプリケーションでは、テスト時に発生するすべての種類のクラスをモデル化することは不可能であり、OOD検出、OSR、ND(one-classlearning)、ADなどのシナリオが存在する分野はユビキタスになっています。そこで本稿では、既存の技術、データセット、評価基準、および今後の課題について包括的なレビューを行いました。さらに重要なのは、アプローチの限界を分析・議論し、有望な研究の方向性を指摘したことです。これにより、研究コミュニティがより広範で分野横断的な視点を構築する一助となることを願っています。

この記事に関するカテゴリー

友安昌幸 (Masayuki Tomoyasu): JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定日本イノベーション融合学会　DX検定エキスパート合同会社アミコ・コンサルティング CEO