教師なしから始める時系列異状検知 (NCAD)
3つの要点
✔️ 時系列異状検知に対して強力なフレームワークが提案
✔️ 予測モデルでもなく、表現豊かな表現モデルにデータ拡張を組み合わせる
✔️ わずかなラベル付きデータも無駄にせず、ラベルが増えるとモデルに取り込み、性能改善
Neural Contextual Anomaly Detection for Time Series
written by Chris U. Carmona, François-Xavier Aubet, Valentin Flunkert, Jan Gasthaus
(Submitted on 16 Jul 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:
本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。
はじめに
AWS AI Labsによる論文です。時系列異状検知のフレームワークで、教師なしから、教師ありまで、シームレスに取り扱い、単変量、多変量を取り扱えるNCAD(Neural Contextual Anomaly Detection)を提案しています。
ラベルの少ないデータセットで教師なし学習を行うとせっかくの情報が使われず、非効率であるという現状を見て、入手できるデータを使い切る半教師学習が理想的であるとしています。そこで、教師なしから、半教師あり、教師ありまでシームレスに取り扱えるフレームワークを用意し、追加のデータを取り込める構造にしました。
最近のコンピュータビジョンでの深層異状検知での開発で、このようなコンセプトで顕著な性能が達成されました、注目すべき例は、超球分類器に連なるワークであり、ワンクラス分類を半教師学習異状検知の強力なフレームワークに拡張するものです。
多変量時系列での表現学習の最近の開発に、もともとは画像処理の異状検知に用いられたテクニックHSC(Hypersphere Classifier), OE(Outlier Exposure)を時系列向けに改造し効率的に結合して実現されました。合成生成した異常値を手元のデータに注入し、正常値と異常値の境界の学習を促進します。ドメインナレッジとしても半教師学習の学習ラベルとしても情報をすべて効率的に利用できます。
この手法では、時系列データを重なり合う固定長のウィンドウに分割します。それぞれのウィンドウはさらに2つの部分に分けられます。context windowとsuspect windowです(Fig. 1)。そしてTCN(Temporal Convolutional Networks)を通してニューラル表現にマッピングされます(embedding)。Suspect window中の異常値を検出するのが目的です。異常値は埋込みに大きな摂動をひきおこすという直観に基づき、異常値は学習した潜在表現空間で識別されます。つまり、正常値と異常値をそれぞれ含む2つの重なるセグメントの表現を比較すると離れていることを期待します。
時系列異状は本来文脈上のものです。それを用い、HSC損失を文脈超球損失に拡張します。文脈表現による超球の中心に動的に当てはめるものです。正常と異常の境界の学習を容易にするため、データ拡張を用います。とりわけ、OEの分散を文脈の異状を作るために用い、単純に注入した外れ値点異状を使います。
関連研究
時系列異状検知についての今までのアプローチを3つに分類しています。1) 予測アプローチ、2) 復元モデル、 3)圧縮ベースアプローチです。
予測アプローチにはARIMAなどの伝統的手法を含みます。SPOT, DSPOTは分布の裾をモデリングする極限値理論を用いて時系列の外れ値を検出します。
深層異状検知において、予測アプローチから派生したのがVAEやGANを用いる復元モデル手法です。DONUTは、VAEを用いてスライディング・ウィンドウの分布を予測します。 SR-CNNは、注入した単発外れ値のラベルを用いて教師なしの異常検出モデルSRの上に教師ありCNNを学習します。 AnoGANは、GANを用い、観測値シーケンスをモデル化し、潜在空間で確率予測します。 DAGMM,LSTM-VAEは再帰ネットワークとVAEを用います。OmniAnomalyは、このフレームワークを、deep innovation state space modelと正規化フローで拡張します。MSCRED,は、畳み込み自己エンコーダを用い、復元誤差を測定して異状を見つけます。 MTAD-GATは別記事で紹介したグラフ・アテンション・ネットワークを用いた手法です。
画像の異状検知では、圧縮ベースのアプローチが一般的になっています。原理はSVMに似たサポートベクトルデータ記述法SVDDに用いられる1クラス分類(トレーニング・データでは1つのクラスのみ)と同じです。インスタンスは潜在表現にマッピングされ潜在空間での球をなします。球の中心から離れた点は異状とみなされます。DeepSVDDは、ユークリッド距離を最小化することにより、これを実現します。THOCは、この原理を時系列のコンテキストに適用します。
HSC(Hypersphere Classifier)はDeepSVDDの改善で、標準バイナリークロスエントロピーを用いて学習します。これにより(半)教師あり学習設定に拡張します。HSCの損失は次式のように疑似確率で表現されます。
いくつかの研究により、ほんの少しのラベル付き異常値データで目覚ましい性能改善が得られることがわかっています。この延長上にOE(Outlier Exposure)という強力なツールがあります。学習中に、拡張データセットから大量の外れ値を取り込むことで検出性能を改善します。そういった負例は、真実の異状ではないにも関わらず、そのような対照付けは学習特性表現に有用です。さらにOEとHSCの組み合わせは、画像において目覚ましい成果を示しました。
時系列では、人工的な異状、それに関してのデータ拡張はあまり研究されていません。SR-CNNが、単点外れ値の注入により教師なし学習異状検知モデルの上に、教師あり学習CNNを載せました。
モデルの説明
異常検出のビルディングブロックは次のようになっています。ウィンドウベースの異状検知アプローチに、柔軟な学習パラダイムと効果的、発見的データ拡張を結合します。
バイナリーデータ(正常、異常)を予測するのではなく、正の異状スコアを各時間ステップに対して予測し、続いて望むPrecision/Recallのトレードオフを満足するようにスレショルドを設定して、異状ラベルを得ます。
ウィンドウベースのコンテキスト超球検出
前述のように、時系列データはウィンドウで分割し、さらにそれぞれをコンテキスト・ウィンドウと、サスペクト・ウィンドウに分けます。通常サスペクト・ウィンドウの方が小さく、1時点もありえます。
ニューラルネットワークの特徴値抽出器$\phi (\cdot ; \theta )$を施して得られるフルウィンドウ、コンテキスト・ウィンドウの表現ベクトル$\phi(w;\theta)$, $\phi(w(C);\theta)$を比較して異状検知します。
損失関数はHSCのコンテキスト的バージョンと見ることができます。
dist(,)にはユークリッド距離、l()には動径基底関数を用いると次のようになります。
直観的には、これは超球の中心がそれぞれのコンテキストに対してコンテキストの表現として動的に選ばれるHSC損失関数ということです。これを汎用の異状注入に対して学習すれば、実世界でのより複雑な異常値に一般化することができるということです。(ラベルデータを追加できる)
アーキテクチャ
NCADは3つの部分からなります。1) NNエンコーダ $\phi(\cdot ;theta)$ ここでは、TCNに時系列に沿っての適応マックス・プーリングをつけたものを使用 2) 距離のような関数 $dist(\cdot,\cdot)$ 3) 確率的スコア関数 l(z)
エンコーダのパラメータ$\theta$はウィンドウwのミニバッチの分類器損失を最小化することにより学習します。
異状をリアルタイムに検出するために、このモデルを時系列データのローリング・ウィンドウに適用します。従って、各時点のデータは複数のローリング・ウィンドウに現れます。最初のハイスコアでアラームを出すことも、平均値に対してアラームを出すこともできます。
データ拡張
このモデルのもう一つの特徴は、人工的な異常値を注入するデータ拡張手法群を利用することです。真のデータ(ground-truth labels)を用いなくても、教師あり学習を行えるようにするためです。これらのデータ拡張手法では、異常値の全分布を特性化しようとするものではなく、共通的な外れ値例を検出する効果的な汎用の発見的手法を追加します。
・Contextual Outlier Exposure (COE)
OEの成功を受けて、コンテキストでの外れ値例を生成するシンプルなタスクに依らない方法を提案します。サスペクト・ウィンドウのデータに対して、他の時系列からのデータの塊を持ってきて入れ替えます。Fig.5が元のデータ。Fig.6が1500~1550にCOEを適用したデータです。(a)と(b), (c)と(d)の間で入れ替えています。
・異状注入
シンプルな1点po(Point Outlier)を提案します。下図のようにスパイクを注入しています。
・ウィンドウ・ミックスアップ (Window Mixup)
MIXUPに触発された方法で学習データの線形結合を行います。Fig. 8のようになります。
実験
ベンチマーク
・データセット
他の比較評価でもよく用いられているNASAのSMAP (Soil Moisture Active Passive satelite), MSL(Mars Laboratory rover)と、11日間の水処理データSWaT(Secure Water Treatment), そしてインターネットからとられたSMD (Server Machine Dataset)が用いられています。
また、YAHOO研究所の367の実データおよび、合成データ、AIOPSデータコンペティションでリリースされた単変量データセットKPIは単変量評価用に用いられています。
・評価設定
普遍的な方法で、時系列異状検知の性能測定を行うのは難しいです。アプリケーションにより、感度、特異度、時間的局所度についてのトレードオフ(何を優先するか)がしばしば異なるためです。これを考慮して、様々な方法が提案されています。ここでは、Xuらの方法に従います。モデルにより少なくとも1時点の異状が検出されたら、その点を含むセグメント全体の異状を検出したこととします。
ベンチマークの結果
Table 1が単変量データセットについて、Table 2が多変量データセットについてのSOTAとの比較評価結果です。KPIについては教師なし、教師ありのそれぞれの設定で評価しています。YAHOOデータセットについては、他の手法を大きく上回る性能を出し、KPIデータセットではほぼ同じ性能でした。
多変量データセットでは、MSL, SWaTでは他を大きく引き離し、SMAPについてはベストのTHOCとほぼ同等の性能、SMDではOmniAnomalyに続く2位になっています。
切り分け分析
この手法でどの部分が有効であるかを理解するために、切り分け実験を行いました。NCADの最初の行はフル構成、続く-がついたケースは、po, COEなどそれぞれの処理を行わなかったケースです。Contextual損失関数が大きく貢献していることがわかります。データ拡張の手法もそれぞれ性能を改善しています。
次の表は、Yahooデータセットについての切り分け実験の結果です。
教師なしから教師ありへのスケーリング
教師なしから、半教師あり、教師ありに移行するときにこの手法での性能がどのように変化するか調べるために、Yahooデータセットでの正解ラベル数を変化させて性能変化を測定しました。
期待したように、まず正解ラベル数に伴って性能は単調に改善します。合成異状(poあるいはCOE)を用いると少ない正解ラベル数でも顕著に性能を改善しています。異状の型によく合わせた異状を注入することによりラベルデータに依存するだけより顕著に性能を改善しています。
半面、注入する異状値が望む異常とは異なる場合には(ここではCOEのケース)、豊富なデータラベルを得た場合と比較すると性能が劣ります。
特化した異状注入手法を使う
ベンチマークでは、汎用の異状注入を用いましたが、この手法の副産物として真の異状を模倣した異常値注入を設計すると、望んだクラスの異状を検出するモデルを導出できることがわかりました。真の異状データを十分に用意することより、そのような異常値を設計することの方が多くの場合単純です。下表(a)はその有効性を示しています。
この手法は、異状が微妙で正常データに近く、かつ検出すべき種類の異状に対して事前知識がある時に効果的です。しかし、そのような事前知識がない場合もあります。そして、模倣した異常値の生成に手間がかかることもあります。そこが、この手法を一般に展開することを妨げる制限です。そのために、ベンチマーク評価では、この手法を使いませんでした。
注入した異状からの一般化
人工的な異状は、常に真の異状とは異なります。生成法が、COE, po, あるいはさらに複雑な手法であるかを問わず、このギャップをつなぎ、不完全な学習データから真の異常値を生成するモデルが必要になります。 超球定式化を設計することで、ギャップをつなぐ助けになります。MIXUPを使い、さらにモデルの一般化性能を改善します。Fig. 3(b)はこの改善効果を評価したものです。モデルは単発外れ値の注入により学習し、長い幅の異状検知性能を測定しています。この実験では、単純な正弦波の時系列にガウシアンノイズを加えた合成データセットを用います。このベースデータセットに、実際の異常値をスパイク異常値を異なる幅のガウシアンフィルタで畳み込み、幅を変えながら加えます。MIXUP比率を高めると、モデルは注入した例とは異なる異状をよりよく一般化し、F1スコアが改善します。
まとめ
狙ったように、単変量/多変量、教師なし/半教師あり/教師ありの各設定に対して、State-of-art同等以上の性能を示しています。類型的に、予測モデル、復元モデルの手法に対して、表現豊かなニューラル表現(圧縮ベースとも表されています)にデータ拡張を組み合わせた手法が優れているとしています。
一方で、不思議ではないですが、コンテキストに沿ったデータ拡張ができると性能が大きく向上しますが、ずれていると効果は限定的です。如何に、コンテキストに沿ったデータ拡張を行うかが今後の研究を俟たれます。
宣伝
AI-Jobsがまもなくリリースされます. AI/DSを本気で取りたい企業のみご利用いただけるようにAI-SCHOLARで求人のチェックから支援 そして,内容次第では掲載の取りやめも考えます. AI/DS人材の環境や価値をしっかり守るための求人掲載プラットフォームになります。
この記事に関するカテゴリー