隠れたクセを自己教師学習と適応的記憶で捉える多変量時系列異状検知

異常検知 2022年02月28日

3つの要点
✔️ 正常時系列データの中にも多様性があり、限られた訓練データより得られない情報を補うために自己教師学習と適応的記憶融合を適用
✔️ 軽量化しても性能劣化が少なく、高速であることもこのモデルの特長
✔️ モデルの精度を上げるには、データ（信号）の振る舞いに対しての深い洞察力が重要

Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection
written by Yuxin Zhang, Jindong Wang, Yiqiang Chen, Han Yu, Tao Qin
(Submitted on 3 Jan 2022)
Comments: IEEE.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

少し前に紹介した論文で、多変量時系列データの異状パターンの特徴に合わせたモデルが構築されていました。この論文も主旨は同じです。しかし、もう少し詳細にパターンを観測して、適応的なモデルを構築しています。ぜひ前のモデルとも比較してみてください。

背景として、異状検知データセットでは異状データが少なく、教師なし学習について多く研究されています。オートエンコーダは強力な手法であり、復元誤差を最小化するように学習します。派生モデルとして、LSTM-AE, Convolutional AE, ConvLSTM-AEなどがあります。

しかし、2つの大きな課題が残っています。

1)正常データの不足: 正常データの不足というのは不思議な感じがしますが、正常とされるデータにもいろいろなバリエーション、広がりがあり、それらをすべて含んだデータセットを学習用に用意することができないという意味だと思います。Fig. 1の(a)正常、(b)異状の場合のように、類似している場合、過学習してしまいます。

2)特徴量表現の限界: 正常データに(c)のような多様性がある場合に、従来手法ではうまく表現することができません。

この論文で提案するAdaptive Memory Network with Self-supervised Learning(AMSL)の狙いは次の通りです。

1) 自己教師あり学習と記憶ネットワークにより、それぞれ正常データと特徴量表現の課題について挑みます

2) グローバルとローカルの記憶を学習し表現能力を上げ、さらに適応的メモリー融合モジュールによりグローバルとローカル記憶を融合して最終表現にします。

3) 4つの公開データセットで性能比較します。従来手法に比べ、精度、F1スコアにおいて４％以上の改善を確認しました。また、ノイズにも強いです。

AMSLの構成

Convolutional AE(CAE)をベースネットワークにしています。CAEの損失関数は、次式のように平均二乗誤差(MSE)になっています。

AMSLは4つの要素から構成されます。

1) 自己教師学習モジュール
2) グローバル記憶モジュール
3) ローカル記憶モジュール
4) 適応的融合モジュール

そして、アルゴリズムも4ステップから構成されます。

1) エンコーダは生時系列データを６つの変換を行い潜在特徴量空間にマッピングします
2) 自己教師学習のために、多クラス分類器が、一般化された特徴量を学習するために、これらの特徴表現を分類します
3) 特徴量は、グローバルとローカルの記憶ネットワークにも送られ、共通及び個別の特徴を学習します
4) 適応的融合モジュールがこれらの特徴量を融合し、再構成に用いられる新しい表現を得ます

自己教師学習

AMSLの自己教師学習モジュールは、正常値の特徴量表現を一般化します。いろいろなパターンを持つ可能性のある意未知の異状に対して、学習で用いる正常値データは限られています。この問題を解決するために、自己教師学習を用いてモデルの一般化能力を増加させます。

データ拡張の後、インスタンスは一貫性を持つと仮定し、オリジナルデータの特徴量変換を設計し、補助タスクとしてモデルがサンプルの変換タイプを認識できるように訓練します。具体的には、6つの信号変換（ノイズ、逆転、順列、スケール、反転、平滑化）を用います。損失関数は、それぞれの変換についてのクロスエントロピーの足し合わせになっています。

適応的記憶融合モジュール

従来のAEは、ノイズの多いまたは未知のトレーニングデータによって悪影響を受けるため、異常な入力を一貫して再構築しすぎる可能性もあります。したがって、モデルは代表的な特徴量を学習できません。この課題に対して、典型的なパターンを記録することにより、正常なデータと異常なデータを区別するモデルの能力を強化する適応型記憶融合モジュールを提案しています。

記憶モジュール

記憶モジュールは、エンコードされたパターンを表す記憶表現と、記憶とインプットの類似性に基づき記憶を更新する更新パートからなります。記憶はCxFの行列Mであり、入力zに対して、コサイン類似度

から求めた、重みw_i

により重みづけした

が、このモジュールの出力になります。

訓練フェーズでは、記憶マトリックスを再構成損失関数で更新できるため、正常の特性記録にフォーカスします。テストフェーズでは、記憶ネットワークは、正常の特性の複数のパターンを考慮して、すべての項目の組み合わせで表現を出力します。したがって、正常インスタンスを適切に再構築できます。記憶モジュールで取得された正常パターンを使用して再構築された異常は、より高い再構築エラーの結果として求めます。

適応的融合モジュール

さらに、すべての機能拡張から共通表現と特定表現の両方を学習するための適応メモリ融合ネットワークを提案しています。具体的には、すべての変換に含まれる共通の表現を学習するグローバル記憶モジュールと、各変換の拡張固有の表現を学習するローカル記憶モジュールを提案します。最後に、これら2つのレベルの機能を再構成に使用される最終的な表現に融合する適応融合モジュールを提案します。その動機は、通常のデータの一般的なパターンと、通常のデータパターンに役立つ特定の情報（つまり、それぞれの異なる変換）を捕捉できるため、通常のデータの特徴表現をきめ細かく改善できることです。

共有記憶行列を使用してグローバル記憶モジュールを構築します。エンコードされた表現をクエリとして使用することにより、グローバル記憶モジュールは記憶行列に一般的なアイテムを記録できます。共有記憶モジュールを通して、出力は次のように得られます。

原データと6つの変換用にR個のローカル記憶モジュールを構築します。各記憶行列は、対応する変換の正常値の特性を記録します。これらの出力は、ローカル記憶モジュールにより次のように得られます。

直観的に、特定のインスタンスを表す際に、共通の特徴量と特定の特徴量が等しく重要ではありません。これらの特徴量を適応的に融合するために、特徴量と自由変数rを入力として受け取り、重みα（ローカルおよびグローバル記憶の2つの重み×R個の変換の合計）で融合した表現を生成するフィードフォワード層を使用します。バッチ正規化とシグモイド活性化関数を使用して重みを正規化し、それらの値を（0、1）の範囲内に制御します。 rはランダム性を高めるために使用されます。適応的融合表現は次のように表せます。

αは共通(グローバル）と特定（ローカル）の特徴量に対する重みです。

デコーダは、エンコーダの出力と、適応的融合の出力を連結してオリジナルの入力を再構成する入力とします。再構成損失はデコーダ出力とオリジナル入力のl₂距離を最小化するように定義されます。

記憶項目の複雑な組み合わせによる異状の過剰再構成を避けるために記憶重みwのスパース性を制限するために、スパース性損失を採用してwのエントロピーを最小化します。

３つの損失関数(10),(11),(3)をトレードオフパラメータλを用いて統合して、AMSL全体の損失関数は次のようになります。

学習はEnd-to-endで行われます。（アルゴリズムは論文を参照してください）

推論では、スレショルドを設定し、Err(X_i)の値に対して判定を行います。（アルゴリズムは論文を参照してください）

評価実験

ベンチマーク用のデータベースはTABLE 1の4つを使用しています。DSADSは日常の体の動きに関するモーションセンサーのデータです。PAMAP２は同様な体の動作のデータですが、モバイルを使用しています。WESADはウェアラブルのストレス、感情センサーデータです。CAPは睡眠時無呼吸を検出する睡眠状態のセンサーデータです。

TABLE 2には、DSADS, PAMAP2についての動作別による正常、異常の分類を示しています。

比較対象モデルは４つの伝統的手法(KPCA, ABOD, OCSVM, HMM)と７つの教師なし学習(CNN-LSTM, LSTM-AE, MSCRED, CovLSTM-COMPOSITE, BeatGAN, MNAD, GDN, UODA)です。評価指標は、平均適合率、平均再現率、平均F1スコア、精度です。

TABLE 3が評価結果です。すべてのデータセットについて、AMSLが大きく他をしのぐ結果になっています。特に、最も大きいデータベースCAPについて、AMSLは第2位のOCSVMに比べF1スコアで4.90%と劇的な改善を見せています。比較的難しいDSADS, PARAM2, CAPについては、データ量が大きくなると改善量が減少することがわかっています。自己教師学習は小規模なデータセットで一般化表現の学習が難しいときに、より有効であるということになります。さらにサンプル数は比較的少ない一方、カテゴリ数が多い場合にAMSLでの改善は大きく、限定された訓練データでの多様性を取り扱う能力に優れていることを示しています。

伝統的な手法では、特徴量抽出手法に限界があるため、データセットによって性能が変化します。例えば、再構成モデルは、ノイズに強くありません。MNAD, ConvLSTMはもともと動画データのモデルなので、多変量時系列には適していないかもしれません。BeatGANはCAP, WESADに対して性能がよくありません。

Fig.4の混同行列を見ると、ほとんどのデータセットで正常データの誤分類は、異状データの誤分類より比率が低いことがわかります。F1スコアは93%を超えています。

切り分け実験

AMSLの自己教師学習(SSL)、記憶(Mem)、適応的融合(Ada Mem)モジュールのそれぞれの効果を切り分けています。データセットはPAMAP2を使用しています。ベースラインはConvolutional AE(CAE)です。自己教師学習モジュール、記憶モジュールはそれぞれ改善を見せています。これらを組み合わせ、さらに適応的融合を行うとさらに改善されています。

詳細分析

・自己教師学習

自己教師学習は、ネットワークが正常なデータの一般的で多様な機能を学習するのに効果があります。これにより、モデルの一般化能力が向上し、目に見えない正常なインスタンスと異常なインスタンスを識別します。Fig.3（a）は、各自己教師データ変換の性能比較分析を示します。この評価では、拡張データを共同で学習することによるモデルの性能が、個々のデータを学習するよりも優れているかどうかがわかります。ノイズの多い信号を除いて、全体的な性能スが競争力があることを示します。したがって、より一般化するためには、すべての変換を組み合わせることが有益です。

・適応的融合モジュール

Fig.3(b)では、CAE, GMSL, LMSL, AMSLを比較しており、GMSLはグローバル記憶ネットワーク、LMSLはローカル記憶ネットワークです。結果を見ると、適応的融合がグローバルあるいはローカルの個別の記憶ネットワークよりも性能が高いことがわかります。

TABLE 5は4つのデータセットでのより詳細な比較を示しています。いずれも適応的融合が高い性能を示しています。学習が進むにつれ、適応的重みがどのように変化するかFig.3(c)に示しています。1~7の数字はFig.3(a)の変換に対応しています。

ノイジーデータへの頑強性

実際のアプリケーションでは、多変量時系列データの収集は、環境またはデータ収集デバイスの変化によるノイズで簡単に汚染される可能性があります。ノイズの多いデータは、教師なし異常検出に重大な課題をもたらします。ガウスノイズ（µ = 0、σ= 0.3）を、1％から30％の間で変化する比率でランダムに選択したサンプルに注入して、ノイズに対する頑強性を評価しています。 Fig.6は、UODA、ConvLSTM-Composite、およびAMSLの3つの方法の性能比較です。ノイズが増加すると、すべてのメソッドのパフォーマンスが低下します。その中でも、AMSL（オレンジ色）は他のAMSLよりも大幅に優れています。

異常の比率

一般に、異常の割合は正常よりも大幅に低くなります。したがって、テストセットの異常の割合が1％、5％、10％、15％、20％、25％、および30％の場合に、CAPデータセットで実験を行います。 Fig.7に、さまざまな方法を使用した異常クラスのF1スコアを示します。 OCSVM、ConvLSTM-COMPOSITE、MNAD-R、AMSLの4つの方法の性能を比較しています。異常の割合が減少するにつれて、他の方法のF1スコアが大幅に減少した一方で、AMSL（オレンジ色）は依然として安定していることがわかります。これは、テストセットで異常の割合が非常に低い場合でも、AMSLが異常クラスで高精度と再現率を達成していることを示しています。つまり、データセットの不均衡の問題に強いと言えます。

ケーススタディ

正常、異常のいくつかの分類について、ケーススタディを行っています。DSADSデータセットの3次元シグナルを用いています。AMSLではすべてのケースで正確に分類できています。比較のMNAD, UODAでは、正常サンプルが大部分の正常サンプルと異なる場合、異状サンプルが正常サンプルに非常に似通っている場合に誤分類しています。

パラメータ感度分析

時系列ウィンドウの長さV、記憶行列のサイズM、エンコーダの最終層のフィルタサイズFの３つをキーパラメータとし、感度分析をしています。

さらにLMSL, GMSLについての感度分析も行っています。Fig. 9(a-b)はウィンドウ長の感度、(c-d)は記憶サイズの依存性、(e-f)はフィルタサイズ感度を示しています。損失関数中のλ₁, λ₂依存は、Fig.9(g-h)に示されており、それぞれ、1, 0.0002が最適値となっています。

スレショルドμも重要なパラメータです。TABLE 6によると第99パーセンタイルが最適のスレショルドを予測できそうです。そこで、99パーセンタイルを異状検知のスレショルドとしました。

収束、時空複雑性

Fig.10（a）は、記憶モジュールによる再構成損失の収束と自己教師損失を示しています。AMSLは、高速で安定して収束し、より効果的に適用できます。

また、DSADSデータセットでAMSLおよびその他の強力なベースラインの推論時間を評価します。Fig.10（b）に示すように、AMSLは、最高の性能を達成することに加えて、他のほとんどの方法よりも短い実行時間しか必要としません。

さらに、DSADSデータセットで評価されたTABLE 7によると、AMSLのパラメーターの数とモデルサイズは、他のほとんどの方法よりも比較的小さくなっています。また、TABLE 7で自己教師データ変換Rを制御してモデルパラメータを削減することにより、性能の低い変換を破棄しています。AMSL（R = 6）は、パフォーマンスの低い変換「ノイズ」を破棄し、AMSL（R = 5）は「ノイズ」および「スケール」変換を破棄し、AMSL（R = 4）は「ノイズ」、「スケール」および「置換」変換を破棄します。 AMSL（R = 3）は、「ノイズ」、「スケール」、「順列」、および「反転」変換を破棄します。AMSLは依然として最高のF1と精度のスコアを達成していることがわかります。他のデータセットでも、結論は同様です。これにより、実際のアプリケーションで手法選択がよりフレキシブルになります。

まとめ

本論文では、多変量時系列信号の教師なし異常検出のための自己教師学習（AMSL）を備えた適応記憶ネットワークを提案しています。目に見えない異常に対するモデルの一般化能力を強化するために、自己教師学習モジュールを使用して多様な通常のパターンを学習し、適応型記憶融合ネットワークを使用してグローバルおよびローカル記憶モジュールによる豊富な特徴量表現を学習することを提案しました。 4つの公開データセットでの実験は、精度、一般化、および堅牢性の点で、AMSLが既存のアプローチを大幅に上回っていることを示しています。

将来的には、教師なし異常検出のために、AMSLを画像やビデオなどの他のモダリティに拡張する予定であり、さらに、より効率的な学習アルゴリズムを開発し、メソッドの理論的分析を追求することも計画しているとしています。

（記事著者コメント）この手法では、各系列についての多様性は細かくとらえているようですが、系列間の相関については考慮されていないようです。他の論文での手法との組み合わせでさらに強力なアルゴリズムに改良する可能性があります。

一方、データの特徴に対してモデル構造を合わせこみすぎると、この論文で狙っている一般化能力がかえって失われる恐れもあると思います。例えば、６つの変換に対して正常／異常は変化しない前提ですが、対象システムあるいはアプリケーションによっては必ずしも一貫性は保証されていません。評価に用いられている身体系のデータの他に、金融系やネットワーク系のデータに対しての性能も見てみたいものです。