時系列異状検知にもTransformer
3つの要点
✔️ いよいよ多変量時系列異状検知にもTransformerが現れました
✔️ グラフも含めた深層学習により多変量の時系列の表現力は向上してきましたが、まだ単一時点に限ります
✔️ Transformerのグローバルおよび長期の連関に対しての表現力を活かして、改造したAnomaly-Attentionを含む2分岐の構造で従来のSOTAを超える性能を確認しています
Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy
written by Jiehui Xu, Haixu Wu, Jianmin Wang, Mingsheng Long
(Submitted on 6 Oct 2021 (v1), last revised 13 Feb 2022 (this version, v4))
Comments: arXiv
Subjects: Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
いよいよ多変量時系列異状検知にもTransformerが現れました。実際には、この論文の前にGTA (Chen et al., 2021)というグラフ構造により複数のIoTセンサーの関係を学習するモデルにTransformerが時間軸のモデリングと異状検知の再構築基準に用いられていました。ブロック図を添付しておきます。他にもTranAD、TiSATなど続々と発表されています。機会があれば、これらについても紹介したいと思います。
今回紹介するAnomaly Transformerは、セルフアテンションメカニズムを異状検知用に改造したものです。
以前の記事の繰り返しになりますが、実世界のデータでは、異状検知を行いたい場合に、異常のデータはまれであり、ラベリングを行うことは困難であるため、ここでは教師なし学習にフォーカスします。この場合、教師データなしに、正常/異常の判別基準を作る必要があります。古典的な手法では、密度見積もり、クラスタリング手法がありますが、これらは時間的要素を考慮しておらず、見えていない実際のシナリオに一般化するのは難しいです。ニューラルネットワークによる表現学習の能力を利用して、最近の深層学習モデルは優れた成果を出しています。主な手法カテゴリーでは、回帰型ネットワークを通して点的に表現学習し、再構成あるいは自己回帰タスクにより自己教師学習します。やはり、異常データの少なさの為、複雑な時間軸パターンに対しては、判別が難しくなっています。また、再構成あるいは予測誤差は時点毎に計算されるので、時間的なコンテキストの包括的な表現は難しくなっています。
別の手法カテゴリーでは、明示的な連関(association)モデリングにより異状を検知します。ベクトル自己回帰や状態空間モデルがこのカテゴリーに属します。グラフもまた含まれます。以前紹介したように、GNNは多変量時系列の動的なグラフの学習に適用されています。表現能力は向上していますが、まだ単一時点のモデルに限定されています。一方部分シーケンスベースの手法は、部分シーケンス間の類似性を計算することにより異状を検知します。しかし、これらの手法では、各時点と系列全体の詳細な時間的連関を捕捉することができません。
この論文の手法では、Transformerを時系列異状検知の教師なし学習に適用しています。Transformerがひろく適用されているのは、グローバルな表現と、長期の連関を統一的に表現できるためです。時系列に適用した場合に、セルフアテンションマップは各時点の時間的連関を表現します。これを系列連関(series-association)と名付けます。さらに、異常の希少性と正常なパターンの優位性のために、異常が系列全体との強い関連を構築することはより困難であることが観察されます。異常の関連は、連続性のために同様の異常パターンを含む可能性が高い隣接する時点に集中する必要があります。このような隣接濃度の誘導バイアスは、事前連関(prior-association)と呼ばれます。対照的に、支配的な正常の時点は、隣接する領域に限定されるのではなく、系列全体との有益な関連を発見することができます。この観察に基づいて、関連分布の固有の正常-異常識別可能性を利用しようとします。これにより、各時点の新しい異常基準が導き出されます。これは、各時点の事前連関とその系列連関の間の距離によって定量化され、連関不一致(Association Discrepancy)と呼ばれます。前述のように、異常の関連は隣接集中している可能性が高いため、異常は正常の時点よりも連関不一致が小さくなります。
教師なし時系列異常検出にTransformerを導入し、連関学習用のAnomalyTransformerを提案しています。連関不一致(Association Discrepancy)を計算するために、セルフアテンションメカニズムをAnomaly-Attentionに刷新します。これには、各時点の事前連関と系列連関をそれぞれモデル化する2つの分岐構造が含まれています。事前連関では、学習可能なガウスカーネルを使用して、各時点の隣接する濃度の誘導バイアスを提示します。一方、系列連関は、生の系列から学習したセルフアテンションの重みに対応します。さらに、ミニマックス戦略が2つの分岐間に適用されます。これにより、連関不一致の正常と異常の識別可能性が増幅され、新しい連関ベースの基準がさらに導き出されます。
この論文の貢献は、次の3つです。
・連関の不一致の主要な観察に基づいて、Anomaly-Attentionメカニズムを備えたAnomaly-Transformerを提案します。これにより、事前連関と系列連関を同時にモデル化して、連関の不一致を具体化できます。
・ 連関不一致の正常と異常の識別可能性を拡大し、さらに新しい連関ベースの検出基準を導出するためのミニマックス戦略を提案します。
・Anomaly Transformerは、3つの実際のアプリケーションの6つのベンチマークでSOTAの異状検出結果を実現します。 広範な切り分けと洞察に満ちたケーススタディを行います。
関連研究
教師なし時系列異状検知は次のように分類できます。
・密度見積もり手法
LOF(Local Outlier Factor), COF(Connectivity Outlier Factor)は局所的な密度や結合度を計算し、外れ値を決定します。DAGMMやMPPCACDは混合ガウスモデルを組み込んで密度を見積もります。
・クラスタリングベース手法
クラスター中心との距離で異常スコアを求めます。SVDD, Deep SVDDは正常値からコンパクトクラスターの表現を収集します。THOCは階層クラスタリングメカニズムの中間層からの多スケール時間軸特徴量を融合し、多層距離から異状を検知します。
・再構成ベース手法
ParkらはLSTM-VAEモデルによりLSTMで時間軸モデル、VAEで再構成を表現しました。OmniAnomalyはこれをさらに拡張し、再構成確率を検出に用いました。InterFusionはバックボーンを階層的VAEに改装し、系列内、系列間依存性をモデリングします。GANもまた再構成ベースモデリングに用いられています。
・自己回帰ベース手法
予測誤差により異状検知します。VARによりARIMAを拡張、あるいは自己回帰モデルをLSTMで置き換えます。
手法
Anomaly-Transformer
Fig. 1のようにAnomaly-Attentionブロックとフィードフォーワード層を交互に積み重ねて、Anomaly-Transformerを構成します。深層多層特徴量から潜在的な連関を学習するのに寄与します。式で表すと次のようになります。
・Anomaly-Attention
通常のセルフアテンションメカニズムでは、事前連関と、系列連関を同時にモデルできないので、2つの分岐を持つAnomaly-Attentionを提案しています。事前連関に対しては、学習できるガウスカーネルで連関時間軸距離に照らして計算します。スケールパラメータσを学習して、異なる長さの異状セグメントなどさまざまな時系列パターンに適応します。系列連関分岐では、生系列から連関を学習します。適応的に最も効果的な連関を見つけます。これら2つにより、個別時点の表現よりは、情報量の多い各時点の時間軸依存を保持します。式で表すと次のようになります。
・Association Discrepancy(連関不一致)
事前連関と系列連関の間の対称化KLダイバージェンスとしてAssociation Discrepancyを定義します。2つの分布の情報利得を表します。多層のAssociation Discrepancyを平均します。
異常データではAssDisが正常データについてより小さくなります。
Min-Max連関学習
モデルの最適化には、再構成損失を用いています。系列連関は最も情報に富む連関を見つけます。正常と異常の差を増幅するために、連関不一致を拡大するためにさらに追加的な損失を用います。事前連関の単一モード特性のために、不一致損失は系列連関に非隣接領域にも注目させます。それにより、異常の再構成をより困難にし、異常をより識別可能にします。損失関数は次のように再構成損失と連関不一致の和で表されます。
・ミニマックス戦略
連関不一致を直接最大化すると、ガウスカーネルのスケールパラメータを極端に縮小し、事前連関を意味なくしてしまうので、Fig. 2に示すミニマックス戦略を取ります。具体的には、最小化フェーズでは、事前連関が生系列から学習した系列連関を事前連関が近似するようにします。これにより事前連関が様々な時間的パターンに適応します。
最大化フェーズでは、連関不一致を拡大するように事前連関を最適化します。これにより、系列連関に非近接により注目するようにします。
・連関ベース異状基準
再構成基準に正規化連関不一致を導入します。これにより時間的表現と認識可能な連関不一致の両方の恩恵を得ます。最終的には、異状スコアは次のようになります。
実験
評価データセットには、たの論文でもよく使われるデータセットを含めて次の5つを使用しています。(1) SMD(Server Machine Dataset), (2)PSM (Pooled Server Metrics), (3)MSL (Mars Science Laboratory)とSMAP(Soil Moisture Active Passive satellite), (4)SWaT (Secure Water Treatment), (5)NeurIPS-TS(NeurIPS 2021 Time Series Benchmark)
比較対象のベースラインモデルは、再構成ベースモデルのInterFusion, BeatGAN, OmniAnomaly, LSTM-VAE, 密度見積もりベースのDAGMM, MPPCACD, LOF,クラスタリングベースのITAD, THOC, Deep-SVDD,自己回帰ベースモデルのCL-MPPCA, LSTM, VAR、古典的手法のOC-SVM, IsolationForestです。
Table 1は結果のまとめです。いずれのデータベースについても、この手法が最高のF1スコアを示しています。
Fig. 3にROC曲線を示しています。やはりAnomaly Transformerが最も良い結果を示しています。
NeurIPS-TSはLaiらにより提案された、様々な時点異状、パターン異状を含むデータベースです。こちらでもAnomaly Transformerが最も高いF1スコアを示しています。
Table 2は切り分け実験の結果を示しています。F1スコアで見ると、連関ベース再構成で18.76%の改善、連関不一致を直接基準とすることでも改善が大きいです。学習可能な事前連関で8.43%、ミニマックス戦略で7.48%の改善があります。
モデル分析
このモデルの動作を感覚的に理解するために、Fig. 5に視覚化しています。
・異状基準視覚化
連関ベースの基準は、一般的に、より区別しやすいことがわかります。 具体的には、連関ベースの基準では、正常の部分に対して一貫して小さい値を取得できます。これは、点とパターンの場合では非常に対照的です。 対照的に、再構成基準のジッタ曲線は、前の2つのケースで検出プロセスを混乱させ、失敗させます。これにより、基準が異常を強調し、正常点と異常点に明確な値を提供できることを確認し、検出を正確にし、偽陽性率を低減します。
・事前連関視覚化
ミニマックス最適化中に、事前連関が系列連関に近づくように学習されます。 したがって、学習されたσは、隣接に集中した時系列を反映できます。 Fig. 6に示すように、時系列のさまざまなデータパターンに適応するためにσが変化することがわかります。 特に、異常の事前連関は、通常、正常の時点よりもσが小さく、これは、異常の隣接濃度の誘導バイアスと一致します。
・最適化戦略分析
再構成損失がある場合のみ、異常な時点と正常な時点は、1に近いコントラスト値に対応して、隣接する時点との連関の重みで同様のパフォーマンスを示します(Fig. 3)。 連関不一致を最大化すると、系列連関は隣接していない領域により多くの注意を払うようになります。 ただし、より良い再構成を得るために、異常は、より大きなコントラスト値に対応して、正常の時点よりもはるかに大きな隣接関連の重みを維持する必要があります。 しかし、直接最大化はガウスカーネルの最適化問題を引き起こし、期待どおりに正常な時点と異常な時点の違いを強く増幅することはできません(SMD:1.15→1.27)。 ミニマックス戦略は、事前連関を最適化して、系列連関に対してより強力な制約を提供します。 したがって、ミニマックス戦略は、直接最大化(SMD:1.27→2.39)よりも識別可能なコントラスト値を取得し、それによってパフォーマンスが向上します。
この論文のAppendix A~Lにはさらに詳細の評価結果やデータセットの解説が行われています。
まとめ
この論文は、教師なし時系列異常検出問題を研究しています。 以前の方法とは異なり、Transformersによるより有益な時間軸の連関を学習します。 重要である連関不一致の観察に基づいて、Anomaly Transformerを提案しています。これには、連関不一致を具体化するための2分岐構造のAnomaly-Attentionが含まれます。 ミニマックス戦略は、正常な時点と異常な時点の違いをさらに増幅するために採用されています。 連関不一致を導入することにより、再構成の性能と連関不一致を連携させる連関ベースの基準を提案します。 Anomaly Transformerは、経験的研究のデータセットで広く評価し、SOTAの結果を確認しています。
将来的には、自己回帰や状態空間モデルの古典的な分析に照らして、Anomaly Transformerの理論的な研究を行うとしています。
この記事に関するカテゴリー