最新AI論文をキャッチアップ

EdgeConvFormer:多変量時系列における動的グラフCNNと変換器に基づく異常検出

EdgeConvFormer:多変量時系列における動的グラフCNNと変換器に基づく異常検出

Time-series

3つの要点
✔️ EdgeConvFormerは、多変量時系列データの異常検出において、動的グラフCNNとTransformerを組み合わせた新しいモデル
✔️ 実世界のデータセットに適用された実験では、EdgeConvFormerが既存の手法よりも優れた性能を示す
✔️ EdgeConvFormerは、時系列データの周期性と非周期性のパターンを捉えるためにTime2Vec埋め込みを使用

EdgeConvFormer: Dynamic Graph CNN and Transformer based Anomaly Detection in Multivariate Time Series
written by Jie LiuQilin LiSenjian AnBradley EzardLing Li
(Submitted on 4 Dec 2023)
Comments: Accepted on arXiv.
Subjects: Machine Learning (cs.LG)


code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

多変量時系列における異常検出のためのTransformerベースのモデルは、長期的な依存関係をモデル化する上で有利であるため、自己アテンションメカニズムから恩恵を受けることができます。しかし、Transformer ベースの異常検出モデルには、学習に大量のデータが必要であること、標準的な位置エンコーディングが多変量時系列データに適していないこと、時系列間の相互依存性が考慮されていないことなどの問題があります。

これらの限界に対処するために、著者らはTime2vec埋め込み、スタックドダイナミックグラフCNN、Transformerを統合し、大域的・局所的な空間時間情報を抽出する、EdgeConvFormerと名付けた新しい異常検知手法を提案します。

このEdgeConvFormerの設計は、複雑な時系列に対する分解能力、時系列間の漸進的な時空間相関の発見、マルチスケール特徴の表現集約を可能にします。

実験により、EdgeConvFormerは多変量時系列データから空間-時間相関を学習し、スケールの異なる多くの実世界データセットにおいて、最先端のアプローチよりも優れた異常検知性能を達成できることが実証されました。

はじめに

現代の製造業やエンジニアリングサービスでは、多くの複雑なシステムの状態や動作を監視するために多数のセンサーが配置され、大量の多変量時系列データが生成されます。このようなシステムを管理する上で重要なタスクは、異常を検出し、理想的には根本的な問題をタイムリーに解決できるように異常の根本原因を特定することです。時系列データは一変量時系列と多変量時系列に分けられます。一変量時系列は、他の変数の影響を考慮しない単一変数の時系列です。多変量時系列は、時間に関連する複数の変数から構成される時系列で、各変数は過去の値に依存するだけでなく、他の変数にも依存します。複雑系は通常、高次元で、長さがさまざまで、変数間の相互依存性があります。多変量時系列における複数の変数は、多くの場合、動的かつ協調的な関係を持ち、ネットワークサービスや大型産業機器などの複雑な実体の状態を反映しています。

時系列異常は通常、点、文脈、集団の3つのスケールで定義されます。ポイントアノマリーは、他のポイントから大きく乖離したポイントを指し、大域的な外れ値とみなされます。これらは通常、系列内のスパイクです。文脈的異常は、同じハーモニックパターン内の不和点など、ある範囲内で隣接する点から逸脱しているデータ点を指す局所的異常です。最初の2つのタイプの異常は、個々のポイントに焦点を当てています。3つ目の集団的異常は、一連の点が共同して異常パターンを形成することを指します。集団的異常の個々の点は、それ自体では異常でなくても、それらの点の共起が異常となります。コンテキスト異常と集団的異常の識別はより困難です。理想的には、3 つの異常のすべてを検出できる異常検出器が必要です。

時系列におけるアノマリ検出の課題としては、

1)アノマリパターンの具体的な定義の欠如、

2)入力データにおけるノイズ、

3)時系列の長さに伴う計算の複雑化、

4)通常非線形かつ非定常である時系列の相互依存性を捉えることの難しさ、

5)時系列データのラベリングの難しさと高価さ、

などが一般的です。多変量時系列データに対する既存の異常検知手法のほとんどは、再構成または将来系列予測の考え方に基づいた教師なし手法です。再構成ベースのモデルは、学習データ(異常なし)の再構成誤差を最小化します。したがって、再構成ベースのモデルは、正常なデータと異常なデータの間の再構成誤差の格差を拡大することを目的としています。一方、未来系列予測法は、正常な事象は予測可能であるのに対し、異常な事象は予測不可能であることを前提としています。ノイズに対する頑健性は予測ベースのモデルの主な関心事の1つです。自己回帰移動平均(ARMA)のような伝統的な統計的手法や、局所外れ値因子(LOF)、孤立林、1クラスサポートベクターマシン(OC-SVM)のような機械学習手法と比較して、深層学習ベースの異常検知モデルは、ドメイン専門家が手動で特徴を選択することなく、データから階層的な識別特徴を学習することができるため、近年目覚ましい進歩を遂げています。その中でも、自己注意メカニズムに基づくTransformerモデルは、逐次データの長期的な依存関係のモデル化において大きな優位性を示し、より強力な表現と高い性能を可能にしています。

しかし、現在のTransformerベースのモデルには以下の限界があります:

1) 標準的な位置エンコーディングは、時系列には最適ではありません。バニラTransformer[17]は単語の位置を捕捉するためにコサイン関数とサイン関数を使用しており、既存のTransformerベースのモデルは一般的に同じアプローチに従っています。時系列データは、時間情報がタイムスタンプの順序を反映し、周期的パターンと非周期的パターンの両方を含む特殊なシーケンスです。バニラトランスの位置エンコーディングにおける正弦関数の周波数と位相シフトは固定であるため、すべてのスライディングウィンドウの対応する位置にあるタイムスタンプに対して同じ位置エンコーディングが生成され、時間情報の周期性と複雑なパターンが無視されます。従って、時系列に適した効果的な位置埋め込み方法を研究する価値があります。

2) トランスフォーマーには、CNNの並進不変性や局所性のような固有の帰納的バイアスがありません。そのため、学習には大量のデータが必要。この問題を軽減するために、第2世代のVision Transformers (ViTs)は、畳み込み層と注意層を混合し、局所的な帰納バイアスを提供します。多変量時系列のためのTransformerベースのモデルも、追加の畳み込み層から恩恵を受けるはずです。

3) 多変量時系列異常検出のための既存のTransformerモデルは、センサー間のトポロジーを考慮していないため、複数のセンサー間で発生する異常を検出し説明する能力に限界があります。異常事象が発生すると、通常、センサの相互関係が正常なパターンから逸脱します。したがって、センサー間の相関関係を探索することで、多変量時系列における異常検出のためのより多くの情報を提供することができます。

GNN(Graph Neural Networks)を使用してセンサーと時間ステップ間の相互依存関係をモデル化することで、多変量時系列の表現を豊かにすることができます。Gengらは、多変量時系列予測タスクのために、GAT(Graph Attention Network)を利用して、複数の時間ステップにわたる多ヘッドの時間相関を抽出しましたが、センサー間の空間トポロジー構造を考慮しませんでした。センサー(変数)間の相互依存関係をモデル化するために、GNNは通常、グラフ構造(すなわち、変数間の安定した相互接続)に関する事前知識を必要とします。複雑なシステムの場合、完全なトポロジー情報を導き出すことは困難です。Deng と Hooi は、あるセンサと他の全てのセンサ間の埋め込みベクトルの類似度を計算することで、グラフ構造を学習することを提案しました。上位 k 個の類似度がグラフ構造の隣接行列を構築するために選択され、学習されたグラフ構造に基づいてノードの情報をその隣接ノードと融合させるためにグラフアテンションが使用されます。この学習されたトポロジー構造は、静的トポロジーである空間トポロジーです。現実には、ある時間インスタンスにあるセンサーは、別の時間インスタンスにある1つ以上のセンサーと相関している可能性があり、そのような関係は動的です。例えば、水道プラントでは、バルブの故障が、それに関連するパイプラインのセンサーの連鎖反応を引き起こします。遅延が発生する可能性もあるため、異常が同期して発生するとは限りません。したがって、トポロジカルな関係を空間レベルから時空間レベルに拡張できれば、より豊富な情報を提供し、異常検出の精度を向上させることができます。時空間トポロジーの一例を図1に示しますが、これは3次元空間(センサー、タイムスタンプ、エンベッディング)です。点A(ある時間瞬間のあるセンサー)の埋め込み値は、他の時空間状態B、C、Dの埋め込み値と関連しています。

上記の課題を解決するために、本論文では以下の戦略を提案します。1) 位置エンコードでは、各センサーの時系列データを個別に処理することで、多変量時系列をエンコードするために、時間の学習可能なベクトル表現(または埋め込み)であるTime2vec を使用します。Time2vecは、データから正弦関数の重み、周波数、位相シフトを学習し、周期的な挙動を捕捉するために使用され、一方、非周期的なパターンを捕捉するために線形関数が使用されます。Time2Vecの正弦関数は離散的な位置の代わりに連続的な時間を表現することができ、またバニラTransformerの位置エンコーディングではカバーされない周期的な振る舞いを捉えることができるため、2)Transformerの局所性の欠如とセンサー間の時空間トポロジカル関係を見つけるために、各層が動的グラフCNN(EdgeConvとも呼ばれる)と埋め込み空間における時空間状態のトポロジカル構造を洗練するためのTransformerで構成される多層スタックを展開します。各レイヤーにおいて、EdgeConvはトポロジー構造とエッジの特徴を取得するために使用され、続くTransformerは、長距離のタイムスタンプにまたがる情報をキャプチャするために時間次元に関与するために使用されます。提案するモデルをEdgeConvFormerと命名。本論文の貢献は3つあります:

1. Time2Vecを使用して、時系列固有の特性、すなわち時間情報の周期性と複雑なパターンを利用。

2. EdgeConvを多変量時系列異常検出に導入し、センサー間の時空間レベルのトポロジカルな関係を導き出し、最も関連性の高いポイントをローカルグラフから検索することで、変換器の局所性の欠如を補います。

3. EdgeConvとTransformerは階層的、マルチスケール的に統合され、各階層でお互いを補強してEdgeConvFormerモデルを形成します。マルチスケールの大域的特徴量と局所的特徴量の組み合わせと精緻化により、埋め込みによる表現能力を向上させることができます。

提案するEdgeConvFormerを最先端の手法と比較評価するために、一般に公開されているデータセットを用いて広範な実験を実施、EdgeConvFormerは様々な評価指標において、最良または同等の異常検知性能を達成しました。

関連研究

 ディープラーニングに基づく異常検知

近年の深層学習に基づく異常検出技術は、伝統的な統計手法や機械学習手法と比較して、大幅な性能向上を達成しています。その基本的な構成要素には、CNN、RNN/LSTM、オートエンコーダ(AE)、AEの変種、生成モデル、そして深層ワンクラス検出モデルがあります。

例えば、ZhouとPaffenrothは、ノイズの多いデータに対する異常検出のためのRobust Deep AutoEncoder(RDA)を提案しました。

Hundmanらは、宇宙船のテレメトリーを予測し、多変量時系列内の各変数における外れ値を特定するためにLSTMを使用しました。Parkら(LSTM-VAE)は、LSTMを時間的モデリングのために、Variational AutoEncoder(VAE)を再構成のために使用するLSTM-VAEモデルを提示しました。Zhangら(MSCRED)は、異常を特定するために、畳み込み層、LSTM層、および注意機構を組み合わせて、入力シグネチャ行列の再構築を行うエンコーダデコーダ構造を使用しました。Xuらは、歴史的な異常と欠損データポイントに対処するためのVAEに基づく教師なし異常検出アルゴリズムを提案しました。Zongら(DAGMM)は、ガウス混合モデルを用いたスコアリング関数を使用し、AEフレームワークでエンドツーエンドに訓練する教師なし多変量異常検出手法を提案しました。Suら(OmniAnomaly)は、GRUを備えたVAEに基づいて、確率変数接続と平面正規化フローを使用し、異常検出性能を向上させる複雑なアプローチを提案しました。SchmidtとSimicは、時系列の異常を検出するためにフローベースの深層生成モデルを使用しました。WenとKeyesは、CNNに基づく時系列セグメンテーションアプローチを提案し、異常検出のために転移学習を使用しました。Zhouら(Beat-GAN)は、逆生成された時系列を使用して異常を検出するBeat-GANという異常検出モデルを提案しました。Thillら(TCN-AE)は、時系列の異常検出に使用するオートエンコーダアーキテクチャを提案し、これは時間的畳み込みネットワークに基づいています。Shenら(THOC)は、時系列の異常検出のために、スキップ接続を持つ拡張型リカレントニューラルネットワークに基づく時系列ワンクラス分類モデルを提案しました。Liら(InterFusion)は、多変量時系列の異常検出のために、指標間および時間的依存性を同時にモデル化しました。Gargら(UAE)は、動的ガウススコアリング関数を使用する単変量完全連結オートエンコーダ(UAE)が、他の複雑な深層学習アルゴリズムよりも優れていることを発見しました。

彼らは、基盤となるモデルの選択よりもスコアリング関数の選択の方が重要であると考えています。この観察は、最近提案された深層学習アルゴリズムが、多変量時系列データセットの異常を効果的に検出するためにさらなる改善が必要であることを示唆しています。

トランスフォーマーによる異常検知

トランスフォーマーは、自然言語処理やコンピュータビジョンなど多くの分野で大きな成功を収めています。時系列データに対する基本的および変更されたアテンションメカニズムがいくつかの研究で利用されています。

  • Songらは医療時系列データ分析における自己アテンションを活用。
  • Maらは時系列値の欠損推定に自己アテンションを活用。
  • Wuらはインフルエンザ様疾患の予測にトランスフォーマーベースのモデルを使用。
  • CohenとHoshenホーシェンは異常画像の検出にトランスフォーマーベースの異常セグメンテーションを提案。
  • Zerveasらは多変量時系列の教師なし表現学習のためのトランスフォーマーベースのフレームワークを提案。
  • また、Zerveasらはトランスフォーマーの主要な限界の一つである、フルアテンションメカニズムによる系列長に対する二次的依存性(主にメモリ面で)を指摘し、これを線形に減少させるスパースアテンションメカニズムを提案。
  • Chenらは、2つのアテンションメカニズム、SEWAとSSAWを統合した特定のスウィン・トランスフォーマーを多タスク時系列分類に導入。

時系列異常検出において、シュらはアノマリートランスフォーマーを提案し、時系列関連性をモデル化し、アソシエーションの不一致の正常・異常識別性を増幅させるためにミニマックス戦略を使用。トゥリら(トランAD)はトランスフォーマーベースの異常検出モデルを提示し、自己調整と敵対的トレーニングを活用して誤差を増幅し、トレーニングの安定性を向上。しかし、トランスフォーマーベースの方法は、メモリボトルネック、位置情報のエンコーディングの難しさ、ポイントワイズ表現とペアワイズ連携へのトランスフォーマーの焦点などの理由で、特に多変量時系列の異常検出にはまだ広く適用されていません。

グラフ・ニューラル・ネットワークに基づく異常検知

近年、グラフ・ニューラル・ネットワーク(GNN)は、センサー間の複雑な関係をモデル化するための成功したアプローチとして登場しました。Zhaoら[43](MTAD-GAT)は多変量時系列の複雑な依存関係を学習するためにグラフ注意(GAT)層を導入。DengとHooi[22](GDN)は,あるセンサと他の全てのセンサとの間の埋め込みベクトルの類似度を計算することによってグラフ構造を学習することを提案.Chenら[44](GTA)は,Gumbel-Softmaxサンプリング戦略を用いてグラフ構造を自動学習することを提案し,グラフノード間の情報の流れをモデル化するために影響伝播畳み込みを用いる.しかし、上記のモデルによって学習されたグラフ構造は空間トポロジであり、静的なものです。

手法

図2(a)に示すように、著者らは異常検出モデルEdgeConvFormerを提案しています。このモデルは、Time2Vecを用いて時間情報の周期的・非周期的パターンを捉えた入力エンベッディングを符号化します。また、時空間2次元空間上で隣接するセンサペアのエッジに畳み込み演算を行い、局所近傍グラフを構築して埋め込み情報を更新し、局所的な時空間トポロジーを活用します。トランスフォーマーは長期的な時間依存性の発見に用いられ、入力時系列の再構成に有益な特徴を抽出し、再構成誤差の大きい時点を異常として識別します。

図2(b)にネットワーク・アーキテクチャを示します。Time2Vecで各センサの時系列を個別に埋め込みベクトルを生成し、これらを3次元時空間ベクトルにスプライスします。エンコーダでは、埋め込みベクトルを256,512,1024,1024の埋め込みサイズを持つ4層のEdgeConvとTransformerに送り込み、時空間領域における各埋め込みベクトルの近傍を漸次探索します。この近傍情報は、Transformerの自己アテンションに長距離のタイムステップにわたって局所的な誘導バイアスを導入するために融合されます。デコーダは大域的な特徴を得るために全ての情報を集約し、完全連結層で入力時系列を再構成します。

図 2: EdgeConvFormer のアーキテクチャ。(1)入力の埋め込み Time2Vecモジュールは、各チャンネル(センサー)の時間情報の周期的で複雑なパターンを独立して抽出します。(2) エンコーダ EdgeConvモジュールとTransformerモジュールは階層的、マルチスケール的に統合され、各層で互いに補強し合います。EdgeConvは、2次元空間(センサー、タイムスタンプ)の最近傍から、中心点に最も関連する埋め込み情報を抽出することで、より意味のある情報をTransformerに提供します。一方、Transformerで時間次元に注目することで、EdgeConvの長期的なタイムスタンプにまたがる情報を捉える能力が強化されます。(3) デコーダー: エンコーダで抽出されたマルチスケール特徴量をMLP層で集約し、センサ次元に投影します。

Time2Vecエンベディング

Time2Vecは、各センサーからの時系列データを個別に処理し、周期的な振る舞いを捉えるためにデータから学習した正弦関数の重み、周波数、位相シフトを使用します。非周期的なパターンは線形関数を用いて捉えます。この方法は、従来のTransformerの位置エンコーディングがカバーしていない連続時間と周期的な振る舞いを表現できるため、時系列データに特に適しています。Time2Vecは、固定された周波数セットを使用する代わりに、周波数を学習することで、時系列の周期性や複雑なパターンをより柔軟に表現することができます。センサーごとの入力時系列データを(m + 1)次元の埋め込みベクトルに変換し、周期的な特徴を捉えるために64の正弦関数と、非周期的な特徴を捉えるための1つの線形項を含みます。

Time2Vec埋め込みは、EdgeConvFormerモデルの重要な部分であり、時系列データの位置情報と周期的/非周期的な振る舞いを同時に取得するために使用されます。これにより、モデルは時系列データの空間的および時間的な相関を学習し、異常検出の性能を向上させることができます。

エンコーダ

EdgeConvFormerモデルのエンコーダ部分は、異なる出力次元を持つ4層のEdgeConv+Transformerから構成され、それらはエンドツーエンドで接続されています。EdgeConvは、各層のネットワーク上で動的にグラフ構造を構築し、点群のトポロジカル情報を回復するために使用されます。一方、Transformerモジュールは、各層で長距離のタイムスタンプにわたる情報を捉えるために使用されます。エンコーダの表現は、各層のEdgeConv-Transformerの表現結果を連続的に積み重ねることによって行われます。つまり、一つの層の出力が次の層の入力となり、最終的な特徴表現を形成します。このエンコーダの設計により、時系列データの空間的および時間的な特徴を効果的に捉えることができます。

図3:時間次元におけるセルフアテンション

デコーダ

EdgeConvFormerモデルのデコーダ部分は、4層のEdgeConv-Transformerモジュールからの出力を組み合わせて、マルチスケールの特徴を集約します。これらの特徴は、256、512、1024、1024という異なるスケールでショートカット接続され、結合されます。次に、MLP(多層パーセプトロン)層を使用してこれらの特徴を集約し、特徴の次元を512に削減します。センサー次元において最大プーリングと平均プーリングの両方を適用し、その結果を特徴次元に沿って連結します。これにより、特徴次元は1024に変更され、グローバルな特徴が得られます。最終的に、ドロップアウト、LeakyReLU、レイヤー正規化を使用した3つの全結合層が使用されます。デコーダの最後の層は線形射影であり、最終的な再構成された時系列ウィンドウを生成します。

異常検知と評価

再構成誤差は異常の程度をある程度明らかにしますが、異常なデータと正常なデータを明確に区別できないことがあります。より良い検出のためには、いわゆるスコアリング関数が必要です。異常の厳密な検出のために、二値判定のために異常スコアに閾値法が適用されます。閾値法は、偽陽性と偽陰性を減らすことで、より正確に異常を検出するのに役立ちます)。さらに、与えられたデータセットにおける異なるアルゴリズムのパフォーマンスを測定するための評価メトリックも必要です。

異常スコアリング関数

異常スコアリング機能は、テストセットの変動に適応する動的ガウススコアリング関数「Gauss_D」を採用しています。この関数は、サンプル平均𝜇𝑖𝑡と分散𝜎𝑖𝑡を用いてガウス分布をフィットさせ、前のスライディングウィンドウからの誤差値によって連続的に更新されます。トレーニングセットの最後のスライディングウィンドウから計算された平均と分散を、テストセットの初期部分の平均𝜇𝑖𝑡と分散𝜎𝑖𝑡として使用します。これは「ローリングノーマル分布」と呼ばれます。このプロセスは次のように表現されます:

さらに、ガウスカーネルを用いた異常スコアの平滑化を行う「Gauss_D_K」も導入されています。これは、ガウスカーネル𝜎𝑘を持つガウスフィルター𝐺を使用し、異常スコア𝑎𝑖𝑡;𝐺𝑎𝑢𝑠𝑠_𝐷に対して畳み込み演算子*を適用することで、センサーごとの異常スコアを平滑化します。この方法は、異常イベントに反応する複数のセンサーがわずかに異なるタイムポイントで現れることがあり、誤解を招くスパイクを生じる可能性があるため、異常スコアを平滑化してノイズを除去し、より正確な総異常スコアを得るために使用されます。この処理は式12で表されます:


ここで、𝐺はガウスフィルター、𝜎𝑘はガウス関数の幅を制御するパラメーター、*は畳み込み演算子、𝑎𝑖𝑡;𝐺𝑎𝑢𝑠𝑠_𝐷は𝐺𝑎𝑢𝑠𝑠_𝐷からのセンサーごとの異常スコアを指します。

スレショルド手法

異常検出アルゴリズムの性能評価に使用される3つの異常閾値設定方法は以下の通りです:

1. Best-F1-score: 最適なF1スコアを見つけるために異常閾値を探索します。これは、使用される評価指標(F1、Fpa1、またはFc1)の最大値を見つけることを目的としています。

2. Top-k: 最も高い異常スコアを持つk個の時点を選択し、それらを異常としてラベル付けします。ここでkは実際の異常数であり、異なるテストセットで変動します。

3. Tail-p: スコアリング関数がN個のセンサーからの負の対数確率の合計であるため、スコアAtが−N log10(ε)より大きい時点を異常としてラベル付けします。ここでNはセンサーの数、εは小さな尾確率であり、ε ∈ {10−1, 10−2, 10−3, 10−4, 10−5}のセットから選ばれます。最高のパフォーマンスを持つεの値を選択することで閾値が設定されます。

これらの方法の中で、Tail-pはストリーミングシナリオと一致しており、より適用可能です。また、これらの閾値設定方法は、異常検出アルゴリズムの性能を公平に比較するために使用されます。

評価指標

異常検出アルゴリズムの性能評価には、主に以下の指標が使用されます:

𝐹1スコア: 点ごとの精度と再現率の調和平均であり、ポイント異常を検出するための従来の指標です。偽陽性と偽陰性の両方を考慮に入れます。

𝐹𝑝𝑎1スコア: 最新の時系列異常検出手法で使用される点調整済みF1スコアで、異常セグメント内の全インスタンスが真陽性と見なされるのは、セグメント全体で単一の異常が検出された場合です。これは実世界のアプリケーションでの異常の扱い方と一致しています。

𝐴𝑈-𝑅𝑂𝐶: 受信者操作特性曲線の下の面積で、異なる閾値における真陽性率と偽陽性率のトレードオフを示します。𝐴𝑈-𝑅𝑂𝐶が1に近いほど性能が良いことを意味します。

𝐴𝑈-𝑃𝑅𝐶: 精度-再現率曲線の下の面積で、陽性のみに焦点を当てた検出器の性能を評価します。陽性を正しく分類することが重要なシナリオで重要な指標です。

これらの指標は、異常検出アルゴリズムの性能を包括的に評価するために使用されます。

実験

EdgeConvFormerモデルの性能を評価し、データ内の異常や予期せぬパターンを特定する効果を実証するために、5つの実世界の多変量時系列データセットを使用しています(表1参照)。これらのデータセットにモデルを適用し、既存の異常検出方法と比較することで、さまざまなドメインや異常シナリオにおける実用的な使用の可能性を示すことを目指しています。具体的には、以下のデータセットが使用されています:(1) SMD(サーバーマシンデータセット)は、大手インターネット企業から収集された38次元の5週間のデータセット、(2) MSL(マーズサイエンスラボラトリーローバー)は、NASAからの55次元のテレメトリーデータ、(3) SMAP(土壌水分アクティブパッシブ衛星)は、NASAからの25次元のテレメトリーデータ、(4) SWAT(セキュアウォータートリートメント)は、11日間の連続運用から得られた51センサーのデータ、(5) PSM(プールドサーバーメトリクス)は、eBayの複数のアプリケーションサーバーノードから収集された26次元のデータです。MSL、SMAP、SMDは複数エンティティのデータセットであり、他の2つは単一エンティティのデータセットです。

表1 よく使われる5つのデータセット。エンティティの平均化。

図4:100エポック学習した各データセットのTrain/Val損失。

実験結果分析と切り分け実験

このモデルは、5つの実世界の多変量時系列データセット(表1参照)を使用して評価され、それぞれのデータセットは異なるドメインと異常の割合を持っています。SMD、MSL、SMAPは複数のエンティティからのデータを含み、SWaTとPSMは単一エンティティのデータセットです。

EdgeConvFormerの性能は、既存の異常検出アルゴリズムと比較され(表5参照)、平均ランク(表6参照)を用いて、異なるデータセットにおけるアルゴリズムの一貫性と効果を示しています。EdgeConvFormerは、全体的な平均ランクで最も優れた性能を示しており、特にSMAPとMSLのデータセットで顕著です。

図6は、EdgeConvFormerを用いた異常検出の質的評価を視覚的に示しており、実際の異常(ワインレッドの線)、予測された異常スコア(オレンジの線)、および最適なFc1閾値(黒線)を適用した予測された異常ラベル(黄色の線)を示しています。この図から、EdgeConvFormerが異常をどの程度正確に検出できるかが分かります。

図7は、異なるアプリケーションの異なるトレースタイプ(T1、T2、T3、T4)における異常スコアと実際の異常範囲を示しており、モデルが異常をどのように検出しているかを示しています。これらの図は、EdgeConvFormerが異常を検出する際の感度と特異性を視覚的に理解するのに役立ちます。

また、EdgeConvFormerの各コンポーネントの重要性を評価するためのアブレーション研究が行われており(表7参照)、Time2Vec埋め込み、EdgeConvモジュール、Transformerモジュールがそれぞれモデルの性能にどのように寄与しているかが示されています。特に、EdgeConvモジュールを取り除くと、F1スコアが最も大きく低下し、空間的および時間的情報の表現に最も重要なコンポーネントであることが示されています。

実験結果は、EdgeConvFormerが多変量時系列データにおける異常検出において、他の手法よりも優れた性能を示すことを実証しています。

表2 エグザスロンデータセット

図5:1データポイントに対するアルゴリズムごとの平均実行時間
表3 EdgeConvFormerにおける各データセットの主なハイパーパラメータ値。

表4 各ベースラインで使用された主なハイパーパラメータ値。

表5 5つの公開データセットにおけるEdgeConvFormerとUAE、MSCRED、OmniAnomaly、BeatGan、LSTM-VAE、TCNAEの動的ガウススコアリングによる性能比較。最良の結果は太字でハイライトされています。

表6 全5データセットにおけるアルゴリズムの平均順位。

表7 5つの公開データセットにおけるEdgeConvFormerとSOTAの性能比較。P: Precision (as %), R: Recall (as %), Fpa1: point-adjusted F1 score (as %).最良の結果は太字でハイライト。

表8 エグザスロンデータセットの異常検知結果。AD1(異常の存在)、AD2(範囲検出)、AD3(早期検出)、AD4(完全一回検出)。𝑃 𝑇 : Range-based Precision (as %), 𝑅 𝑇 : Range-based Recall (as %), 𝐹-𝑃 𝑇 : Range-based F1 score (as %)。最良の結果は太字でハイライト。

図 6: 提案する EdgeConvFormer モデルを用いた異常検出の定性的評価。各データセットについて、ワインレッドの線はグランドトゥルースの異常、オレンジの線は予測された異常スコア、黄色の線は異常スコアにベストFc1閾値(黒の線)を適用して予測された異常ラベル。

図7:提案するEdgeConvFormerモデルを用いたExathlonデータセットにおける異常検知の定性的評価。ピンクの長方形はグラウンドトゥルースの異常、緑の線は予測された異常スコア(Gauss_D_Kスコアリングを使用)、黄色の線は異常スコアに対するtail-p閾値。
表9 PSMデータセットにおけるベストFスコアしきい値によるエンコーダの除去。w/oTime2VecはTime2VecをTransformerの位置エンコーディングに置き換えることを意味し、w/oEdgeConvとw/oTransformerはそれぞれエンコーダの各レイヤーのEdgeConvモジュールとTransformerモジュールを削除することを意味します。最良の結果は太字でハイライトされています。

まとめ

本論文では、多変量時系列の異常検出のために、Time2Vec、ダイナミックグラフCNN(EdgeConv)、Transformerを組み合わせたEdgeConvFormerモデルを提案しています。Time2Vecは、時系列の位置情報と周期的/非周期的挙動を同時に得るために、入力埋め込みを符号化します。

EdgeConvとTransformerを積み重ねた多層アーキテクチャにより、時空間特徴を交互に漸進的に精緻化し、多変量時系列データの異常をより正確に検出しています。EdgeConvFormerモデルは、実世界の広範なデータセットの様々な評価指標において、最先端の結果と頑健性を達成しました。今後の課題として、グラフCNNにおけるポイント単位の表現を変更し、計算の複雑さとメモリ消費量を削減するために、自己アテンションを部分系列レベルに変更することを検討することができます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定 日本イノベーション融合学会 DX検定エキスパート 合同会社アミコ・コンサルティング CEO

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする