プライバシー保護を考慮した時系列異状検知アーキテクチャー
3つの要点
✔️ プライバシー保護を考慮して、データをすべてサーバーに集めないで異状検知するアーキテクチャーです
✔️ 以外にシンプルなモデルの組み合わせで構成されています
✔️ ローカルデータの均質性に依存しますが、エッジ処理しても検出性能がほとんど劣化していません
Federated Variational Learning for Anomaly Detection in Multivariate Time Series
written by Kai Zhang, Yushan Jiang, Lee Seversky, Chengtao Xu, Dahai Liu, Houbing Song
(Submitted on 18 Aug 2021)
Comments: Accepted paper in the IEEE 40th International Performance Computing and Communications Conference - IPCCC 2021
Subjects: Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。
はじめに
多変量時系列異状検知においては、時間的依存関係と変数間の依存性の両方を把握する必要があります。従来の時系列異状検知手法であるARIMAなどより、深層学習の手法が優れているのは、変数間の依存性を把握することができるからです。
AI-SCHOLARでも、MTAD-GAT, Stack-VAE, ScoreGradを紹介してきました。本論文では、これらとは多少異なるモデルアーキテクチャーを取っています。しかし最も大きな特徴はプライバシー保護の手法の一つであるFederated Learningアーキテクチャー上に時系列モデルを構築していることです。
関連研究
・予測モデル
予測モデルでは、予測値との誤差により異状検知を行います。RNNの変型であるLSTM, GRUがよく使われます。時系列トレンドの未来予測とは異なり、Linらは、短いウィンドウに対してVAEを用いて局所情報の埋め込みを抽出し、LSTMを用いて次のウィンドウの埋め込みを予測します。時間的パターンの検出がシーケンスの外れ値を見つける唯一の方法ではありません。マイクロソフトはスペクトラル残差(SR)をでシーケンスのスペクトル情報を把握し、それをCNNに入れて異状を分類します。グラフニューラルネットワークを使った方法では、ネットワーク中のより複雑な依存関係をモデリングすることができます。
・生成モデル
生成モデルの核になる考え方は、時系列の異状ではなく正常値のパターン表現を学習します。DAGMM, VAE[3, 14], GAN[15, 16]などがあります。ところが、DAGMMは多変量時系列を目的としていないので、生来の時間的依存を把握しておらず、[3, 14, 15]はは時間的依存だけ考慮しているので、特徴値間の潜在交互作用を明示的に取り込むことはありません。
・異状検知のためのFederated Learning
Federated learning (FL)は大量のエッジデバイスコンピュータがデータを共有することなく、結合的にモデルを学習することを可能にしています[19]。FedAvgは良く知られたアルゴリズムで、確率的勾配降下を局所デバイスに適用、パラメータサーバーとクライアントとの通信の周期でアップデートします。プライバシー保護観点からデータが希少である問題に対応するため、サイバー物理システムの異状を検出する頑強なモデルの学習を強化します。
Diotは、最初にFLを異状検出ベース侵入検知に適用しました。それぞれのデバイスからのネットワークトラフィックパケットの不均一性を軽減するため、パケットシーケンスをシンボルとしてマッピングしました。これは事前学習したGRUモデルに入力され、それぞれのシンボルの発生確率を予測し、侵入の可能性を検出します。
コミュニケーションは、FLのもう一つのボトルネックです。エッジデバイスは通常処理速度が遅く、信頼性が低いためです。[22]では、通信コストを削減する圧縮勾配を得るため、疎化技術を使用します。[23]では、マルチタスクFederated learningを提案します。[24]では生成モデルであるDAGMMをFederated式にしています。
手法
Fig.1のように、訓練データは異なる実体からの、ある期間のセンサーやアクチュエータからのデータからなります。学習時のデータは正常値のみを含みます。テスト時には、訓練データ列の一部を違う区間に入れることにより異常値を作ります。
FedAnomalyの概観
FedAnomalyはFig.2に示すように、2つの部分からなります。集団的学習とオンライン検出です。図示していませんが、変換、標準化、固定長ウィンドウ化の前処理があります。ローカルのモデルで訓練データのパターンを把握した後、エッジデバイスから勾配を集計し、グローバスモデルの更新をします。シーケンスの最後のタイムスタンプで観測値の復元誤差を出力し、標準/検証データはクラウドに蓄積されます。標準データの復元誤差が収束するまでグローバルモデルの学習を続けます。復元誤差は、閾値選定モジュールでオンライン検出用に異状閾値を選ぶのに使われます。この論文では、標準データの最大の復元誤差を閾値にしています。
各エッジデバイスのオンライン検出モジュールは、学習済みモデルと閾値をクラウドから受け取ります。実体は、新しい観測値についての異状結果を得ることができます。
ConvGRU (Convolutional Gated Recurrent Unit)
GRUのドット積を畳み込みで置き換えたConvGRUを使用します(Fig.3)。時系列データが1次元なので、1D-Convを使用します。多変量の依存関係は、表現学習として把握されます。
ここに生成モデルとしてVAEを組み合わせます。標準形のVAEは多層のパーセプトロンから構成されるだけなので、シーケンシャルなモデルではありません。そこで、Fig.4のようにConvGRUとVAEをつなぎます。下段の一連のConvGRUの最終段から隠れ特徴値htが抽出されます。ここから対数分散と平均を求め、潜在変数ztの分布が得られます。逆順のシーケンスにより復元シーケンスx'tが得られます。前述のように、入力シーケンスの最後のタイムスタンプで異状検知を行うので、最後のConvGRUセルの隠れ状態のみをデコーダに送ります。
実験
データセットには他の論文でも多く使われているSMAP, MSL, SWaTを使用します。Non-Federated設定とFederated設定の2つの前提で評価をしています。最適化アルゴリズムが前者ではAveraged Stochastic Gradient Descent (ASGD)が使われているのに対して、後者では普通のSGDが使われています。ConvGRUセルは128個、損失関数は、MSEとKLダイバージェンスからなる復元誤差です。
Federared設定では、デフォールトではローカルの更新エポックE=1で、3つのクライアントを持ちます。それぞれのクライアントは訓練データから排他的にnon-iid(独立同分布ではない)にデータをサンプリングします。
比較対象は、IF (Isolation Forest), AE, LSTM-VAE, DAGMM, MAD-GAN, OmniAnomaly, USADです。結果はTable IIの通りです。*は総当たり(brute-force search)で、最善のF1がでる閾値を選んでいます。ConvGRU-VAEは、F1については最良、Precision, Recallについてもほぼ最良の結果を出しています。
Federated設定(FedAnomaly)では、SMAP, MSLで結果が悪化します。宇宙船での遠隔測定チャンネルが極端に非均質なためです。SWaTでは、ほとんど劣化がありません。
モデルパラメータ探索と遅延時間分析
SWaTはラベルと、異状の原因がわかっているので、さらに分析を行いました。
・ウィンドウ長探索
ウィンドウ長に対する依存をTable IIIに示します。Precision, Recall, F1はウィンドウ長5, 20, 10でそれぞれ最大になりました。実世界の異状検知では、異状は離れた点よりは隣接して発生することが多いです。モデルが異状を検出して、そのセグメントに正解がある場合にカウントしたのが、Detected Segmentです。Fig.5の左のグラフは、検出から正解までの遅れです。5を超えるウィンドウ長で遅延が短くなります。
このモデルは、ウィンドウ10, 20で、全体的な異状パターン、セグメントの検出、反応スピードに対して性能が良いという結論になりました。
・隠れ変数サイズ探索
検出性能と、隠れ層のサイズの関係を調べました。一般に小さい隠れ層数は特徴値の相関、時間的依存性を把握するのにモデルの容量が不足すると考えられます。他方、長すぎると冗長になり、効果的な表現学習を妨げます。Table IV, Fig.5中央、右グラフを見ると、多い方が検出性能は良く、遅れが小さくばらつきも少なくなり、遅延を合わせた中での検出レートが改善していることがわかります。
Federated Learningメカニズムについての追加実験
Federated設定で、ローカルエポックLとクライアント数Cの依存性を調べてみました。
・性能分析
Table Vで太字はF1, 下線はPrecision, 二重下線はRecallがベストの条件を示します。F1とPrecisionはL=2でほとんどベストになり、RecallはL=3でほぼベストになります。Lが増えるとRecallが改善、Precisionは悪化する傾向があります。Cに関してはあまり傾向がありません。
Table VIには遅延をまとめました。2つの数字のセットの最初は調整セグメント数、後ろは平均遅延です。L=3がほとんどのCについて良好ですが、Table VではL=3はPrecisionが低めで、フォールスアラームを出しがちです。
・学習曲線の分析
学習曲線についてみると、クライアントが増加すると、コミュニケーション回数を増やさないと検証ロスが最小にならないことがわかります。ローカルエポックから見ると、大きな値では収束が早くなります。
まとめ
エッジコンピュータなど実体(entity)レベルで異状検知ができると、教師なし学習やプライバシー保護の観点から大きな利点があります。今回提案したConvGRU-VAEと、そのFederated環境への適用FedAnomalyでは、そうした環境でもSOTA同等以上の性能を示すことが確認できました。
ただし、データが非均質な場合には性能が劣化する問題があり、将来の研究課題です。
(記事著者所見)
多変量時系列データの、時間的および特徴値間の関係性を把握するモデルが最近いくつか提案されていて、SMAPなどでの共通したデータセットでの比較では、ほぼ同じF1などを得ています。グラフ・アテンション、積層VAE、エネルギーベース生成モデル、そして今回のConvGRU-VAEなどアーキテクチャーはかなり異なるものもあるのに、同じく良好な結果が得られているのは興味深いです。見た目の違いに対して本質的に行われていることの類似性の解析を期待したいところです。
この記事に関するカテゴリー