動的グラフ上の時系列に対する対照学習GraphTNC
3つの要点
✔️ GraphTNCは動的または静的グラフ上の多変量時系列データの表現を学習するために、対照学習の枠組みを用いた新しいエンコーダを提案しています
✔️ 主要なアーキテクチャは、グラフの状態と多変量時系列との関係を学習する静的グラフエンコーディングモジュールと、データのダイナミクスを捕らえる時間モジュールから構成されます
✔️ 合成データセットと実データセットに対する実験結果から、グラフが信号の特徴間の動的な関係を知らせたり捉えたりする場合に、この手法が有効であることが示されました
Contrastive Learning for Time Series on Dynamic Graphs
written by Yitian Zhang, Florence Regol, Antonios Valkanas, Mark Coates
(Submitted on 21 Sep 2022)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
近年、教師なし学習の枠組みで多変量時系列の表現を開発する試みがいくつかなされています。このような表現は、活動認識、健康モニタリング、および異常検出などのタスクにおいて有益であることが証明されています。本論文では、動的なグラフの各ノードで時系列を観測する設定を考えます。ここでは、グラフと時系列の結合表現を教師無しで学習するためのGraphTNCと呼ばれるフレームワークを提案します。このアプローチは対照学習戦略を用います。時系列とグラフの変化・進化のダイナミクスが区分でみると滑らかであると仮定し、信号が近似的に定常性を示す時間の局所的な窓を特定します。そして、近傍の信号の分布と非近傍の信号の分布とを区別できるような符号化を学習します。合成データを用いた性能実証と、実世界のデータセットを用いた分類タスクでの実証を行っています。
はじめに
時系列はその疎なラベル付けと複雑さのために、モデリング、特に教師あり学習にとって困難なデータ型になります。この課題に対処するために、この論文では時系列の埋め込みを学習する教師無し手法を用い、それによって情報量の多い低次元表現を抽出することができます。このような入力データの一般的な表現は、ラベルを必要とせず、下流のあらゆるタスクに利用することが可能です。
ここ数年、自己教師付き学習(SSL)が表現学習の効果的な手法として注目されています。SSLは対照学習と呼ばれ、“A simple framework for contrastive learning of visual representations”のSimCLRアプローチにより普及しました。自己教師付き学習の危険性の一つは、モデルが全てのサンプルに対して類似あるいは同一の埋め込みを出力するようになることによる崩壊です。対照学習は,正と負の学習ペアを識別することにより,崩壊を回避します。正のペアに含まれるサンプルの埋め込みは類似するように促され、負のペアに含まれるサンプルの埋め込みは引き離されます。
時系列の対照学習には,いくつかのアプローチがあります。Contrastive Predictive Coding (CPC) は、まず高次元データをコンパクトな潜在的埋め込み空間に圧縮し、次に自己回帰モデルを用いて信号のその後の値を予測する効果的な戦略です。これは予測符号化の原理を利用して、確率的な対比損失でエンコーダを学習させるものです。Franceschiらは“Unsupervised scalable representation learning for multivariate time series”でトリプレット損失を採用し、参照時系列がその部分系列のいずれかに近く(正のサンプル)、負の系列(ランダムに選択)からは遠い表現を持つことを保証しようとしました。Temporal Neighborhood Coding (TNC)は、信号の局所的な滑らかさを利用して、時系列の窓に対して一般化可能な表現を学習します。これは、表現空間において、時間的に近い信号の分布が、遠い信号の分布と区別できるようにすることで達成されます。また、TNCは一対の負のサンプルも類似している可能性を考慮します。
非対照学習は対照学習と比較して、概念的に単純であり、大きなバッチサイズや負のサンプルを保存するための大きなメモリバンクを必要としません。注目すべきアプローチにはBootstrap Your Own Latent (BYOL) やSimple Siamese (SimSiam) があります。これらの方法は、教師ネットワークの表現を予測するために、生徒ネットワークを学習させます。後者の重みは生徒の重みの移動平均であるか、生徒と共有されるが、教師を通じて勾配がバックプロパゲートされることはありません。最近の取り組みでは、より効果的な損失項の開発が検討されています。例えば、 Variance-Invariance-Covariance Regularization (VICReg) は、Barlow Twins loss を改良し構築したもので、Barlow Twins loss は、EvoNet を改良し構築したものです。
教師あり学習の枠組みの中には,多変量時系列の相関を捉えるために,グラフ構造を学習することが検討されているものがあります。
EvoNetは、時系列データから動的グラフを構築し、イベント予測に利用することができます。しかし、グラフ上の時系列の教師なし表現学習は、文献上ではまだ未解明です。
本論文では、グラフと時系列の結合表現を学習するためのGraphTNCと呼ばれるフレームワークを提案します。この手順は、信号とグラフの基礎的な状態が時間と共に変化する設定のために設計されています。このモデルは、各タイムステップのグラフ入力が同じである静的グラフを持つ時系列に対してもスケーラブルです。2つのデータセットで学習された表現の品質を評価し、その表現が一般的で分類などの下流のタスクに移行可能であることを示します。この論文の貢献は以下のようにまとめられます。
- 動的または静的グラフ上の多変量時系列データの表現を学習するために、対照学習の枠組みを用いた新しいエンコーダを提案する。
- コンピュータビジョン分野の非対照学習法を一般化し、非定常多変量時系列データに対応する。
課題設定
時系列のグラフ上の表現を教師無しで学習するタスクを考察します。ここで、多変量時系列をX∈RN×Tとし、Nは単変量時系列の数、Tは時系列の全長です。時間インデックスtから始まる固定長wの窓はXの[t,t+w]番目の列:X[t,t+w]∈RN×wによって含まれ、Xtと表記します。wは一定と仮定するので表記に含めず、本文中で明確にするために必要な場合のみ指定します。多変量時系列と関連して、N個のノードからなるダイナミックグラフを持ち、そのエッジは時系列とともに進化します。N個の一変量時系列はそれぞれグラフの1つのノードに関連づけられます。ノード間のエッジは、進化する相関構造を示していると仮定します。時系列のウィンドウと同様に、動的グラフのウィンドウをGt = [Gt, ... , Gt+w]; Gi = (V, Ei), |V| = N。ここで各グラフGiは時間iにおけるグラフの状態に関連付けられます。目標は、時系列窓とその関連グラフ(Xt, Gt):fenc(Xt, Gt)=ztの表現zt∈Rhを学習することです。
手法
多変量時系列の窓とそれに関連するグラフの列の表現を構築するアーキテクチャを設計します。このアーキテクチャは2つのモジュールからなるエンコーダです。以下、これらのモジュールと、エンコーダの学習に使用する損失関数について説明します。
A. エンコーダ f enc(Xt, Gt)
エンコーディングアプローチは、次の2つの主要なビルディングブロックに分解することができます。 a) グラフの状態と多変量時系列との関係を学習する静的グラフ符号化モジュール b) データのダイナミクスを捕らえる時間モジュール
a) 静的グラフエンコーディングモジュール
このモジュールの目的は、タイムステップiにおけるノード埋め込みと多変量信号の関係を学習することです。そのためには、まずグラフGiの状態に基づく個々のノードの表現が必要です。これは、グラフを入力とする任意のノード埋め込み関数f Gによって提供されます。
ただし、kは出力されるノードの埋め込み次元です。次に、Hiとxi∈RNで示されるこのタイムステップの時系列を連結し、ニューラルネットワークに通すと、タイムステップiにおけるグラフと信号の相互作用の最終表現であるeiを得ることができます。
ここで、dはグラフ・シグナル相互作用表現の次元、vec(-)は行列の列を積み上げる演算子、[-|-]は二つのベクトルの連結(vec : Ra×b → Rab, [-||-] : Ra||Rb → Ra+b)を表します。
b) Temporal Module:
データ(Xt, Gt)の動的性質を捕らえ、最終的な表現ztを得るために、時間ベースのニューラルネットワークf tempを使用します。このネットワークf tempは、現在の隠れ状態si∈Rsと時間iの入力に基づいて、次のタイムステップsi+1∈Rsの隠れ状態を出力します。この枠組みでは、入力は信号xiと処理済みのグラフと信号の相互作用eiが連結されたものです。最終的な表現ztは窓swの最後の隠れ状態をニューラルネットワークに通すことで得らます:
f Gとして1層グラフ畳み込みを、f tempとして1層双方向ゲートリカレントユニット(GRU)を使用します。N N 1 と N N 2 は共に 1 層のフィードフォワードニューラルネットワーク(FNN)です。
B. 損失関数
識別器D(zt, z)を定義します。目的関数は識別器の確率尤度推定値がzとztが近傍窓の表現であれば1に近くなり、そうでなければ0に近くなるようにすることです。時間的に近い窓を近傍窓と見なし、Augmented Dickey-Fuller (ADF) 統計検定を用い、近傍範囲を求めます。グラフと信号の基本的な状態は一緒に進化すると仮定しているので、近傍範囲Ntは時系列のみに基づいて選択されます。損失関数は以下のように定義されます。
ここにmは非近傍領域̄ N tから正の窓をサンプリングする確率です。関数を最適化することにより、近傍領域(Xl, Gl) ∈ N t からのサンプルの表現 zl = f enc(Xl, Gl) を、近傍領域外からのサンプルの表現 zk = f enc(Xk, Gk) と識別することができます。
実験
実験では、制御された環境での合成データセットと、実世界のデータセットで提案モデルの性能を評価しました。両データセットとも時間と共に変化する状態を持ちます。従って、状態は各時間窓(Xt, Gt)に関連付けられます。学習された表現zの性能は、状態を分類対象とする下流分類課題によって評価されます。
A. データセット
1) 合成データ
合成データセットには、動的グラフの影響を受けた多変量時系列が含まれており、これも合成的に生成されます。時系列とグラフの生成は、隠れマルコフモデル(HMM)によりモデル化された時系列の基礎的な状態により駆動されます。各状態において、時系列は、異なるパラメータセットを持つ非線形自己回帰移動平均モデルや異なるカーネル関数を持つガウスプロセスなど異なる生成過程から生成されます。各時間ステップの特徴は、ベクトル ft∈RN に連結されます。
ここで At は Gt の隣接行列、r はグラフが時系列にどれだけ影響を与えるかを加重平均するものです。
2) EEG : 被験者の脳に接続されたプローブからEEG信号を記録
このデータセットは、オンラインデータサイエンスコンペティション1によるもので、被験者が手を掴んで持ち上げる動作をしたときの32チャンネルのEEG記録が含まれています。それぞれの手の動作は、初期動作、持ち上げられる物体への最初の接触、荷重段階の開始、手の離脱、手の交換、リリース、無動作の7つの状態に分けられます。このデータセットのグラフ構造は、32個の電極位置の間の空間的関係を符号化したものです。このデータセットは、脳に対する電極プローブの物理的な位置のマップを提供します。これらのプローブは格子状に配置されています。各ノードは電極プローブを表し、2つのプローブがグリッド上で直接隣接している場合、エッジが2つのプローブを結ぶグラフを定義します。グラフは静的であるため、このモデルに適合させるために、各タイムステップで繰り返されます。60タイムステップの長さの信号を100個抽出し、モデルを学習させます。
B. 実験の設定
1) GraphTNC vs baseline TNC:
この実験では、時系列から学習した表現について、グラフを考慮した場合と考慮しない場合の分類性能を比較します。公平に比較するため、ベースラインTNCで提案されたエンコーダと同じf temp(1層双方向GRU)を用います。本アーキテクチャでは、時間モジュールの前にグラフ符号化モジュールf G(1層グラフ畳み込み)を追加し、f tempの入力がグラフと信号の合成情報となるようにした。詳細なハイパーパラメータはTable Iを参照されたい。
学習にはAdam optimizerを用い、学習率1e-3、重み減衰1e-5で、両データセットとも100エポック、早期停止で学習させました。前述のように、学習段階では識別器とエンコーダーを一緒に学習するが、推論時にはエンコーダーのみが必要となります。窓サイズwは、TNCと同じ理論に基づき、基礎となる状態の情報を含むのに十分な長さで、かつ複数の状態にまたがるほど長くないものを実験によって選択します。表現の品質を評価するために、下流タスクとして分類を用います。分類器は凍結表現の上に、hを入力次元、Sを出力次元とする1層のFNNを乗せ、クロスエントロピー損失で学習させます。単純な構造を用いることで、最終的な結果に対する分類器の影響を軽減しています。AUPRCは不均衡なデータに対するモデルの性能をより正確に反映するため、性能は予測精度およびAUPRC(area under the precision recall curve)スコアとして報告されます。
2) GraphTNCと非対照学習との比較
この実験では、提案したエンコーダf enc(Xt, Gt)を保持し、GraphTNC対照学習アプローチの性能を2つの非対照学習法、BYOLとSimSiamと比較します。BYOLは非対照アーキテクチャを持ち、一方のエンコーダの重みθmは他方のエンコーダの重みθの指数移動平均です。重みφを持つ予測器gは、学習可能な重みを持つブランチで使用されます。SimSiamは、一方のブランチに予測器を用い、もう一方のブランチに停止勾配演算を用います。元の論文では、2つのエンコーダの入力は、元画像と補強です。これらの方法をここでの設定に一般化するために、(Xt, Gt) と (Xl, Gl) ∈ Nt を正の組として生徒と教師のネットワークに与えます。非近傍のサンプルは必要ありません。BYOLとSimSiamの両方の投影器と予測器には、サイズ128-128の2層FNNを使用します。次に、すべての教師なしアプローチの性能を、分類器とエンコーダーをエンドツーエンドで学習させる教師ありモデルと比較します。教師ありの設定では、エンコーダと分類器のアーキテクチャは教師なしモデルと同じです。ここでは、状態分類精度とAUPRCによって、異なる方法から学習された表現の性能を評価します。
C. 実験結果と考察
1) GraphTNCとベースラインTNCの比較
Table IIに状態分類結果を示します。アスタリスクは、Wilcoxon signed-rank検定において、GraphTNCとベースラインとの間に5%水準で統計的に有意な差があることを示します。まず、時系列とグラフの結合表現を学習するこのエンコーダは、シミュレーションデータとEEGデータセットの両方において、同じパラメータ化順序で、ほとんどの時間、一貫してベースラインを有意に上回っていることが観察されます。したがって、時系列の特徴間の関係をモデル化することで、性能の向上が期待できると結論づけました。
次に、基礎となるグラフの役割がパフォーマンスにどのように影響するかをさらに理解するために、式(6)のrパラメータ値を変えて複数の合成データセットを生成します。rが大きいほど、時系列データが式(6)のグラフ定義型空間フィルタリング演算に大きく依存することを表します。r∈{0.1, 0.5, 0.9}の実験を行いました。各r値について10分割で異なるモデルを学習させ、そのAUPRCを報告することにより、モデル性能を評価します。提案手法GraphTNC(青色)は時系列ベースラインTNC(オレンジ色)を一貫して上回っています。これは、精度指標とAUPRCの両方に当てはまります。合成データのラベル分布が必ずしも一様でないことを考慮すると、両方の指標を用いることは重要です。AUPRCは、精度とリコールを組み合わせたメトリクスで、不均衡なデータセットに対して信頼性の高いメトリクスとして知られています。Table IIに結果の平均と標準偏差を報告する他に、Fig. 2に95%信頼区間を報告します。95%信頼区間はノンパラメトリック手法(ブートストラップ)によって得られたものです。また、Fig. 3にr=0.1での符号化の様子を可視化したものを示します。グラフTNCの表現がTNCの表現よりも、特に0と2の状態についてより明確に分離されていることが分かります。
2) GraphTNC vs 非対照学習
Table IIIは、2つのデータセットに対する様々なアプローチから得られた表現の分類性能を示しています。GraphTNCの分類性能は、他の2つの非対称学習法と比較して、教師ありモデルに近いものであることがわかります。また、エンドツーエンド学習のフレームワークはGraphTNCと同じエンコーダを持ち、その後に1層のFNNが続くため、両者は類似したパラメータを持っています。EEGデータセットでは、状態の変化が少なくグラフが静的であるため、BYOLとSimSiamは妥当な結果を得ることができます。しかし、Fig. 1の合成データのように非定常性が増すと、性能が低下します。したがって、近傍サンプルを補強として取るBYOLとSimSiamは、より安定した時系列シナリオに適しています。一方、これら2つの非対照型学習手法は、学習に必要なパラメータが多くなります。結論として、ここで提案するGraphTNCは、動的グラフ上の非定常時系列の表現を学習するための効果的なアプローチであるといえます。
まとめ
動的グラフ上の多変量時系列からなるデータに対して、GraphTNCと呼ばれる教師無し学習アプローチを導入しました。合成データセットと実データセットに対する実験結果から、グラフが信号の特徴間の動的な関係を知らせたり捉えたりする場合に、この手法が有効であることが示されました。
この記事に関するカテゴリー