最近注目を浴びるエネルギーベース生成モデルを用いた時系列予測

Time-series 2021年08月27日

3つの要点
✔️ 多変量時系列予測フレームワークScoreGradの提案
✔️ エネルギーベース生成モデルと、スコアマッチングを使用
✔️ 実世界のデータセットを用いてSOTA性能を確認

ScoreGrad: Multivariate Probabilistic Time Series Forecasting with Continuous Energy-based Generative Models
written by Tijin Yan, Hongwei Zhang, Tong Zhou, Yufeng Zhan, Yuanqing Xia
(Submitted on 18 Jun 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。

はじめに

複雑化するシステムの状態を記録するために幅広いセンサー類が使用されています。それらは相関を含む多変量データとして取り扱われます。深層学習の開発に伴い、多変量時系列予測は大きく進歩しています。

一方、いくつかの制限もあります。時系列で確率論的情報をモデリングできない、長期の時間依存性をモデリングできないなどです。

EBM(Energy-Based generative Model: エネルギーベースモデル)ベースのTimeGradで制限は弱まっていますが、まだつぎのような限界があります。1) TimeGradで用いられているDDPM(ノイズ除去拡散確率的モデル）はオリジナルの分布に注入されるノイズの大きさに敏感です。2) ノイズ注入に使われるステップ数は注意深く設計されなければなりません。3) DDPMで生成過程のサンプリング手法はさらに拡張可能です。

これらの問題を解決するために、連続エネルギーベース生成モデルに基づく多変量時系列予測用の一般フレームワークScoreGradを提案します。

1)　ScoreGradは初めて連続エネルギーベース生成モデルを多変量時系列予測に適用しました

2)　各ステップの学習過程は、時系列の特徴値の抽出とスコアマッチングモジュールによる条件付きSDE(Stochastic Differential Equation: 確率微分方程式)からなります。予測は、逆時間SDEを解くことにより行われます。

3)　ScoreGradを6つの実世界のデータセットの予測に適用し、SOTA性能を確認しました。

スコアベース生成モデル

スコアマッチングモデル

スコアマッチングは、最尤推定を使う代わりに、データとモデル分布の間の対数密度関数微分の距離を最小化しようとします。データ分布の密度関数は知ることができませんが、目的は部分積分のトリックにより1式のように単純化することができます。

$\nabla_x logp_\theta (x) $はスコア関数と呼ばれます。

離散スコアマッチングモデル

最近、さまざまなレベルのノイズを使いスコアネットワークを推定する2つのクラスのエネルギーベース生成モデルが画像生成タスクにおいてよい性能を達成しています。Fig.1 の構造になっており、順伝播、逆伝播のプロセスについて説明します。

・Lengevinダイナミクスでのスコアマッチング

SMLD(Score matching with Langevin dynamics)はデータを様々なレベルのノイズで揺動し、スコアベース生成モデルを改善する方法であり、スコアをすべてのノイズレベルに対して推定するためにNCSN(Noise Conditioned Score Network)を訓練します。

揺動カーネルの定義は(2)式です。ノイズシーケンスは昇順${\sigma_1, \sigma_2, \cdots , \sigma_N}$です。

生成には、Lengevin MCMCが反復サンプリングに使われます。反復ステップ数をMとして、$p_\sigma _i (x)$のサンプリング過程は次のように定式化されます。

・ノイズ除去拡散確率的モデル

ノイズシーケンスは0<$\beta _i $<1, i=1,2,$\cdots $, Nで、離散マルコフ連鎖は次式になります。

逆伝播過程は、逆マルコフ連鎖により、次式になります。伝承サンプリングと呼ばれる方法です。[10]

SDEでのスコアマッチング

[10]では、上２つのノイズ含有過程は確率論的数値形式でモデリングできるとしています。一般性を失うことなくSDEは次のように考えられます。wは標準Wiener過程を示します。fはドリフト係数、gは拡散係数と呼ばれるスカラー関数です。

(8)の逆過程もSDEを満足し、次式です。同時に上記2つは連続時間SDEの離散形式をして扱えます。

まとめるとTable 1になります。

ScoreGradで使われているのは次の3つのSDEです。

VE SDE (Variance Exploding)はtが無限大になると変数が爆発するので、そう呼ばれます。

VP SDE (Variance Preserving)では、(5)式でNが無限大になり、(11)式になります。$\Sigma (t)$の上界は常に$\Sigma (0)$です。

sub-VP SDEでは、変数の上界は常にVP SDEに対応してます。

手法

シンボルと問題定式化

D次元の多変量時系列を$\Kai $= {$x_1^0, x_2 ^0, \cdots , x_T ^0$}とします。確率的予測タスクは、$q_\Kai $の予測に変換できます。

モデルアーキテクチャー

ScoreGradの一般的はフレームワークは、Fig.2です。左半分の時系列特徴値抽出モジュールと、右半分の点線の中の条件付き確率微分方程式(SDE)ベーススコアマッチングモジュールの2つの部分からなります。

・時系列特徴値抽出モジュール

特徴値F_tを過去のデータに基づき更新関数Rにより逐次更新します。

一般的フレームワークであり、多くのシーケンスモデル手法を使えます。RNN, GRU, TCNなどです。(13)の反復予測ストラテジーは、次の条件付き予測問題に変換できます。

この論文ではデフォールトとして、再帰ニューラルネットワークが用いられrます。

・条件付きSDEベーススコアマッチングモジュール

Fig.3のようにF_tは各時点においてSDEベーススコアマッチングモデルの条件器として使われます。順伝播は(8)式に従い、逆伝播は次式に従います。

条件付きスコアネットワーク

WaveNet, DiffWaveに倣い、条件付きスコアネットワークは８つの残差ブロックを持ちます。Fig.3は1つのブロックを示します。埋め込みは位置埋め込みではなく、ランダムフーリエ特徴値埋め込みです。

学習

各モジュールは前出のSMLD, DDPMの損失関数を用いて次の損失関数で学習されます。

予測

予測過程は、逆連続時間SDEからの反復サンプリングです。時間ステップごとの詳細はFig.4を参照してください。サンプラーとしては[10]に倣い、PC(Predictor-corrector)サンプラーを使っています。

実験

データセット、評価指標

Table IIに示す６つのデータセットを評価に用いています。評価指標としては、各時系列次元にはCRPS(Continuous Ranked Probability Score)を、時系列次元の合計にはCRPS_sumを用いています。CRPSは累積分布関数(CDF)の互換性を測定するのに用いられます。

比較手法

比較対象は８つです。詳細は省きますが、自己回帰、LSTM, カルマンフィルタ、エネルギーベースモデルなどを用いた手法です。

結果

ScoreGradフレームワークでの３つのSDEと8つの比較対象を評価し、結果はTable IIIの通りです。CRPSの平均と標準偏差です。深層学習手法の方が統計的手法より良い結果になっています。潜在変数の次元は性能に顕著な影響を与えています。TimeGradは正規化フローをDDPMで置き換えたもので、Exchange以外に良い結果を出しています。

ScoreGradの3つの方法は、Exchangeデータセット以外では最高の結果を得ています。VP SDEの方がVE SDEより良いです。VE SDEはTrafficデータセットではより良い結果です。

Trafficデータセットを例にして、どの程度予測が一致しているか時系列グラフを示しています。

切り分け

・サンプラー比較

Fig.6に３つのモデルについてSolarデータセットでの9つのサンプラーによる違いを示しています。逆拡散サンプラーとアニールドLangevinダイナミックする組み合わせがもっともよい結果を出しています。

・拡散ステップの効果

ScoreGradでの拡散ステップ数Nは、DDPMでのノイズ注入ステップ数に対応します。TimeGradはノイズ注入ステップ数に敏感でしたが、ScoreGradには、その問題はありません。

・他のアプリケーション

ScoreGradでの予測プロットを見ると、Fig.8のようないくつかのチャンネルで実際のデータを再現していないことがわかりました。この現象については休日だとかいろいろな理由は考えられます。いずれにしろサービスの信頼性を確保するモニタリングが必要です。逆に、ScoreGradを異状検知として使うことも可能です。

まとめ

連続エネルギーベース生成モデルを適用した多変量時系列予測モデルを初めて提案しました。VAEに比べて関数適用制限の少ない、EBMが用いられています。さらに確率微分方程式(SDE)と連成することにより、より広いフレームワークへの適用を可能にしています。

今後の展開として、トランスフォーマーなど強力なシーケンシャルモデルの適用、さらなるSDE種類の評価、サンプリングの計算コストの削減、損失関数と評価指標の関連付けを挙げています。

宣伝

AI-Jobsがまもなくリリースされます. AI/DSを本気で取りたい企業のみご利用いただけるようにAI-SCHOLARで求人のチェックから支援そして,内容次第では掲載の取りやめも考えます. AI/DS人材の環境や価値をしっかり守るための求人掲載プラットフォームになります。

この記事に関するカテゴリー

友安昌幸 (Masayuki Tomoyasu): JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定日本イノベーション融合学会　DX検定エキスパート合同会社アミコ・コンサルティング CEO

最新AI論文をキャッチアップ

最近注目を浴びるエネルギーベース生成モデルを用いた時系列予測

はじめに

関連研究

多変量時系列予測

エネルギーベース生成モデル