最近注目を浴びるエネルギーベース生成モデルを用いた時系列予測
3つの要点
✔️ 多変量時系列予測フレームワークScoreGradの提案
✔️ エネルギーベース生成モデルと、スコアマッチングを使用
✔️ 実世界のデータセットを用いてSOTA性能を確認
ScoreGrad: Multivariate Probabilistic Time Series Forecasting with Continuous Energy-based Generative Models
written by Tijin Yan, Hongwei Zhang, Tong Zhou, Yufeng Zhan, Yuanqing Xia
(Submitted on 18 Jun 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
code:
本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。
はじめに
複雑化するシステムの状態を記録するために幅広いセンサー類が使用されています。それらは相関を含む多変量データとして取り扱われます。深層学習の開発に伴い、多変量時系列予測は大きく進歩しています。
一方、いくつかの制限もあります。時系列で確率論的情報をモデリングできない、長期の時間依存性をモデリングできないなどです。
EBM(Energy-Based generative Model: エネルギーベースモデル)ベースのTimeGradで制限は弱まっていますが、まだつぎのような限界があります。1) TimeGradで用いられているDDPM(ノイズ除去拡散確率的モデル)はオリジナルの分布に注入されるノイズの大きさに敏感です。2) ノイズ注入に使われるステップ数は注意深く設計されなければなりません。3) DDPMで生成過程のサンプリング手法はさらに拡張可能です。
これらの問題を解決するために、連続エネルギーベース生成モデルに基づく多変量時系列予測用の一般フレームワークScoreGradを提案します。
1) ScoreGradは初めて連続エネルギーベース生成モデルを多変量時系列予測に適用しました
2) 各ステップの学習過程は、時系列の特徴値の抽出とスコアマッチングモジュールによる条件付きSDE(Stochastic Differential Equation: 確率微分方程式)からなります。予測は、逆時間SDEを解くことにより行われます。
3) ScoreGradを6つの実世界のデータセットの予測に適用し、SOTA性能を確認しました。
関連研究
多変量時系列予測
ARIMAなど統計的手法に続いて、深層学習手法が研究されDeepAR, MQRNNなどが提案されています。さらにRNNにアテンション、残差結合やダイレイション結合を組み合わせたものもあります。最近、データ分布を正規化フローやGANによる生成モデルで明示的にモデリングした確率的モデルが決定論的モデルより優れた性能を示しています。しかし、これらの手法の関数形態には制約があり、いくつかの手法はハイパーパラメータに敏感です。
エネルギーベース生成モデル
エネルギーベースモデル(EBM)はYann LeCun教授も推進しているもので、正規化しない確率モデルです。出力はスカラーです。2つの入力が近ければ小さい値を、遠ければ大きな値を出力します。下記は、ニューヨーク大学の深層学習講義からの資料です。
EBMは機能形態において、ずっと制限が少なく、自然言語処理や密度見積もりなどのいろいろな領域において広いアプリケーションを持ちます。しかし、EBMの不明の正規化定数が学習を困難にします。次が今の学習方法です。
1) MCMCによる最大尤度推定:直接尤度を計算するのではなく、HamiltonianモンテカルロなどMCMCサンプリング法で対数尤度勾配を見積もる方法
2) スコアマッチングベース手法:Fisherダイバージェンスでデータ分布と推定分布との対数尤度の勾配のずれを最小化する。
3) ノイズ対照推定:EBMはそれを既知の密度と対照することにより学習できるというコンセプト。
この論文では2番目のスコアマッチングによるEDMにフォーカスします。画像生成モデルについて連続SDEベースのエネルギーベースモデルである[10]に触発され、多変量時系列予測に適用します。
スコアベース生成モデル
スコアマッチングモデル
スコアマッチングは、最尤推定を使う代わりに、データとモデル分布の間の対数密度関数微分の距離を最小化しようとします。データ分布の密度関数は知ることができませんが、目的は部分積分のトリックにより1式のように単純化することができます。
$\nabla_x logp_\theta (x) $はスコア関数と呼ばれます。
離散スコアマッチングモデル
最近、さまざまなレベルのノイズを使いスコアネットワークを推定する2つのクラスのエネルギーベース生成モデルが画像生成タスクにおいてよい性能を達成しています。Fig.1 の構造になっており、順伝播、逆伝播のプロセスについて説明します。
・Lengevinダイナミクスでのスコアマッチング
SMLD(Score matching with Langevin dynamics)はデータを様々なレベルのノイズで揺動し、スコアベース生成モデルを改善する方法であり、スコアをすべてのノイズレベルに対して推定するためにNCSN(Noise Conditioned Score Network)を訓練します。
揺動カーネルの定義は(2)式です。ノイズシーケンスは昇順${\sigma_1, \sigma_2, \cdots , \sigma_N}$です。
生成には、Lengevin MCMCが反復サンプリングに使われます。反復ステップ数をMとして、$p_\sigma _i (x)$のサンプリング過程は次のように定式化されます。
・ノイズ除去拡散確率的モデル
ノイズシーケンスは0<$\beta _i $<1, i=1,2,$\cdots $, Nで、 離散マルコフ連鎖は次式になります。
逆伝播過程は、逆マルコフ連鎖により、次式になります。伝承サンプリングと呼ばれる方法です。[10]
SDEでのスコアマッチング
[10]では、上2つのノイズ含有過程は確率論的数値形式でモデリングできるとしています。一般性を失うことなくSDEは次のように考えられます。wは標準Wiener過程を示します。fはドリフト係数、gは拡散係数と呼ばれるスカラー関数です。
(8)の逆過程もSDEを満足し、次式です。同時に上記2つは連続時間SDEの離散形式をして扱えます。
まとめるとTable 1になります。
ScoreGradで使われているのは次の3つのSDEです。
VE SDE (Variance Exploding)はtが無限大になると変数が爆発するので、そう呼ばれます。
VP SDE (Variance Preserving)では、(5)式でNが無限大になり、(11)式になります。$\Sigma (t)$の上界は常に$\Sigma (0)$です。
sub-VP SDEでは、変数の上界は常にVP SDEに対応してます。
手法
シンボルと問題定式化
D次元の多変量時系列を$\Kai $= {$x_1^0, x_2 ^0, \cdots , x_T ^0$}とします。確率的予測タスクは、$q_\Kai $の予測に変換できます。
モデルアーキテクチャー
ScoreGradの一般的はフレームワークは、Fig.2です。左半分の時系列特徴値抽出モジュールと、右半分の点線の中の条件付き確率微分方程式(SDE)ベーススコアマッチングモジュールの2つの部分からなります。
・時系列特徴値抽出モジュール
特徴値Ftを過去のデータに基づき更新関数Rにより逐次更新します。
一般的フレームワークであり、多くのシーケンスモデル手法を使えます。RNN, GRU, TCNなどです。(13)の反復予測ストラテジーは、次の条件付き予測問題に変換できます。
この論文ではデフォールトとして、再帰ニューラルネットワークが用いられrます。
・条件付きSDEベーススコアマッチングモジュール
Fig.3のようにFtは各時点においてSDEベーススコアマッチングモデルの条件器として使われます。順伝播は(8)式に従い、逆伝播は次式に従います。
条件付きスコアネットワーク
WaveNet, DiffWaveに倣い、条件付きスコアネットワークは8つの残差ブロックを持ちます。Fig.3は1つのブロックを示します。埋め込みは位置埋め込みではなく、ランダムフーリエ特徴値埋め込みです。
学習
各モジュールは前出のSMLD, DDPMの損失関数を用いて次の損失関数で学習されます。
予測
予測過程は、逆連続時間SDEからの反復サンプリングです。時間ステップごとの詳細はFig.4を参照してください。サンプラーとしては[10]に倣い、PC(Predictor-corrector)サンプラーを使っています。
実験
データセット、評価指標
Table IIに示す6つのデータセットを評価に用いています。評価指標としては、各時系列次元にはCRPS(Continuous Ranked Probability Score)を、時系列次元の合計にはCRPSsumを用いています。CRPSは累積分布関数(CDF)の互換性を測定するのに用いられます。
比較手法
比較対象は8つです。詳細は省きますが、自己回帰、LSTM, カルマンフィルタ、エネルギーベースモデルなどを用いた手法です。
結果
ScoreGradフレームワークでの3つのSDEと8つの比較対象を評価し、結果はTable IIIの通りです。CRPSの平均と標準偏差です。深層学習手法の方が統計的手法より良い結果になっています。潜在変数の次元は性能に顕著な影響を与えています。TimeGradは正規化フローをDDPMで置き換えたもので、Exchange以外に良い結果を出しています。
ScoreGradの3つの方法は、Exchangeデータセット以外では最高の結果を得ています。VP SDEの方がVE SDEより良いです。VE SDEはTrafficデータセットではより良い結果です。
Trafficデータセットを例にして、どの程度予測が一致しているか時系列グラフを示しています。
切り分け
・サンプラー比較
Fig.6に3つのモデルについてSolarデータセットでの9つのサンプラーによる違いを示しています。逆拡散サンプラーとアニールドLangevinダイナミックする組み合わせがもっともよい結果を出しています。
・拡散ステップの効果
ScoreGradでの拡散ステップ数Nは、DDPMでのノイズ注入ステップ数に対応します。TimeGradはノイズ注入ステップ数に敏感でしたが、ScoreGradには、その問題はありません。
・他のアプリケーション
ScoreGradでの予測プロットを見ると、Fig.8のようないくつかのチャンネルで実際のデータを再現していないことがわかりました。この現象については休日だとかいろいろな理由は考えられます。いずれにしろサービスの信頼性を確保するモニタリングが必要です。逆に、ScoreGradを異状検知として使うことも可能です。
まとめ
連続エネルギーベース生成モデルを適用した多変量時系列予測モデルを初めて提案しました。VAEに比べて関数適用制限の少ない、EBMが用いられています。さらに確率微分方程式(SDE)と連成することにより、より広いフレームワークへの適用を可能にしています。
今後の展開として、トランスフォーマーなど強力なシーケンシャルモデルの適用、さらなるSDE種類の評価、サンプリングの計算コストの削減、損失関数と評価指標の関連付けを挙げています。
宣伝
AI-Jobsがまもなくリリースされます. AI/DSを本気で取りたい企業のみご利用いただけるようにAI-SCHOLARで求人のチェックから支援 そして,内容次第では掲載の取りやめも考えます. AI/DS人材の環境や価値をしっかり守るための求人掲載プラットフォームになります。
この記事に関するカテゴリー