低コスト＆高精度！マルチスケール時間特徴を捉えるリザバーコンピューティングモデル

Time-series 2021年11月11日

3つの要点
✔️ 時系列予測に有効な低コスト手法Echo state networkの拡張手法
✔️ 複数の独立したリザバーを使用し，マルチスケール時間特徴のモデル化を実現
✔️ ベンチマークや実際の工場の電力負荷予測で高精度な予測に成功

Long-Short Term Echo State Network for Time Series Prediction
written by Kaihong Zheng, Bin Qian, Sen Li, Yong Xiao, Wanqing Zhuang, Qianli Ma
(Received May 2, 2020, accepted May 9, 2020, date of publication May 14, 2020, date of current version May 28, 2020)
Comments: Published in IEEE Access.

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

今回紹介する論文は低コスト高効率な時系列タスクモデルとして注目されているEcho State Network(以下ESN)の拡張モデルです。

ここ数年で時系列解析は非常に活発な研究分野になっています。特に時系列予測は農業，商業，気象学，医療など幅広い分野で応用されています。時系列予測にはフィードフォーワードネットワーク(FNN)やサポートベクトル回帰(SVR)，Recurrent Neural Network(RNN)になど多くの手法があります。その中でRNNはニューロン間のリカレント(再帰的)な接続により任意の非線形系を任意の精度で近似することができるため複雑な非線形時系列データを扱うにも優れています。

しかしRNNはBPTTアルゴリズムによりリカレント重みを直接最適化しているため学習の収束が遅い，計算コストが高い，勾配消失・爆発，局所最適解に陥りやすいなどの問題が生じます。これらの問題を解決するために効率的なリカレントネットワークモデルとしてESNが提案されました。そして本論文の提案手法はこのESNを効率性を落とさずに，より複雑な時系列データで高精度な予測ができるようにモデルを工夫しました。その工夫や効果についてご紹介します。

Echo State Networkとは

提案手法の説明の前に通常のESNについて簡単に紹介します。時系列の情報がため池(reservoir)に蓄積されて反響(echo)するようにネットワークが更新されます。ESNは下の図にあるように入力層，リザバー層，出力層の3層から構成されます。ESNの最大の特徴は学習する重みは出力層重み$W_{out}$のみになります。そのほかの入力層重み$W_{in}$，リザバー層重み$W_{res}$に関しては学習を始める前にランダムに初期化しその値で固定します。そのため従来のRNNに対して収束や学習の時間がかかることなく，勾配消失・爆発を防ぎ，最適な大域解を得ることができます。

ネットワークの更新式はこちらです。

$x(t)=\gamma \cdot \tanh (W_{in} u(t) + W_{res} x(t-1))+(1-\gamma)\cdot x(t-1)$

$y(t)=W_{out}x(t)$

ここで$u(t)$は入力，$x(t)$はリザバー状態，$y(t)$は出力です。$W_{in}$，$W_{res}$，$\gamma$は漏れ率で前の状態をどれだけ考慮するか決めるハイパーパラメータとなります。出力重みのみ線形回帰問題を解くことで学習します。出力重みの更新が単純な線形回帰で済むのはリザバー層での非線形，高次元なマッピングにより，入力のダイナミクスを捉えられているからと言えます。

ESNは時系列予測において優れた性能を発揮していましたが，マルチスケールの時間特徴，つまり複雑な時系列データのモデル化は困難です。これはESNが単一のリカレントモジュールしか持たないことが原因だと指摘されています。そのためESNの層を複数積み重ねるDeepESN，MESMといった手法が提案されましたが，層を積み重ねることでリザバーのサイズが大きくなり効率性への影響や，長期的な時間特徴をモデル化し，短期的な特徴を無視する傾向があることが問題として挙げられました。

提案手法(LS-ESNs)

ESNに対してより複雑なマルチスケールの時間特徴のモデル化を目的として提案されたのが本論文のLong-Short term Echo State Networks(LS-ESNs)です。LS-ESNsは層を積み重ねるのではなく，下図のように異なるリカレント接続を持つ3つの独立したリザバーで構成されます。各リザバーはLong-term reservoir，Typical reservoir，Short-term reservoirと名付けられ，異なる時間スケールの依存性を捉えることができます。ここではそれぞれのネットワークの詳細と出力層の処理について説明していきます。

Long-term reservoir

Long-term reservoirはスキップ接続によって長期的な特徴を捉えることに特化したリザバーです。更新式は以下式になります。

$x_{long}(t)=\gamma \cdot \tanh (W_{in}u(t)+W_{res}x_{long}(t-k))+(1-\gamma)\cdot x_{long}(t-k)$

ここで$k$はスキップするステップの長さで値が大きいほど考慮する時間スケールが長くなり，より遡った時刻の情報に依存してリザバー状態を更新します。

Typical reservoir

Typical reservoirは通常のESNと同様の更新式になります。

$x_{typical}(t)=\gamma \cdot \tanh (W_{in}u(t)+W_{res}x_{typical}(t-1))+(1-\gamma)\cdot x_{typical}(t-1)$

時刻$t$の状態更新には特に時刻$(t-1)$の情報が影響します。

Short-term reservoir

Short-term reservoirは短期的な依存関係を捉えることに特化したリザバーです。

$x_{short}(t)=\gamma \cdot \tanh (W_{in}u(t)+W_{res}x(t-1))+(1-\gamma)\cdot x(t-1)$

$x(t-1)=\gamma \cdot \tanh (W_{in}u(t-1)+W_{res}x(t-2))+(1-\gamma)\cdot x(t-2)$

︙

$x(t-m+1)=\gamma \cdot \tanh (W_{in}u(t-m+1)+W_{res}x(t-m))+(1-\gamma)\cdot x(t-m)$

Typical reservoirと大きく異なるのは依存範囲$m$を導入している点です。Typical reservoirでは時刻$t$のリザバー状態に時刻0から時刻$(t-1)$までのすべての情報が蓄積されていますが，Short-term reservoirは$(t-1)$から$(t-m+1)$，つまり$m$時刻分までの情報のみに限定しています。実際の処理としては時刻$t$のリザバー状態の計算のために$x(t-m)$を正規分布で再初期化し計算しなおしています。これにより直近$m$個の履歴情報のみ考慮するリザバーになります。

出力層の処理

3つのリザバーから$x_{long}(t)$，$x_{typical}(t)$，$x_{short}(t)\in \mathbb{R}^{N\times 1}$を獲得したのち，これらを連結しマルチスケールの時間表現$X(t)=[x_{long},x_{typical},x_{short}]$とします。あとは通常のESN同様に出力層の計算をします。

$y(t)=f_{out}(W_{out}X(t))$

実験結果

実験は2つの時系列予測のベンチマークMonthly Sunspot，Lorenzと実際の工場の電力負荷データを用いて行われました。

予測精度

評価指標はMSE，NRMSE，SMAPEです。比較手法は冒頭で紹介した古典的な手法FNN，SVR，RNN，LSTMと，ESNに基づく手法$\varphi$-ESNs，R$^2$SP，MESM，DeepESN，M-ESNsです。M-ESNsはLS-ESNsの3層すべてTypical reservoirにした手法です。まずはMonthly Sunspot，Lorenzの予測結果を順に示していきます。

Monthly SunspotのNRMSEを除く5つの指標で提案手法が最も良い精度を記録しました。FNNやSVRは予測精度が低かったため除外されていました。また，実際の予測結果(下図)を比較すると，ESN由来のいずれの手法でも予測できていますが，LS-ESNsは青枠で囲われた非平滑で複雑な領域での予測に優れています。マルチスケールの時間特徴を捉えたことで複雑な局所パターンの予測性能を向上させたことを示しています。

続いて実際の工場の電力負荷予測に関してもほとんどの指標で誤差が最小となりました。データ数が多いので本記事ではMSEの結果のみ以下に示します。このデータはNo.1~No.10までの顧客データがあり，それぞれ下の図のように傾向が異なります。これだけ振る舞いの異なるデータ群に対してもそれぞれで誤差を最小にできるのはマルチスケール特徴を捉えることによる利点と言えます。

記憶能力の分析

ここではLS-ESNsの記憶能力を分析しています。使用するデータは一変量時系列で各タイムステップ[-0.8,0.8]から一様にサンプリングします。そして信号を再構成するタスクになります。各タイムステップ目標値は$y_k(t)=u(t-k)$と表されます。比較のためにMCスコア(memory capacity score)を以下式で定義し，入力した時系列情報をどれだけ反映させることができるか評価します。

$MC=\displaystyle \sum_{k=0}^{\infty}r^2 (u(t-k),y_k(t))$

ここで$r^2(u(t-k),y_k(t))$は遅延$k$の入力$u(t-k)$と再構成値$y_k(t)$の二乗相関係数です。

結果は上図のようになりました。既存研究のdeepESNや，従来のESNを使用したモデルよりもLS-ESNsが高いMCスコアを獲得しました。特に最高値を記録した$k=8$のLS-ESNsでは既存研究よりも30%程度の改善がありました。

Ablation study

Long-term reservoirとShort-term reservoirの効果を確かめるために，一方や両方を消去し，モデルの比較を行いました。電力負荷予測のデータから2つの工場のデータをランダムに使用しました。

結果として双方を含めたモデルが最も良い結果となり，一方を使用するだけでも精度の向上がみられました。また，Short-term reservoirよりもLong-term reservoirの方が良い精度となり，長期的な特徴の重要性が明らかになりました。

ハイパーパラメータの影響

LS-ESNsではLong-term reservoirではスキップステップ$k$，Short-term reservoirでは短期依存範囲$m$を決める必要があるためそれらの影響について検討しました。まず$k$については$k$の値を大きくすることで長期的な依存性を捉えられます。しかし，大きすぎると多くの情報を無視してしまい，小さすぎると長期的な周期性などを捉えることができません。そのためデータの特徴により適した$k$の値が必要です。これは下図の(a)のMonthly Sunspotの結果に良く表れています。このデータセットは周期性があるため，$k$の値を大きくするとMSEの値も良くなっています。次に$m$は周期性がない激しい変動を含むデータセットの場合には小さく設定することでMSEの改善が見られました。下図の(c)No. 4は工場の電力負荷予測のデータで上図で紹介したように周期性がありません。このようなデータに対しては短期的な特徴のモデル化が有効であると示されました。

まとめ

本記事ではマルチスケールの時間特徴を効果的に捉えるための手法としてLS-ESNsを紹介しました。モデルの特徴は異なるリカレント接続を持つ独立した3つのリザバーを用いることにあります。実験では時系列予測のベンチマークや実際の電力負荷データを使用し，LS-ESNsの有効性を示しました。そして，この手法で新たに導入した各リザバーの影響や，ハイパーパラメータの影響についても議論をしました。

今後の展望として現時点では一変量時系列にしか対応していないので多変量時系列に存在する変数間の依存関係のモデル化，予測に適用することが求められています。リザバーコンピューティングのさらなる発展に期待です！