トランスフォーマーを超える予測性能SCINet

Time-series 2023年06月12日

3つの要点
✔️ NeurIPS 2022採択論文です。時系列予測モデルであり、複雑な時間的ダイナミクスを持つ時系列を効果的にモデル化するSCINetを提案しています。
✔️ SCINetは、豊富な畳み込みフィルタを持つ階層的なダウンサンプル-畳み込み-相互作用構造です。異なる時間分解能の情報を反復的に抽出・交換し、予測可能性を高めた効果的な表現を学習します。
✔️ SCINetは、実世界の様々な時系列予測データセットにおいて、既存の畳み込みモデルやTransformerベースのソリューションと比較して、予測精度の大幅な向上を達成しています。

SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction
written by Minhao Liu, Ailing Zeng, Muxi Chen, Zhijian Xu, Qiuxia Lai, Lingna Ma, Qiang Xu
(Submitted on 17 Jun 2021 (v1), last revised 13 Oct 2022 (this version, v3))
Comments: This paper presents a novel convolutional neural network for time series forecasting, achieving significant accuracy improvements
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

時系列に特有の性質として、2つのサブ系列にダウンサンプリングしても、時間的関係がほぼ維持されることが挙げられます。この論文では、この性質を利用して、時間的モデリングと予測のためのサンプル畳み込みと相互作用を行う、SCINetと名付けられた新しいニューラルネットワークアーキテクチャを提案しています。具体的には、SCINetは再帰的なダウンサンプル-畳み込み-相互作用構造です。各層では、複数の畳み込みフィルタを用いて、ダウンサンプリングされたサブシーケンスや特徴から、明確かつ価値のある時間的特徴を抽出します。複数の解像度から集約されたこれらの豊富な特徴を組み合わせることで、SCINetは複雑な時間的ダイナミクスを持つ時系列を効果的にモデル化します。実験の結果、SCINetは、実世界の様々な時系列予測データセットにおいて、既存の畳み込みモデルや幅広く良好な結果を元らしているTransformerベースのソリューションと比較しても、予測精度の大幅な向上を達成することができたということは注目してよいのではないでしょうか。

はじめに

時系列予測（TSF）は、メトリクスやイベントの将来の進化を推定して意思決定を可能にし、それによってヘルスケア、エネルギー管理、交通流、金融投資など、さまざまな科学・工学分野で重要な役割を担っています。シーケンスモデリングに使用されるディープニューラルネットワークは主に3種類あり、いずれも時系列予測に応用されています：(i). リカレントニューラルネットワーク（RNN）、 (ii). トランスフォーマーベースモデル、(iii). 時間畳み込みネットワーク（TCN）です。これらの汎用モデルに基づくTSF手法の有望な結果にもかかわらず、モデリング時に時系列データの特殊性を考慮していません。例えば、時系列データの特徴として、2つのサブ系列にダウンサンプリングしても、時間的関係（例えば、データのトレンドや季節成分）がほぼ維持されることがあげられます。その結果、時系列をサブ系列に再帰的にダウンサンプリングすることで、複数の解像度で動的な時間的特徴を抽出するための豊富な畳み込みフィルタのセットを得ることができます。

以上のことから、本論文では、時系列モデリングと予測のための新しいニューラルネットワークアーキテクチャを提案し、サンプル畳み込みと相互作用ネットワーク（SCINet）と名付けます。本論文の主な貢献は以下の通りです：

- 複雑な時間的ダイナミクスを持つ時系列を効果的にモデル化する、階層的なダウンサンプル-コンボリューション-インタラクトTSFフレームワークであるSCINetを提案する。複数の時間分解能で繰り返し情報を抽出・交換することで、予測可能性を高めた効果的な表現を学習することができ、そのことは比較的低い順列エントロピー（PE）により検証される。

- SCINetを構築するための基本構成ブロックであるSCI-Blockを設計し、入力データ/特徴を2つのサブシーケンスにダウンサンプリングし、異なる畳み込みフィルタを用いてそれぞれのサブシーケンスの特徴を抽出する。ダウンサンプリングプロセスにおける情報損失を補うため、各SCI-Block内の2つの畳み込み特徴量の間に双方向的な学習を組み込んでいる。

様々な実世界のTSFデータセットを用いた広範な実験により、提案モデルは既存のTSFアプローチを常にかなりの差で上回ることが示されました。さらに、SCINetは空間関係を明示的にモデル化していないが、空間-時間TSFタスクにおいて競争力のある予測精度を達成します。

SCINet: Sample Convolution and Interaction Network

SCINetは、エンコーダ-デコーダアーキテクチャを採用しています。エンコーダは階層的な畳み込みネットワークであり、豊富な畳み込みフィルタのセットにより、複数の解像度で動的な時間依存性を捕らえます。Fig. 2（a）に示すように、基本的な構成ブロックであるSCI-Blockは、入力データまたは特徴を2つのサブシーケンスにダウンサンプリングし、次に各サブシーケンスを一連の畳み込みフィルタで処理し、各パートから異なるが貴重な時間的特徴を抽出します。ダウンサンプリング時の情報損失を補うため、2つのサブシーケンスの間で双方向的な学習が行われます。SCINetは、複数のSCI-Blockをバイナリーツリー構造に配置することで構築されています（Fig. 2（b））。このような設計の利点は、各SCI-Blockが時系列全体のローカルビューとグローバルビューの両方を持つことで、有用な時間的特徴の抽出を容易にすることです。ダウンサンプル、畳み込み、インタラクトのすべての操作を行った後、抽出された特徴を新しいシーケンス表現に再調整し、完全接続ネットワークをデコーダーとして予測するために元の時系列に追加します。複雑な時系列パターンの抽出を容易にするために、Fig. 2（c）に示すように、複数のSCINetをさらに積み重ねて中間監視を適用し、Stacked SCINetを得ることができます。

SCI-Block

SCI-Block（Fig. 2（a））はSCINetの基本モジュールであり、入力特徴量FをSplitingと双方向的学習の操作により2つのサブ特徴量F′ _oddとF′ _evenに分割します。分割は、偶数要素と奇数要素を分離することにより、元のシーケンスFを2つのサブシーケンスF_evenとF_oddにダウンサンプリングするもので、時間分解能は粗くなるが元のシーケンスの情報はほとんど保持されます。次に、F_evenとF_oddから特徴を抽出するために、異なる畳み込みカーネルを使用します。カーネルが別々であるため、そこから抽出された特徴量には、表現能力が強化され、異なるが価値のある時間的関係が含まれます。ダウンサンプリングによる潜在的な情報損失を補うため、アフィン変換パラメータを互いに学習することで、2つのサブシーケンス間の情報交換を可能にする新しい双方向型学習戦略を提案します。Fig. 2(a)に示すように、双方向型学習は2つのステップから構成されています。まず、F_evenとF_oddをそれぞれ2つの異なる1次元畳み込みモジュールφとψで隠れ状態に投影し、expのフォーマットに変換して、要素ごとの積でF_evenとF_oddに相互作用します（式（1）参照）。これは、F_evenとF_oddに対してスケーリング変換を行うことと見なすことができ、スケーリング係数はニューラルネットワークモジュールを用いて互いに学習されます。ここで、⊙は、ハダマード積または要素毎積です。

次に、式（11）に示すように、2つのスケーリングされた特徴F^s_evenとF^s_oddは、さらに他の2つの1次元畳み込みモジュールρとηで別の2つの隠れ状態に投影され、1 F^s_evenとF^s_oddに加算または減算されます。双方向型学習モジュールの最終出力は、更新された2つの副特徴F′_evenとF′_oddです。TCNアーキテクチャで使用される拡張畳み込みと比較して、提案するダウンサンプリング-畳み込み-相互作用アーキテクチャは、各畳み込み層でさらに大きな受容野を達成する。さらに重要なことは、各層で単一の共有畳み込みフィルタを採用し、特徴抽出能力を著しく制限するTCNとは異なり、SCI-Blockは、時系列全体のローカルビューとグローバルビューの両方を持つダウンサンプリングした2つのサブシーケンスから抽出した重要な情報を集約します。

SCINet

以上のようなSCI-Blockを用い、複数のSCI-Blockを階層的に配置してSCINetを構築すると、Fig. 2（b）に示すようなツリー構造のフレームワークとなります。

l番目のレベルには2l個のSCI-Blockがあり、l = 1, .... Lはレベルのインデックスで、Lはレベルの総数です。スタックド SCINetの k 番目の SCINet 内では、入力時系列 X（k = 1 の場合）または特徴ベクトル（k > 1 の場合）が徐々に変化します。(k>1の場合)は、SCI-Blocksによって異なるレベルを通して徐々にダウンサンプリングされ処理されるため、異なる時間分解能の特徴学習を効果的に行うことができるようになります。特に、前のレベルの情報は徐々に蓄積され、すなわち、深いレベルの特徴には、浅いレベルから伝達されたより細かいスケールの時間情報が余分に含まれることになります。このようにして、時系列における短期的な時間依存性と長期的な時間依存性の両方を捉えることができます。

LレベルのSCI-Blocksを通過した後、奇数・偶数分割の操作を逆にしてすべてのサブフィーチャーの要素を並べ替え、新しいシーケンス表現に連結します。その後、残留接続を介して元の時系列に追加し、予測可能性が高まった新しいシーケンスを生成します。最後に、単純な完全接続ネットワークを用いて、強化されたシーケンス表現をに復号します。なお、一部のTSFタスクにおける分布シフトを緩和するために、ルックバックウィンドウのデータをモデルに供給する前に、すべてのデータ要素を最後の要素の値で減算し、その値をその後の予測地平のすべてのデータ要素に加算することを特徴とします。

Stacked SCINet

十分な学習サンプルがある場合、より複雑なモデル構造を犠牲にして、SCINetをK層積み重ねることで、さらに優れた予測精度を達成することができます（Fig. 2（c）参照）。具体的には、中間的な時間的特徴の学習を容易にするために、各SCINetの出力に対して、groundtruth値を用いた中間的な監視を適用します。k番目の中間SCINetの出力ˆ Xkは長さτで、入力X_{t-(T -τ)+1:t} の一部と連結され、元の入力の長さを回復し、（k + 1）番目のSCINetに入力として供給されます。ここでk = 1, ... .... K -1、Kはスタック構造におけるSCINetの総数です。K番目のSCINetの出力ˆ X_Kは、最終的な予測結果です。

損失関数

K（K≧1）個のSCINetでスタック型SCINetを学習する場合、k番目の予測結果の損失は、k番目のSCINetの出力と予測対象のグランドトゥルース水平窓の間のL1損失として計算されます：

積層されたSCINetの総損失は、次のように書くことができます：

複雑性解析

ダウンサンプリングにより、SCINetの各畳み込み層のニューロンは、TCNのニューロンよりも広い受容野を持つようになりました。さらに重要なことは、SCINetの豊富な畳み込みフィルタのセットにより、複数の解像度から時間的特徴を柔軟に抽出することができることです。その結果、SCINetは通常、効果的な予測のために、元のシーケンスを最も粗いレベルまでダウンサンプリングする必要はありません。ルックバックウィンドウのサイズTを考えると、TCNは一般的に拡張係数が2の場合、[log₂ T]層を必要としますが、SCINetの層数Lはlog₂ Tよりはるかに小さくなる可能性があります。実証研究によると、Tが大きい場合（168など）でも、ほとんどの場合、L≦5で最良の予測精度が達成されます。また、スタック数 K についても、K ≤ 3 で十分であることが経験的に分かっています。

その結果、SCINetの計算コストは通常、TCNアーキテクチャのそれと同等になります。最悪の場合の時間複雑度はで、バニラTransformerベースのソリューションよりはるかに小さい：です。

実験

ここでは、時系列予測のための最先端モデルとの定量的・定性的比較を示します。また、SCINetの様々なコンポーネントの有効性を評価するための包括的なアブレーション研究を紹介します。

データセット

(1)電気変圧器温度 (ETTh) (2)交通 (3)太陽エネルギー (4)電力 (5)為替レート (6)PeMS (PEMS03, PEMS04, PEMS07, PEMS08)という11種類の人気のある時系列データセットで実験を行いました。これらのデータセットの簡単な説明をTable 1 に示します。

Table 2、3、4、5、6にSCINetの主な実験結果を示します。SCINetは、短期、長期、空間-時系列の時系列予測を含む様々なタスクにおいて、他のTSFモデルよりも優れた性能を示すことが確認されました。

短期時系列予測

本論文では、Traffic、Solar-Energy、Electricity、Exchange-Rateの各データセットを用いて、SCINetの短期TSFタスクにおける性能を他のベースライン手法と比較して評価します。実験設定は、168という入力長を使い、異なる将来の水平線{3, 6, 12, 24}を予測するものです。

Table 2から分かるように、提案するSCINetは、特にSolar-EnergyとExchange-Rateのデータセットにおいて、ほとんどのケースで既存のRNN/TCNベース（LSTNet, TPA-LSTM, TCN, TCN†）およびTransformerベース TSFソリューションより優れています。なお、TCN†は因果関係畳み込みを通常の畳み込みに置き換えたTCNの変種であり、すべてのデータセットで元のTCNを改善しています。さらに、Transformerベースの手法は、このタスクでは性能が低いことも確認できます。短期予測では、正確な予測のためには、一般的に最近のデータポイントがより重要です。しかし、Transformerベースの手法で用いられる順列不変の自己注視機構は、そのような重要な情報にはあまり注意を払いません。これに対して、一般的な逐次モデル（RNN/TCN）は、これを容易に定式化することができ、短期予測において非常に優れた結果を示しています。

長期時系列予測

実世界の多くのアプリケーションでは、長期的な事象を予測する必要があります。そこで、為替レート、電力、交通、ETTデータセットを用いて実験を行い、長期的なTSFタスクに対するSCINetの性能を評価します。この実験では、SCINetをTransformerベースの手法とのみ比較します。これは、最近の長期TSF研究においてTransformerベースの手法がより一般的であるためです。

Talbe 3からわかるように、SCINetはほとんどのベンチマークと予測長の設定で最先端の性能を達成しています。全体として、SCINetは上記の設定の中でMSEを平均39.89%向上させました。特に、Exchange-Rateでは、これまでの最先端の結果と比較して、SCINetはMSEを平均65%向上させました。これは、提案するSCINetが、短期（局所的な時間的ダイナミクス）と長期（トレンド、季節性）の両方の時間的依存性をよりよく捉え、長期のTSFにおいて正確な予測を行うことができるためであると考えられます。

ETTデータセットに対して、多変量時系列予測と単変量時系列予測の両方を実施しました。公平に比較するために、すべての入力長TをInformerのものと同じにした。結果をそれぞれTable 4 とTable 5 に示します。

・ETTでの多変量時系列予測

Table 4からわかるように、LSTMa やLSTnet などのRNNベースの手法と比較して、Transformerベースの手法はより良い予測結果を出しています。その主な理由の一つは、RNNベースのソリューションは反復的な予測を行うため、誤差の蓄積の影響を受けることが避けられないことです。別の直接的な予測方法として、TCNはバニラTransformerベースの方法をさらに上回ります。SCINetが上記のすべてのモデルを大差で上回ったことは注目に値します。Fig. 3は、ETTh1データセットからランダムに選択されたいくつかのシーケンスに対する定性的な結果を示しており、SCINetがTSFの時系列のトレンドと季節性を取得できることを明確に示しています。

・ETTの単変量時系列予測

この実験設定で、ARIMA、Prophet、DeepAR、N-Beatsなど、一変量予測のための強力なベースライン手法を比較に持ち込んでいます。Table 5では、ほとんどのケースでN-Beatsが他のベースライン手法よりも優れていることが確認できます。実際、N-Beatsは時系列特有の特性も考慮し、残差のある完全接続層の深いスタックを使用してトレンドと季節性モデルを直接学習しており、これはRNN、CNN、Transformerなどの主要なアーキテクチャとは異なるものです。それでも、SCINetの性能はN-Beatsよりはるかに優れています。

新しく提案されたTransformerベースの予測モデルであるAutoformerは、すべての実験設定で2番目に優れた性能を達成し、予測地平が大きい場合にはETTm1でもSCINetを上回る性能を示しました。これは、一方では、Autoformerが季節パターンのモデリングに焦点を当て、（生データではなく）サブシリーズレベルで自己アテンションを行うため、バニラTransformerベースの手法よりも長期的な時間パターンの抽出においてはるかに優れているためです。一方、長期的な予測を行う場合、ルックバックウィンドウの時間的ダイナミクスではなく、トレンドや季節の情報が主役になることが多く、SCINetの利点が十分に発揮されないことがあります。

時空間時系列予測

一般的なTSFタスクの他に、空間-時間予測に関連するデータも多く存在します。例えば、交通データセットPeMS (PEMS03, PEMS04, PEMS07 and PEMS08)は、公共交通網の複雑な空間-時間時系列で、何十年も研究されてきました。最も新しいアプローチ DCRNN, STGCN, ASTGCN, GraphWaveNet, STSGCN, AGCRN, LSGCN, STFGNN は、グラフニューラルネットワークを使って空間関係を捉え、従来の TCN または RNN/LSTM アーキテクチャを使って時間依存性をモデル化しました。ここでのひょうかでは、上記の論文と同じ実験設定に従います。Table 6に示すように、これらのGNNベースの手法は、一般的に純粋なRNNまたはTCNベースの手法よりも優れた性能を発揮します。しかし、SCINetは、高度な空間関係モデリングなしで、より良いパフォーマンスを達成しており、SCINetの優れた時間的モデリング能力がさらに証明されています。

予測可能性の推定

元の入力とSCINetが学習した拡張表現の予測可能性を測定するために、順列エントロピー（PE）を使用します。PE値が低い時系列は複雑でないとみなされるため、理論的には予測しやすいと考えられる2。元の時系列とそれに対応する拡張表現のPE値をTable 7に示します。

このことから、SCINetによって学習された拡張表現は、元の入力と比較してPE値が低く、同じ予測器を使用して拡張表現から将来を予測することが容易であることがわかります。

切り分け分析

SCINetで使用されている各主要コンポーネントの影響を評価するために、2つのデータセットでいくつかのモデルバリエーションを実験しました： ETTh1とPEMS08です。

・SCIBlock

まずスタック数 K = 1 と SCINet レベル数 L = 3 を設定しました。SCI-Blockデザインでは、双方向型学習とサブシーケンスを処理するための異なる畳み込み重みの有効性を検証するために、2つの変型、すなわちw/o. InterLearnとWeightShareです。w/o. InterLearnは、式(1)と(11)で説明した双方向型学習の手順を削除することで得られます。この場合、2つのサブシーケンスは、F′odd＝ρ（φ（Fodd））およびF′even＝η（ψ（Feven））を使用して更新されることになります。WeightShareの場合、モジュールφ、ρ、ψ、ηは同じ重みを共有します。

Fig. 4の評価結果は、様々な予測地平で両データセットの予測精度を向上させるため、双方向型学習と明確な重みの両方が不可欠であることを示している。同時に、Fig. 4(a)とFig. 4(b)を比較すると、ルックバックウィンドウのサイズが長い場合、双方向型学習がより効果的であることが分かります。これは、直感的に、ダウンサンプリングされたサブシーケンス間で情報を交換することで、より効果的な特徴を抽出することができるためです。

・SCINet

複数のレベルのSCI-Blockを持つSCINetの設計のために、2つの変型についても実験しました。最初の変型は、w/o. ResConnは、完全なSCINetから残留接続を除去することによって得られます。もう1つの変型w/o. Linearは、完全なモデルからデコーダ（すなわち、完全に接続された層）を除去します。Fig. 4からわかるように、残差接続を取り除くと、性能が大幅に低下します。モデル学習を容易にするという一般的な利点の他に、より重要なのは、残差の助けを借りて元の時系列の予測可能性が高まることです。完全接続層は予測精度にとっても重要であり、予測のために与えられた監督に従って最も関連性の高い時間情報を抽出・融合するデコーダーの有効性を示しています。また、K（スタック数）、L（レベル数）、相互作用学習メカニズムにおける演算子の選択の影響について、包括的な切り分け分析を実施しました。

限界と将来

本論文では、主に等間隔で収集され、時系列に並べられた規則的な時系列に対するTSF問題に焦点を当てました。しかし、現実のアプリケーションでは、時系列にノイズが含まれていたり、データが欠落していたり、不規則な時間間隔で収集されていたりする場合があり、これを不規則時系列と呼びました。提案するSCINetは、漸進的なダウンサンプリングと双方向的な学習手順により、ノイズデータに対して比較的頑健ですが、欠損データの比率がある閾値を超えた場合、SCINetのダウンサンプリングベースの多重解像度シーケンス表現が偏りを導入し、予測性能の低下につながる可能性があるという影響を受けます。また、提案するダウンサンプリング機構は、不規則な間隔で収集されたデータの取り扱いが困難な場合があります。SCINetの今後の開発において、上記の問題を考慮する予定であるとします。さらに、本研究は決定論的な時系列予測問題に焦点を当てています。多くのアプリケーションシナリオでは確率的な予測が必要とされるが、そのような予測結果を生成できるようにSCINetを改訂する予定だとします。最後に、SCINetは空間関係を明示的にモデル化することなく、空間-時間時系列に対して有望な結果を生成するが、専用の空間モデルを組み込むことによって、予測精度をさらに向上させることができます。そのような解決策を今後の研究で調査する予定だとします。

まとめ

本論文では、一般的なシーケンスデータと比較した時系列データのユニークな特性を動機として、時系列モデリングと予測のための新しいニューラルネットワークアーキテクチャ、サンプル畳み込みと相互作用ネットワーク（SCINet）を提案しています。提案するSCINetは、豊富な畳み込みフィルタを持つ階層的なダウンサンプル-畳み込み-相互作用構造です。異なる時間分解能の情報を反復的に抽出・交換し、予測可能性を高めた効果的な表現を学習します。様々な実世界のTSFデータセットを用いた広範な実験により、本モデルが最先端の手法よりも優れていることが実証されました。