時系列予測に深層学習モデルが本当に必要？

Time-series 2022年05月21日

3つの要点
✔️ 時系列予測の領域で、最近深層学習モデルによる性能向上が急速に進んでいます。しかし、古典的な機械学習モデルはもう必要ないのかということで、この大規模な調査と比較実験が行われました。
✔️ 古典的学習モデルの代表としてGBRTが使われています。深層学習モデルが実現した系列間の依存性の表現を入力の特徴量エンジニアリングベースのウィンドウ化で代替しました。
✔️ 前処理により、改良GBRTは単変量、多変量両方のデータセットに対して、数多くの深層学習モデルと同等あるいは大きく上回る性能を示しました。

Do We Really Need Deep Learning Models for Time Series Forecasting?
written by Shereen Elsayed, Daniela Thyssens, Ahmed Rashed, Hadi Samer Jomaa, Lars Schmidt-Thieme
(Submitted on 6 Jan 2021 (v1), last revised 20 Oct 2021 (this version, v2))
Comments: arXiv
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

過去数年の間に、時系列予測の分野において、深層学習ベースのフレームワークの性能が、古典的なパラメトリック（自己回帰）アプローチを大きく上回るようになりました。背景として従来のアプローチでは、長期および短期の系列の混合によって提供される情報を捕捉できない可能性があると研究者たちは分析しています。したがって、多くの深層学習手法では、データの時間間の非線形依存性の把握について議論しています。これらの新しい深層学習ベースのアプローチは、ARIMAなどの従来の方法やGBRTなどの単純な機械学習モデルよりも優れていることが示されているだけでなく、機械学習の分野での時系列予測モデルが必要であるという期待を上昇させています。

ただし、レコメンダーシステムの分野で"Are we really making much progress?"という論文が発表されて以来、機械学習のさまざまな研究セグメントにおける深層学習アプローチの成果を定期的に確認し、維持するための単純で効果的なモデルに対して評価する必要があることが明らかになりました。それぞれの研究分野における進歩の信憑性。時系列予測モデルの複雑さが増していることとは別に、もう一つの議論に対してのモチベーションは、文献で洗練されている深層学習ベースのモデルに関して時系列予測問題のアプローチが一方的であることであり、それによって、現実の世界で適用されたときに最高レベルの多様性の中の1つである問題に対し、既存のソリューションアプローチの多様性を制限します。

この研究では、慎重に構成された入力処理構造により、GBRTモデルなどのシンプルでありながら強力なアンサンブルモデルが、時系列予測の分野で多くのDNNモデルと競合し、さらには優れていることを示します。

特徴量エンジニアリングされた多変量出力GBRTモデルの評価は、次の2つの調査質問に沿って行われています。

1.時系列予測のためのウィンドウベースの学習フレームワークの観点から、GBRTモデルの入力および出力構造を注意深く構成することの効果は何か？

2.シンプルでありながら適切に構成されたGBRTモデルは、SOTAの深層学習時系列予測フレームワークとどのように比較されるか？

評価は、単変量予測と多変量予測の2種類の予測タスクについて行います。一流の研究会議で取り上げられているSOTAの深層学習アプローチに対してGBRTモデルを評価します。

この調査研究の全体的な貢献は、次のとおりです。

– GBRT：単純な機械学習手法であるGBRTを、最初にウィンドウベースの回帰フレームワークにキャストし、次にモデルの入力および出力構造を特徴量エンジニアリングすることで、競合するDNN時系列予測モデルの標準に引き上げます。追加のコンテキスト情報から最も恩恵を受けます。

–ナイーブに構成されたベースラインとの比較：時系列予測モデルの入力処理の重要性を強調するために、GBRTのウィンドウベースの入力設定が、ARIMAやナイーブな時系列予測の領域でのGBRTの実装などの従来の構成モデルによって生成される予測パフォーマンスを向上させる理由を経験的に証明します。

-競争力：さまざまな最先端の深層学習時系列予測モデルに関してGBRTのパフォーマンスを調査し、2種類の時系列予測タスク（単変量および多変量）での競争力を示します。

研究の手順

比較対象になるベースライン論文

９つの代表的な学会(NeurIPS, KDDなど)の2016年から2020年の論文を次の基準でスクリーニングしてベースラインを抽出しています。

トピックス：時系列予測のみを取り上げています

データ構造：非同期時系列、グラフなどのデータ構造については除外しています

再現性：データは公的に入手可能で、コードも作者から入手可能。

計算可能性：論文中の結果が再現できること

評価

時系列予測用に構成されたGBRTを、単変量、多変量の2つのレベルで評価しました。選定されたベースラインとGBRTの互換性を確保するために、全てを同じデータセット(Table 1)プール上のモデルで評価しました。

ElectricityとTrafficは互換性のためにサブサンプリングを行いました。条件を合わせるために、今回の評価条件でベースラインモデルの再評価、再チューニングを行っています。

Table 1の下から4つが多変量データです。

特徴量エンジニアリングされたウィンドウベースGBRT

調査したGBRTモデル、特にXGBoostを実装したものは適用しやすく、特に構造データに合うという特性があります。しかし、単純に時系列データに適用すると、GBRTモデルは、ウィンドウベースの回帰問題に投入できず、代わりにデータ点の完全な連続シーケンスとして時系列の大部分に適合し、後続の残りのテスト部分の時系列を予測するため柔軟性を大きく失います。入力の取り扱いの、この単純な方法とは違い、成功している時系列予測モデルに倣い、時系列データを再構成してウィンドウ入力データとし、この複数の学習インスタンス（ウィンドウ）で学習を行いました。ウィンドウ長は調整可能です。このウィンドウベース入力設定のGBRTモデルはFig. 1に図示しています。

最初のステップは、2D訓練データ（時系列ウィンドウ）をGPRTに適合する1Dベクトル定式に変換関数を用いて変形します。この関数はすべてのウィンドウのターゲット値yiと、入力の最後のインスタンスtの共変量ベクトルをフラットに結合します。この変型の後、GBRTモデルに渡し、それぞれのインスタンスに対して、未来を予測します。

多変量出力の方式は、もともとGBRTではサポートされていません。しかし、シングルターゲット手法のような問題変換手法によりインスタンス化できます。今回は、多変量回帰問題をいくつかの単変量ターゲット問題に変換するmulti-output wrapperを選択しました。この方法は、回帰の数を予測範囲のサイズに拡張するという単純な戦略を意含みます。ここでは、予測範囲の各予測ステップに一つの回帰、つまり一つの損失関数が導入されます。次に、すべてのツリーモデル推定量の合計を使用して、最終的なターゲット予測が計算されます。この単一ターゲット設定には、予測範囲内のターゲット変数が独立して予測され、モデルがそれらの間の潜在的な関係を反映しないという欠点が自動的に伴います。これがまさに、予測問題を回帰タスクに変換するだけでなく、さらに重要なことにモデルがターゲット変数の自己相関効果を捕捉し、独立した多変量予測という初期の欠点を補うGBRTのウィンドウベースの入力設定に重点が置かれている理由です。前述のウィンドウべーすのGBRT入力設定は予測性能を顕著に向上させ、GBRTモデルはこうして潜んでいる時系列構造を把握することができ、先端のDNN時系列予測モデルとして、機械学習の適切なベースラインと見なすことができます。

一方、前述した単純なGBRTモデルは一つの点についての回帰モデルであり、時点Xの同時共変量を入力とし、同時点での一つのターゲット値Yを予測し、次の訓練損失を最小とします。

実験と結果

深層学習での時系列予測アプローチ

次の著名な深層学習ベースのモデルを評価において考慮しています。

1. TRMF (Temporal Regullarized Matrix Factorization)

　　行列因数分解ベースの手法です。時系列データの線形依存性のみ把握できます。

2. LSTNet (Long- and Short-term Time-series Network)

　　局所的な多変量パターンと、長期の依存性を把握します。

3. DARNN (Dual-Stage Attention- Based RNN)

　　入力をアテンション機構に通し、続いて追加のアテンション機構を持つエンコーダ - デコーダモデルにかけます。

4. DeepGlo (Deep Global Local Forecaseter)

　　時間的畳み込みネットワークによりグローバル行列因数分解構造を正規化します。

5. TFT (Temporal Fusion Transformer)

　　この論文で取り上げるうちで最新のDNNです。再帰層により局所依存性を、トランスフォーマーに特有のセルフアテンション層により長期依存性を捕捉します。

6. DeepAR

　　追加の時間、共変量を用いて、時系列のパラメトリック分布を見積もる自己回帰確率的RNNモデルです。

7. DeepState(Deep State Space Model)

　　RNNを用いた線形状態空間モデルのパラメータ化を学習する確率的生成モデル。

8. DAQFF (Deep Air Quality Forecasting Framework)

　　2段階の特徴量表現からなります。３つの1D畳み込み層、２つの双方向LSTM層、線形層を通して予測します。

単変量データセット

Table 2の結果は、単純な共変量を予測変数として使用せずに、単変量時系列予測データセットに関する予測パフォーマンスをまとめたものです。全体的な結果は、Traffic予測を除いて、ウィンドウベースのGBRTが強い競争力があることを示しています。一方、ARIMAやGBRT（Naive）などの従来の構成の予測モデルは、予想通りはるかに優れています。この調査結果は、機械学習ベースラインを慎重に構成し、特定の問題に適応させることの適切さを強調しています。この単変量設定では、共変量は考慮されていませんが、GBRT（W-b）のパフォーマンスの向上は、GBRTのローリング予測の定式化にのみ起因する可能性があります。

Electricity予測の場合、ウィンドウベースのGBRTは、すべてのモデルの中で最高のRMSEパフォーマンスを示し、かなりのマージンがありますが、WAPEとMAEに関するパフォーマンスは、2016年に導入されたTRMFによって唯一抜かれています。アテンションベースのDARNNモデルは、パフォーマンスが劣りますが、もともとは、株式市場と室内温度データの多変量設定で評価されました。もともと単変量設定で評価されたLSTNetとは異なり、配置された評価メトリックが異なるため、Table 2のすべてのデータセットに対して再実装する必要がありました。Exchange-Rate（為替レート）予測タスクに関しては、LSTNet（w = 24で再実装）とTMRFは比較的強力な結果を示していますが、それでもウィンドウベースのGBRTベースラインがより優れています。Table 2ではLSTNetにとって不利なパフォーマンス結果が得られていますが、Table 4では最初に使用されたメトリックと元の実験設定に関して、肯定的な結果が示されています。時間予測器を考慮しないと、Traffic予測の結果は織り交ぜた状態で、1時間ごとのトラフィックデータセットの最良の結果はDARNNとLSTNetによって達成されますが、PeMSD7データセットの場合、ウィンドウベースのGBRTベースラインは3つのメトリックのうち2つでDNNモデルよりも優れています。ただし、時変共変量を含めると、GBRTのパフォーマンスが大幅に向上し（Table 3）、Traffic予測についても、DeepGlo やPeMSD7で6.77のRMSEを達成し人気のある時空間トラフィック予測モデル（STGCN）を含むすべてのDNNアプローチよりも、再構成されたGBRTベースラインが優れています。

全体として、入力をウィンドウ処理し、勾配ブースティングされたツリーモデルに単純な時変量を追加すると、Table 2および3のさまざまな単変量時系列データセット全体で説得力のある一般化パフォーマンスが実証されます。この発見をさらに確認し、異なる評価指標やサブサンプルされたデータセットによるDNNモデルの不利を緩和するために、以降、公開されたパフォーマンス結果の評価のための1対1の実験を行いました。

・LSTNetとの比較

オリジナル論文の為替レートデータセットと一緒に紹介された追加の太陽エネルギーデータセットでLSTNetを評価します。 Table 4は、時変共変量と、相対二乗誤差平方根（RSE）および経験的相関係数（Corr）で評価されたh =24の予測ウィンドウを含むGBRT（W-b）の結果を示しています。これらの補完的な結果は、LSTNetなどの強力で深層学習に裏打ちされたフレームワークより、適切に構成されたGBRTモデルが（一貫して）優れているという上記の発見を裏付けています。

・確率的／トランスフォーマーベースモデルとの比較

最後に、DeepARやDeepStateなどの確率モデル、およびトランスフォーマーベースのモデル（TFT）に関しても、単変量データセットに関する上記の発見を確認したいと思います。公開された結果と直接比較するために、ElectricityV2およびTrafficV2データセットのさまざまなバージョンの使用に関してTFTに従う実験設定を適用します。特にElectricityV2の場合、時系列の長さはT = 6000である一方利用可能な系列はn = 370ですが、TrafficV2データセットは長さがT=4000前後の963シリーズの時系列で構成されています。

Table 1（7日間）に記載されているテスト期間は同じままであり、単純なタイムスタンプ抽出共変量がすべてのモデルで使用されます。 TrafficV2データセットのウィンドウベースのGBRTのパラメーターは、サブサンプリングされたデータセットに使用されたものと同じですが、ElectricityV2の場合、パラメーターは個別に調整する必要がありました。

Table 5の結果は、ローリングフォーキャスト構成のGBRTの競争力を強調していますが、TFT などのかなり強力なトランスフォーマーベースのモデルが、GBRT(W-b)のパフォーマンスを上回っていることも示しています。それにもかかわらず、例外として、TFTはこの研究でGBRTを一貫して上回っている唯一のDNNモデルであり、DeepARやDeepStateのような確率モデルを、これらの単変量データセットで上回っています。

これらの結果からの主な発見は、主にタイムスタンプから抽出された単純な共変量でさえ、GBRTベースラインのパフォーマンスを大幅に向上させたことです。

多変量データセット

取り扱う多変量時系列予測設定は、複数の機能のデータがデータセットでネイティブに提供される場合を表しますが、予測する必要があるのは1つのターゲット変数のみです。この場合、外部特徴量X^M_i、t-wが与えられ、タイムスタンプから抽出された単純な時間予測子よりも表現力があります。

・Comparison against DARNN with Covariates

この直接比較の場合、DARNNの多変量予測タスクは、さまざまな予測機能とDARNNにとって最良の値であることが証明されている10個のデータポイントのルックアップウィンドウサイズを前提として、目標値、室温（SML 2010）、株価（NASDAQ100）をそれぞれ1ステップ先に予測することです。

Table 6の結果は、この多変量の場合にも前述の結果を裏付けており、多変量予測用に特別に概念化されたアテンションを使ったDNNフレームワークに対してさえ、単純で適切に構成されたGBRTベースラインがより優れていることを示しています。

別の注意点として、DARNNの評価プロトコルの非DNNベースラインはARIMAのみであったことを考えると、時系列予測の分野における機械学習予測モデルの一方的な側面がさらに強調されます。したがって、一般に、おそらくそれほど強力ではない機械学習ベースラインを構成することだけでなく、評価用のベースラインのプールを作成する場合についても注意を払う必要があります。

・Comparison against DAQFF

この研究の最後の1対1比較実験として、再構成されたGBRTベースラインの大気質予測タスクのために明示的に構築された、完全に拡張されたDNNモデルDeep Air Quality Forecasting Frameworkについて評価します。 DAQFF に関する元の結果は、ソースコードが利用できなかったため再現できませんでしたが、それでもデータにアクセスできました。元の十分に文書化されたデータ前処理スキームと実験設定が採用され、予測ウィンドウサイズは6時間に選択され、ルックアップウィンドウサイズは両方のデータセットで1時間に設定されました。Table 7は、特定の予測タスク（この場合は大気質予測）用に特別に設計されたDNNモデルでさえ、そのタスクに関して特にうまく機能すると想定されているが、期待に応えていないことを示しています。代わりに、DAQFFは、単純なウィンドウベースの機能設計された勾配ブースティング回帰ツリーモデルよりもパフォーマンスが低下しています。

この実験では、従来のアプリケーション予測の意味で使用されるGBRTモデルでさえ、大気質データセットでより良い結果をもたらすことに注意してください。

切り分け実験

フラット化されたGBRT入力ウィンドウに最後のタイムステップの共変量のみを含めるだけで、競争力のある結果を得ることができる特徴量包含スキームを支持する結果を示します。Table 1から選んだデータセットについて、ウィンドウベースGBRTの両方(すべてのインスタンス、最後のインスタンス)の構成を評価します。データセットの実験場の設定では、ルックアップウィンドウサイズと予測ウィンドウサイズがそれぞれ6と3に設定されているPM2.5を除いて、前述の評価での設定と同じです。

Table 8の結果は、最後のインスタンスの補助機能のみを考慮しても情報の損失がほとんど発生しないことを示しています。そのため、「最後のインスタンス」スキームを適用することで、多くの計算メモリと電力を節約できます。

まとめ

この研究では、時系列予測のための最近の数多くの深層学習フレームワークを調査および再現し、それらをさまざまなデータセットについてローリング予測GBRTと比較しました。実験結果は、GBRTのような概念的に単純なモデルが、入力および出力構造を効率的に特徴量エンジニアリングすることにより、SOTAのDNNモデルと競合し、場合によってはそれを上回ることができることを示しています。

視点を広げると、この発見は、深層学習モデルの成果が出ているとはいえ、より単純な機械学習ベースラインを単純に却下するべきではなく、時系列予測の分野での進歩の信頼性を確保するためには、より注意深く構成する必要があることを示唆しています。

将来の研究対象として、これらの結果は、多層パーセプトロンやサポートベクターマシンなどの他のより単純な機械学習モデルへのこのウィンドウベースの入力設定の適用を奨励しています。