統計学×機械学習で株予測「MegazordNet」

Time-series 2021年08月03日

3つの要点
✔️ 統計学×機械学習で株予測の精度向上！
✔️ 従来の統計的およびMLベースのアルゴリズムより高精度
✔️ 株予測の可能性を広げる

MegazordNet: combining statistical and machine learning standpoints for time series forecasting
written by Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
(Submitted on 23 Jun 2021)
Comments: Published on arxiv.
Subjects: Statistical Finance (q-fin.ST); Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。

はじめに

金融時系列の予測は、そのカオス性から困難な課題とされています。統計学と機械学習を組み合わせて用いることで、単一の解法に比べて予測の精度が向上する可能性があることが最近の文献で示されています。本研究では、これらの点を考慮して時系列予測のために金融シリーズ内の統計的特徴を構造化された深層学習モデルと組み合わせて探索するフレームワークであるMegazordNetを提案しています。

提案手法

MegazordNetと呼ばれる我々の提案をTSFのために提示する。

今回は翌日の終値を予測したいので、TSのモデリングにこの変数のみを用いて、これを一変量問題として扱います。

前処理と時系列成分の分解

トレーニング・パーティションを取得した後、入力データはTSから欠落したエントリーを取り除く前処理のステップにかけられます。続いて、入力をトレンド成分と季節成分に分解します。

金融TSは複雑なデータパターンを表しており、外部要因の影響を受けることが多いため、元の系列を異なるコンポーネントに分解することで、予測アルゴリズムでモデル化しやすいデータ表現になるはずです。

トレンドや季節性や残差成分の抽出には、単純移動平均手法を用いています。

このために、10日のウィンドウサイズを採用しています。適用した操作の例を図2に示します。分解後、トレンド成分と季節成分を別々にモデル化することで、それぞれに最適なモデルを学習し、個別の予測を得ることができます。さらに、金融市場の非定常性を考慮し、トレンド成分には一次微分を適用しています。トレンドモデルがある時間観測から他の時間観測への変動のみを学習できるようにしています。最終的なトレンド予測において、MegazordNetは学習されたトレンド変動モデルの結果を前のトレンド観測に加えることになります。

金融株には多くの小さなカオス的な変動があり、提案されたアプローチの最終的な結果を乱す可能性があるため、残差成分(Residual)のモデル化は行わないことにしました。トレンド成分(Trend)と季節成分(Seasonal)の予測では、加法モデルを適用し、次の時間ステップの予測を別々の成分の予測の合計として得ることができます。

成分予測

TSFの最先端を探るため、本研究ではCNNとLSTMを採用しています。読者にとっては馴染みのあるモデルなので、ここは省きます。

データと実験設定

このセクションでは、TSFタスクに対処するために使用したリソースと方法論について説明する。

データ

S&P500データセットは、S&P500指数の5年間の経済取引を示しています。このインデックスは、米国で最も経済的に著名な503社を対象とし、各企業について、約1258の日々の観測値が記録されています。合計で 606,800 個のサンプルがこのデータセットを構成しています。その中から不完全なサンプルを取り除くと、総数は601,011になります。表1はこのデータセットに含まれる特徴を示したものである。

実験設定

TSFに対する様々なアプローチのパフォーマンスを評価することを目的として、最近の文献で提案されているように、Hold-outを採用し、8:2を採用しています。

提案手法と従来手法の比較

表2は本研究でMegazordNetに対して比較したアルゴリズムを、その設定とともにまとめたものです。MegazordNetと比較した手法の両方について、検討したTSに関わらずハイパーパラメータの設定を固定しています。その結果ほとんどの場合において満足のいく結果が得られることが経験的に判明しました。表の中で、ARIMAの変種に続くタプルが(p, d, q)という形になっているのは、pは回帰モデルの次数（タイムラグの数）、qは微分の度合い、qは移動平均モデルの次数を表しています。さらに、αはSESの減衰係数、wはMAとk-NN-TSPで考慮する時間間隔の窓、kはk-NN-TSPで採用する近傍数を表しています。

評価されたMegazordNetの亜種

前述の通り、今回の予備調査では、TSF用のニューラルネットワークとしてLSTMとCNNの2種類を検討しています。MegazordNetはトレンド成分と季節成分の両方に対して異なる予測器を構築することから、これらのニューラルネットワークの4つの異なる組み合わせが可能です。

MegazordNetのバリエーションの頭文字を、その意味とともに表3に示す。

評価指標

性能測定に関しては、平均二乗誤差（MSE）、Theil's U（TU）係数、およびヒット率Prediction of Change in Direction（POCID）です。平均二乗誤差（MSE）、Theil's U（TU）係数については省きます。(原著をご確認ください)

ヒット率Prediction of Change in Direction（POCID）はある手法が株価指数の変化の方向、つまり上昇するか下降するかを正しく予測できた回数を計算しています。この計算のため式3で示されるPOCID指標を利用しました。

結果と考察

各企業の株式のレンジが異なること、つまり価値が大きく異なることを考慮して、統計的検定に焦点を当てて議論しています。さらに、シリーズによって予測の難易度は異なります。そのため、本研究で対象とした148のシリーズすべてのパフォーマンス指標を要約する際には、詳細を省きます。ただし、分析中にTU係数に奇妙な動きが見られた銘柄APHのケーススタディを紹介します。

各アルゴリズムの統計的比較

MSEに関する得られた結果について説明します。この分析は図5に示されています。最も精度の高いアルゴリズムの順位が最も低くなっています。結果のMSEに統計的な差がない（α=0.05）アルゴリズムは、水平なバーでつながれています。MegazordNet のバリエーションが最初の位置を占めています。

最初のグループはCNNベースのバリアントで構成され、LSTMベースのバリアントは2番目のグループを構成しました。トレンドを構成するアルゴリズムに関わらず、季節成分はMegazordNetバリアントのランキングに大きな影響を与えていないようです。

全てのケースにおいて、トレンド予測器のみを使用したモデルは、季節予測器を使用したモデルと差がありませんでした。しかし、このようなアプリケーションでは、1セント単位の精度が重要です。したがって、MSEを小さくすることが第一の関心事である場合には、MegazordNetC,Cを使用するが推奨されます。

時系列予測の伝統的なアルゴリズムの中で、自己回帰モデルとSESは3番目に精度の高いアルゴリズムグループに入っています。

RWは、統計的な改善が見られなかったにもかかわらず、最も小さなMSEを生成しました。RWの手法のランダム性とその順位を考慮すると、統計的手法に基づくアルゴリズムはいずれも評価対象の株式の動きを十分に捉えることができなかったと考えられます。

TU係数は、各アルゴリズムを、前日の観測値をベースラインとする些細なベースライン予測値と比較します。TUが小さければ小さいほど、考慮されたアルゴリズムによって得られる性能向上は高くなります。図6は、TUに関する統計的テストの結果を示しています。ここでも、MegazordNetの各モデル間で同じ順位が観察されました。

CNNベースのモデルはTUの最良の値を達成し、LSTMベースのモデルは再び2番目に良い位置に達しました。トレンド成分に同じ種類のニューラルネットワークを使用したMegazordNetのバリエーションはすべてグループ化されています。

しかし、従来のTS予測アルゴリズムでは順位が変わりました。RWは、MSEでは最高の精度でしたが、今回の分析では最下位です。この結果は、最後に観測されたタイムステップからのランダムな逸脱を適用するため、予想できます。一般的に、自己回帰モデルは、最後の日の観測値にある程度の偏差を加えて再現する傾向がありました。この分析では、SESが最も優れた伝統的なアプローチで、次にk-NN-TSPとMAが続きます。

説明のために、各TSについてMegazordNetの亜種によって得られた平均TU値を、他のソリューションで得られた最小TU値と比較しています。ベストモデルを取らなくても、MegazordNetは大多数のケースで従来の予測アルゴリズムの中のベストを上回ることができています。

POCIDを考慮すると、図7に示すように、Megazordのバリエーションは再びランキングで最高の位置に達しました。本研究で検討した銘柄の上昇・下降トレンドを予測する上では最適な手法であったと言えます。MegazordNetの順序には若干の変化が見られました。しかし、順位の差が小さく、統計的に有意な差がありませんでした。

また、図9に示すように、提案手法の平均POCID性能を、最も優れた手法と比較しました。POCIDを考慮した場合、対象となるTSに関わらず、MegazordNetが最も優れた性能を示した。MegazordNetが達成した平均POCIDは、ほとんどのケースで50%を超えています。したがって、ランダムな推測戦略よりも上に位置し、他のいくつかのモデルよりも平均的に優れています。

ケーススタディ：APH株

TSの特徴を図10aに示します。2014年9月頃に株価が急激に下がっています。この現象の拡大図を図10bに示す。どのような学習アルゴリズムでもこのような状況をモデル化することは困難です。その結果、図10cに示されている1次微分成分がこの事実を示しています。MegazordNetでは、この表現を用いて、TSの単位区間の変動を学習しています。

APHで発生した現象をYahoo Financeなどの他のプラットフォームで探してみると、観察された減少は採用されたデータセットでは矛盾しているように見えることがわかりました。したがって、手法を実際に適用することを考えると、より堅牢なデータ抽出手順を採用する必要があります。また、今回の実験ではオンライン学習の仕組みを採用していないため、MegazordNetは誤った行動に偏っていました。

このような非定常的な特徴が見られたため、将来的にはMegazordNetのオンライン学習を検討する必要があります。

まとめ

本研究では、統計解析とANNを組み合わせたFTSFのためのMegazordNetという新しいフレームワークを提案されました。MegazordNetは、採用したデータ変換手順に関する基本設計が単純であるにもかかわらず、考慮した性能指標にかかわらず、TSFのための従来の統計的およびMLベースのアルゴリズムを統計的に凌駕しています。しかしやはり精度は平均60%程度であり、金融時系列予測の難しさを感じますね。