MegazordNet - 利用统计学和机器学习进行股票预测
三个要点
✔️ 统计学x机器学习,提高股票预测的准确性!
✔️ 比传统的统计和基于ML的算法有更高的准确性
✔️ 扩大股票预测的可能性
MegazordNet: combining statistical and machine learning standpoints for time series forecasting
written by Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
(Submitted on 23 Jun 2021)
Comments: Published on arxiv.
Subjects: Statistical Finance (q-fin.ST); Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE); Machine Learning (cs.LG)
code:
本文所使用的图片要么来自论文件,要么是参照论文件制作的。
简介
由于金融时间序列的混乱性质,预测被认为是一项具有挑战性的任务。最近的文献表明,与单一的解决方法相比,统计学和机器学习的联合使用可能会提高预测的准确性。基于这些考虑,我们提出了MegazordNet,一个结合结构化深度学习模型探索金融序列统计特征的框架,用于时间序列预测。
相关研究
尽管多年来统计建模的优势,ML现在被大量应用于FTSF(金融时间序列预测)。
Parmezan等人(2019)使用40个合成数据集和55个真实数据集评估了TSF的不同统计和ML算法。在各种指标上得到的结果显示,统计方法不能以统计上的优势胜过基于ML的技术。
作者的贡献之一是组织了一个包含他们分析中使用的所有数据集的存储库,以促进研究的复制和对其他建模技术的评估。
Makridakis等人(2018b)介绍了一个M4竞赛的结果,该竞赛旨在研究提高TSF准确性的新方法,以及如何应用这种学习来推进预测的理论和实践。比赛提出了统计学、ML和 "混合 "方法,对来自不同学科的复杂TS数据进行建模。
这些结果加强了这样的想法:没有一种方法适合所有的问题,但几种方法的组合通常可以产生良好的结果。
在他们的研究中,Hu等人(2018)评估了不同的优化方法,以确定为模拟美国股票市场趋势而创建的人工神经网络的最佳参数集。他们使用来自标准普尔500指数和道琼斯工业平均指数的数据,以及来自谷歌趋势的数据来模拟TS。
结果显示,对于财务预测,探索基于公众和投资者情绪的不同外部来源,如谷歌趋势,以及TS的价值,是有影响的。
Bai等人(2018)将简单的CNN结果与RNNs进行了比较,看哪种架构表现更好。
他们发现,他们的结果表明,CNN也可以作为这些类型问题的基准。
Lin等人(2017)提出了一个管道,CNN从TS局部原始数据中提取突出的特征,而LSTM对历史数据趋势中现有的长距离依赖性进行建模。
他们提出了一种联合表示,可以使用特征融合层预测TS的趋势。
许多现有的解决方案只专注于预测研究的特定领域,如ML或统计建模。由于这种策略对于处理复杂的任务如TSF来说可能不是最佳的,我们假设将统计方法与DL的学习能力相结合可以提高FTSF的预测性能。
建议的方法
我们提出了我们的建议,称为MegazordNet,用于TSF。
在这种情况下,我们想预测第二天的收盘价,所以我们将在TS建模中只使用这个变量,并将其视为一个单变量问题。
时间序列成分的预处理和分解
获得训练分区后,输入数据是从TS中删除缺失的条目然后对其进行预处理。然后,输入被分解为趋势和季节性成分。
由于金融TS代表了复杂的数据模式,并且经常受到外部因素的影响,将原始序列分解成不同的组成部分,应该会产生一个更容易用预测算法建模的数据表示。
简单移动平均法被用来提取趋势、季节性和残余成分。
为此,我们采用了一个10天的窗口大小。图2显示了所应用的操作的一个例子。分解后,对趋势和季节性成分分别进行建模,这样就可以为每一个成分训练出最佳模型,以获得单独的预测。此外,为了考虑到金融市场的非平稳性,我们对趋势部分采用一阶导数。我们确保趋势模型只能学习从一个时间观察到另一个时间观察的变化。在最后的趋势预测中,MegazordNet将把学到的趋势变异模型的结果加入到之前的趋势观察中。
我们决定不对残余部分(Residual)进行建模,因为金融股票中有许多小的混乱波动,可能会干扰拟议方法的最终结果。在预测趋势和季节性成分时,可以采用加法模型,得到下一个时间步骤的预测,作为单独成分的预测之和。
组件预测
为了探索TSF的先进性,我们在本研究中采用了CNN和LSTM。由于这些模型为读者所熟悉,我们在此省略。
数据和实验设置
本节介绍了用于处理TSF任务的资源和方法。
数据
标准普尔500指数数据集显示了标准普尔500指数在五年内的经济交易。该指数涵盖了美国503家经济上最突出的公司,每家公司大约有1258个每日观察记录。总共有606800个样本组成了这个数据集。除去不完整的样本,总数为601,011人。表1显示了该数据集所包括的特征。
实验设置
为了评估不同的TSF方法的性能,我们采用了最近文献中建议的Hold-out和8:2。
所提方法与传统方法的比较
表2总结了本研究中与MegazordNet比较的算法,以及它们的设置:对于MegazordNet和所比较的方法,无论考虑何种TS,其超参数设置都是固定的。经验结果表明,在大多数情况下都能获得令人满意的结果。在表中,ARIMA变体之后的图元的形式是(p,d,q),其中p是回归模型的顺序(时间滞后数),q是区分度,q是移动平均模型的顺序。此外,α是SES的衰减系数,w是MA和k-NN-TSP中考虑的时间间隔窗口,k是k-NN-TSP中采用的邻居数。
已评估的MegazordNet的变体
如上所述,在这项初步研究中,考虑了两种用于TSF的神经网络:LSTMs和CNNs。这些神经网络的四个不同组合是可能的,因为MegazordNet为趋势和季节性成分建立了不同的预测器。
表3给出了MegazordNet变体的首字母缩写,以及它们的含义。
评价指标
性能指标是平均平方误差(MSE)、Theil's U(TU)系数和方向变化的命中率预测(POCID)。我们省略了均方误差(MSE)和Theil's U(TU)系数。(请查看原始出版物)。)
命中率预测方向(POCID)计算的是一种方法正确预测股指变化方向的次数,即它是上升还是下降。在这一计算中,我们使用了公式3中所示的POCID指标。
结果和讨论
讨论的重点是统计检验,考虑到每个公司的股份范围不同,即它们的价值有很大差异。此外,不同的系列在预测方面有不同的困难程度。由于这个原因,我们在总结本研究中涉及的所有148个系列的业绩指标时,省略了一些细节。然而,我们将介绍APH的案例研究,这只股票在分析过程中显示出TU系数的一些奇怪的变化。
不同算法的统计学比较
本节介绍了在MSE方面获得的结果。这一分析在图5中得到说明。准确率最高的算法的排名最低。在结果MSE中没有统计学差异的算法(α=0.05)由横杠连接:MegazordNet的变体占据了第一个位置。
第一组由基于CNN的变体组成,而基于LSTM的变体则构成了第二组。无论构成趋势的算法是什么,季节性成分似乎对MegazordNet变体的排名没有重大影响。
在所有情况下,只使用趋势预测器的模型与使用季节性预测器的模型没有区别。然而,在此类应用中,精确到最接近的百分点是很重要的。因此,当主要关注的是减少MSE时,建议使用MegazordNetC,C。
在传统的时间序列预测算法中,自回归模型和SES属于第三组最准确的算法。
RW产生了最小的MSE,尽管缺乏统计学上的改进;考虑到RW的方法及其排名的随机性,很可能没有一个基于统计学方法的算法能够充分捕捉被评估股票的动向。
TU系数将每种算法与以前一天的观测值为基线的琐碎基线预测进行比较;TU越小,所考虑的算法获得的性能改进就越高。图6显示了对TU的统计检验结果。同样,在MegazordNet的不同模型之间也观察到相同的排名。
基于CNN的模型实现了TU的最佳值,而基于LSTM的模型再次达到了第二最佳位置。所有使用同一类型神经网络的趋势组件的MegazordNet变体都被归为一组。
然而,对于传统的TS预测算法来说,其排名已经发生了变化。RW在MSE中的准确性最好,但在这个分析中是最低的。这个结果是可以预期的,因为它应用了最后观察到的时间步长的随机偏差。一般来说,自回归模型倾向于重现最后一天的观察结果,但有一些偏差。对于这个分析,SES是最好的传统方法,其次是k-NN-TSP和MA。
为了说明这一点,MegazordNet变体为每个TS获得的平均TU值与其他解决方案获得的最小TU值进行了比较。即使不采取最好的模型,MegazordNet也能在大多数情况下胜过传统预测算法中最好的。
当POCID被考虑在内时,Megazord变体再次达到了排名的最高位置,如图7所示。可以说,这是预测本研究中所考虑的股票的上升和下降趋势的最佳方法。MegazordNet的顺序有一些变化。然而,顺序上的差异很小,没有统计学意义。
我们还比较了所提方法与最佳方法的平均POCID性能,如图9所示。当考虑到POCID时,MegazordNet显示出最好的性能,无论感兴趣的TS是什么。MegazordNet实现的平均POCID在大多数情况下都超过50%。比随机猜测的策略要好。因此,它的排名高于随机猜测策略,而且平均来说比其他一些模型更好。
案例研究:APH股份
图10a显示了TS的特征:股价在2014年9月左右急剧下降。图10b中显示了这种现象的放大图。任何学习算法都很难对这种情况进行建模。因此,图10c所示的第一个导数成分说明了这一事实:MegazordNet使用这一表示法来学习TS单元间隔的变化。
当我们在雅虎财经等其他平台上寻找APH发生的现象时,我们发现观察到的下降似乎与采用的数据集不一致。因此,考虑到该方法的实际应用,需要采用一个更健全的数据提取程序。此外,由于本实验没有采用在线学习机制,MegazordNet偏向于错误的行为。
由于观察到的非平稳特征,未来应考虑对MegazordNet进行在线学习。
摘要
在这项工作中,我们提出了一个名为MegazordNet的用于FTSF的新框架,它结合了统计分析和ANNs。 MegazordNet尽管在所采用的数据转换程序方面的基本设计很简单,但它能够它在统计学上优于传统的统计学和基于ML的算法。然而,准确率平均仍为60%左右,这对金融时间序列预测来说是非常困难的。
与本文相关的类别