时间序列应用分析 机器学习用于金融市场预测难在哪?
金融市场已经成为最早的采用机器学习(ML)市场之一。20世纪80年代以来,人们一直在使用ML以发现市场上的规律。尽管ML在预测市场结果方面取得了巨大成功,但最近的深度学习并没有对金融市场的预测有多大帮助。虽然深度学习和其他ML技术终于使Alexa,Google Assistant和Google Photos成为可能,但在股票市场上没有取得多大进展。
但是,我将机器学习应用于现实世界的金融预测问题。尽管有很多论文声称成功应用了深度学习模式,但我还是持怀疑态度来看待这些结果。有些模型确实有更好的精度。然而,差异的量级往往还不够大。
NLP的改进有助于提高依赖文档分析的定量策略的有效性。这是在金融市场中深度学习模型的一个不可多得的好处。
所有这一切证实了金融市场本质上是不可预测的事实。这里有很多原因让人难以预测。我想强调一些使它变得困难的主要原因:
数据分布:
数据分布问题至关重要——几乎所有的做金融预测的研究论文都忽略了这一点。
我们可以将金融数据集与图像分类数据集进行对比,以更好地理解这一点。让我们考虑CIFAR-10数据集.它包括了10个类。每个类的训练集中有5000个图像,每个类的测试集中有1000个图像。
我们期望在狗分类的训练集中,像素权重的分布与狗分类测试集中的分布相似。换而言之,狗的图像将包含在训练集以及测试集中的狗。这比较傻的说明了:狗的图像必须包含狗。
对于大多数金融数据集来说,这种明显的属性没有效。你将来可能看到的和你目前看到的数据完全不同。事实上,将机器学习应用于现实世界是一个比较常见的问题。除了确保测试和训练的数据集具有相似的分布以外,还必须确保只有当将来的数据遵循训练/验证的分布才在产品里使用训练过的模型。
虽然大多数研究者都注意不去把预测偏差纳入到他们的研究中,但几乎每个人都不承认涉及数据分布问题。
向前优化是解决这个问题的一种可能的选项。这在从事者中是已知的,但是研究人员常常忘记提到这一点。然而,即使是向前推进优化也不是解决潜在问题的灵丹妙药——它假设未来数据分布将是什么样的。这就是为什么向前优化的方法并不能真正给你带来高精度——它只是比较实用。
小样本大小(Small Sample Sizes)
机器学习经常需要从小数据集做预测。一个例子是劳动力统计,例如失业率和非农收入。每个月得到一个数据点,没有足够的历史数据。一个极端的例子是金融危机—只有一个数据点供我们借鉴。
这使得应用自动化的学习方法变得非常困难。许多人最终采取的一种途径是将不太频繁的统计数据与相对频繁的数据结合起来。例如,你可以结合非农收入与每日股票收益率,并且把相结合的数据集提供给模型。时间序列应用分析然而,往往需要进行大量的监督,以消除对模型质量的怀疑。
难以计算的数据(Unquantifiable Data)
有人可能会说,我们金融历史的时间表同人类历史本身一样。时间序列应用分析不幸的是,转换成量化的数据以让算法能理解的形式是比较困难的。例如,即使我们对1930年代大萧条期间发生的事情有一个全面的了解,也很难把它转化成一种可以用于自动化的学习过程的形式。
十分复杂(It’s Quite Complex)
各种各样的因素在不同的规模驱动着价格:
·??高频交易和算法交易是短期内价格的主要驱动力(小于1天);
·??开盘价和收盘价都有自己的模式-??包括在股票和期货-我所使用的两个资产类;
·??当涉及到多日线时,新闻和谣言是驱动力。详细的公司新闻可以在任何时候不预先通知的情况下发生。然而,某些事件的时间表是事先知道的,比如公司的计划报表和经济数据一览;
讲的很准确