《微观量化百问》第十四期丨模型和模型训练中的过拟合

2024-09-23 15:37:30 来源: 证券时报网

  谈到量化投资,我们经常会听到“模型”这个词,量化投资中的模型是什么概念?又该如何理解模型训练中的“过拟合”问题?本期专栏将围绕相关专业话题进行探讨。

  Q53:何为模型?如何区分模型与算法?

  一般而言,模型(Model)由数据及如何使用历史数据对未来数据进行预测的过程组成。而算法(Algorithm)指执行一种优化过程,即在训练数据集上让模型的误差最小化。

  在机器学习领域,“机器学习算法”经常与“机器学习模型”交替使用——前者指的是在数据上运行以创建机器学习“模型”的过程,后者着重表达用于进行预测所需的规则、数字和任何其他特定于算法的数据结构。

  在模型开发/模型预测、模型训练/预测值合并等环节中会将提取到的特征或Alpha因子进一步加工,得到“更优Alpha”。早期量化私募的模型开发以线性模型为主,随着非线性模型(如机器学习、深度学习模型)占比逐步提升,其模型复杂度、参数相比传统统计学习模型有了很大提升,预测效果也更好,量化机构整体投资能力获得较大进步——具体到如何精细化处理树模型、神经网络模型等也从侧面体现出各家研究深度和广度的不同。

  Q54:量化投资通用预测模型有哪些?

  量化投资的环节中所采用的模型大致可以分为三类:因子挖掘模型、预测模型和组合优化及交易算法模型。其中预测模型的发展总体而言是从简单到复杂、未来还要更复杂的迭代过程。目前,业内比较通用的预测模型包括:

  (1)注重可解释性的线性模型:OLS

  (2)统计学习、机器学习模型:Lasso、SVM、GBDT

  (3)可端到端的深度学习模型:DNN、LSTM、Transformer、GNN Q55:什么是过拟合?

  过拟合(overfitting)是统计学和机器学习领域的常用概念,可分为训练过拟合和回测过拟合两个层次:

  一、训练过拟合是机器学习语境下偏狭义色彩的过拟合,指“机器学习模型在训练集上表现良好,但在测试集或新数据上表现较差”。产生原因是模型超参数选择不当或模型过度训练,解决方案通常是采用合理的交叉验证方法选择模型超参数。

  二、回测过拟合是量化研究语境下偏广义色彩的过拟合,指“量化模型在回测阶段表现好,在实盘阶段表现差”。产生原因是市场规律发生变化,或者对回测阶段数据噪音的过度学习。回测过拟合难以根除,相对合理的解决方案是借助量化指标检验回测过拟合程度。

  Q56:如何预防过拟合?

  当模型过于复杂、参数数量过多、学习能力太强时,容易出现模型对于训练集以外的数据泛化能力差,表现为过拟合。

  由于大多数机器学习模型并不是专门为金融时间序列开发的,这些模型在量化建模中的应用需要适时调整。所以将机器学习应用到量化投资领域时,在模型训练中如何预防和避免过拟合显得尤为重要,需要综合考虑预测精度、模型可解释性、模型鲁棒性和计算复杂性等因素。其中金融时间序列预测必须避免使用未来信息,有时更倾向于随着时间的推移将时间序列分成训练、验证和测试块,即进行前向验证,而非模型超参数优化中的交叉验证。

  在深度学习中,超参数的选择对模型的训练和泛化性能有很大的影响——如果超参数过大,可能会导致模型过拟合,因此需要根据数据集和模型结构进行调整。这里的超参数是指那些需要手动设置的参数,这些参数不能直接从数据中学习得到,而需要通过持续调整和优化参数来得到最优的模型。

  Q57:还有哪些原因可能导致模型回测与实盘中表现不一致?

  模型在回测与实盘中表现不一致是投资领域中普遍存在的现象,并不都是过拟合导致的,还可能与以下因素有关:

  (1)数据偏差:回测时使用的历史数据可能与实际市场环境存在一定差异;

  (2)滑点和交易成本:实际交易中存在的滑点和交易成本都应在回测时进行预估;

  (3)策略实现限制:在实盘交易中,策略实现效果可能会受交易执行速度、交易执行规模等因素的影响;

  (4)市场已发生变化:由于金融市场由不同参与者组成,投资者结构及投资者行为均会发生变化。金融市场还受整体宏观环境、政治和经济等因素情况影响。所以不同阶段市场运行规律会发生一定的变化,基于过去总结的有效规律在未来也未必有效。

关注同花顺财经(ths518),获取更多机会

0

+1
  • 银之杰
  • 大唐电信
  • 常山北明
  • 保变电气
  • 海能达
  • 中南股份
  • 法本信息
  • 恒银科技
  • 代码|股票名称 最新 涨跌幅