《微观量化百问》第十四期丨模型和模型训练中的过拟合

谈到量化投资，我们经常会听到“模型”这个词，量化投资中的模型是什么概念？又该如何理解模型训练中的“过拟合”问题？本期专栏将围绕相关专业话题进行探讨。

Q53：何为模型？如何区分模型与算法？

一般而言，模型（Model）由数据及如何使用历史数据对未来数据进行预测的过程组成。而算法（Algorithm）指执行一种优化过程，即在训练数据集上让模型的误差最小化。

在机器学习领域，“机器学习算法”经常与“机器学习模型”交替使用——前者指的是在数据上运行以创建机器学习“模型”的过程，后者着重表达用于进行预测所需的规则、数字和任何其他特定于算法的数据结构。

在模型开发/模型预测、模型训练/预测值合并等环节中会将提取到的特征或Alpha因子进一步加工，得到“更优Alpha”。早期量化私募的模型开发以线性模型为主，随着非线性模型（如机器学习、深度学习模型）占比逐步提升，其模型复杂度、参数相比传统统计学习模型有了很大提升，预测效果也更好，量化机构整体投资能力获得较大进步——具体到如何精细化处理树模型、神经网络模型等也从侧面体现出各家研究深度和广度的不同。

Q54：量化投资通用预测模型有哪些？

量化投资的环节中所采用的模型大致可以分为三类：因子挖掘模型、预测模型和组合优化及交易算法模型。其中预测模型的发展总体而言是从简单到复杂、未来还要更复杂的迭代过程。目前，业内比较通用的预测模型包括：

（1）注重可解释性的线性模型：OLS

（2）统计学习、机器学习模型：Lasso、SVM、GBDT

（3）可端到端的深度学习模型：DNN、LSTM、Transformer、GNN Q55：什么是过拟合？

过拟合（overfitting）是统计学和机器学习领域的常用概念，可分为训练过拟合和回测过拟合两个层次：

一、训练过拟合是机器学习语境下偏狭义色彩的过拟合，指“机器学习模型在训练集上表现良好，但在测试集或新数据上表现较差”。产生原因是模型超参数选择不当或模型过度训练，解决方案通常是采用合理的交叉验证方法选择模型超参数。

二、回测过拟合是量化研究语境下偏广义色彩的过拟合，指“量化模型在回测阶段表现好，在实盘阶段表现差”。产生原因是市场规律发生变化，或者对回测阶段数据噪音的过度学习。回测过拟合难以根除，相对合理的解决方案是借助量化指标检验回测过拟合程度。

Q56：如何预防过拟合？

当模型过于复杂、参数数量过多、学习能力太强时，容易出现模型对于训练集以外的数据泛化能力差，表现为过拟合。

由于大多数机器学习模型并不是专门为金融时间序列开发的，这些模型在量化建模中的应用需要适时调整。所以将机器学习应用到量化投资领域时，在模型训练中如何预防和避免过拟合显得尤为重要，需要综合考虑预测精度、模型可解释性、模型鲁棒性和计算复杂性等因素。其中金融时间序列预测必须避免使用未来信息，有时更倾向于随着时间的推移将时间序列分成训练、验证和测试块，即进行前向验证，而非模型超参数优化中的交叉验证。

在深度学习中，超参数的选择对模型的训练和泛化性能有很大的影响——如果超参数过大，可能会导致模型过拟合，因此需要根据数据集和模型结构进行调整。这里的超参数是指那些需要手动设置的参数，这些参数不能直接从数据中学习得到，而需要通过持续调整和优化参数来得到最优的模型。

Q57：还有哪些原因可能导致模型回测与实盘中表现不一致？

模型在回测与实盘中表现不一致是投资领域中普遍存在的现象，并不都是过拟合导致的，还可能与以下因素有关：

（1）数据偏差：回测时使用的历史数据可能与实际市场环境存在一定差异；

（2）滑点和交易成本：实际交易中存在的滑点和交易成本都应在回测时进行预估；

（3）策略实现限制：在实盘交易中，策略实现效果可能会受交易执行速度、交易执行规模等因素的影响；

（4）市场已发生变化：由于金融市场由不同参与者组成，投资者结构及投资者行为均会发生变化。金融市场还受整体宏观环境、政治和经济等因素情况影响。所以不同阶段市场运行规律会发生一定的变化，基于过去总结的有效规律在未来也未必有效。