-
开放科学(资源服务)标志码(OSID):
-
跨期套利是利用同一种期货品种、不同到期时间合约间价差的不寻常变动,进而实施反向交易,在两个合约间价差回归常态时进行平仓获利的投资方式. 相对于股票等金融工具的买入并持有策略而言,跨期套利由于交易的是同一种期货品种不同合约之间的价差,相对风险更低. 相对于跨品种或者跨市场套利,跨期套利的合约价差更为稳定,因此投资的稳定性更高,风险也相对较低. 跨期套利在价差超过正常值较远的时候进行反向交易,单笔利润相对于买入持有的趋势投资策略往往更低,由于期货市场具有较高的杠杆属性,且T+0的交易模式使得交易频率可以更高,致使套利交易的风险调整后收益往往更高[1-4],致使越来越多的基金公司在实践中引入套利交易. 同时,套利交易与买入持有策略间的相关性极低甚至为负,因此是分散投资风险及规避尾部风险的重要手段,如2020年年初新冠肺炎疫情导致全球股票市场、债券市场、商品市场均发生了大幅回撤,如果在投资组合中加入套利交易,则可以对尾部风险进行极为有效的控制.
对价差的准确预测是跨期套利成功实施的关键所在,现有绝大部分文献及实际投资者均是利用价差均值回复原理的标准距离法设计策略,即当价差超过合理范围(常见的为均值±1倍或多倍标准差)的时候进行反向交易,待价差回到均值附近时进行平仓[5-7]. 随着机器学习模型在金融预测领域应用得越来越广泛、且预测精度高,众多学者和投资者利用机器学习模型对价差进行预测,并在预测价差超过一定阈值后进行交易,从而获得套利收益. 常用来进行套利交易的机器学习模型包括人工神经网络[8-12]、支持向量机[13-14]和随机森林[15]等.
但是,直接对价差进行预测无疑丧失了许多细节信息,如熊志斌[16]和周亮[17]对人民币汇率的研究均发现,用ARIMA模型预测线性部分、用机器学习模型预测非线性部分或残差部分能够实现对离岸人民币汇率更精准的预测. Huang等[18]提出的经验模态分解(EMD)模型在工程信号领域有着广泛的应用,该模型可以将信号分解为多个本征模函数(IMF)及残差项,每个本征模函数及残差项均有自身的特征益于分析及预测. 自EMD模型提出后,众多学者将该模型应用于经济问题分析,包括原油价格分析[19-20]、环境问题分析[21-23]等,相对于对原始数据的直接分析,利用分解信号进行分析的研究结果更为准确和稳健.
本文拟采用EMD模型对沪深300股指期货当月合约与下月合约的价差进行分解,并利用神经网络、支持向量机、随机森林以及ARIMA模型分别对高频和低频信号进行预测,再从预测准确性及套利绩效两个方面来评估模型的优劣. 相较于已有期货跨期套利的文献,本文的主要创新之处在于:①通过EMD模型对原始价差变动序列进行滚动分解,再利用各机器学习模型对分信号进行预测,相对于纯机器学习预测模型,对序列信号考虑得更加周全和完整,也大幅提高了模型的预测精度及套利绩效;②通过将多个机器学习模型及线性的时间序列模型进行比较及综合,既挑选出了更适用于跨期套利的模型,同时也将线性模型和非线性模型整合,在增加模型套利绩效的同时,也增加了机器学习模型的经济解释能力.
Research on Intertemporal Arbitrage Based on Machine Learning and Empirical Mode Decomposition
-
摘要: 采用滚动经验模态分解(EMD)方法对沪深300股指期货当月和下月合约的价差波动进行分解,分别利用Elman网络、随机森林(RF)、支持向量回归(SVM)3种机器学习模型及自回归移动平均模型(ARIMA)对不同频率信号进行分析,合成最终的预测结果,并根据预测结果设计跨期套利策略. 研究结果表明:SVM,RF和ARIMA模型的预测精确度相对Elman网络较高,所有模型均能取得较高的套利收益,将非线性模型和线性模型融合使用能够改善模型的风险控制能力;将机器学习预测与EMD分解技术相融合可以在不提高风险的同时大幅度提高模型的收益率,从而使得模型的夏普比率和索提诺比率均有较大幅度上涨;分样本检验、全IMF信号预测以及基于商品期货市场的套利分析,均证明融合EMD的机器学习模型可以获得比纯机器学习模型更优异的套利效果. 研究结论有助于促进人工智能与金融学的交叉融合研究,同时也为期货投资提供了理论和现实参考.Abstract: This paper used rolling EMD(Empirical Mode Decomposition) method to decompose the price gap of the CSI 300 stock index futures contract of the current month and the next month, and used three machine learning models (Elman network, RF, SVM) and ARIMA model to analyze and synthesize signals of different frequencies, and designed intertemporal arbitrage strategies based on the forecast results. The research results show that: the prediction accuracy of SVM, RF and ARIMA models is higher than that of Elman network. All models can achieve higher arbitrage returns, and the use of model fusion which combines liner and nonliner models can improve the risk control ability of the model. The combination of machine learning prediction and EMD decomposition technology can greatly increase the profitability of the model without increasing the risk, so that the Sharpe ratio and the Sotino ratio of the model are both larger. Sub-sample test, full IMF signal prediction and arbitrage analysis based on the commodity futures market have all proved that the machine learning model integrated with EMD can achieve better arbitrage effects than pure machine learning models. The research conclusions help to promote the cross-integration research of artificial intelligence and finance, and also provide theoretical and practical references for futures investment.
-
表 1 对价格变动序列的预测效果
模型 RMSE MAE Theil-U DAR ROS2 Elman 0.145 8 0.095 0 0.147 7 0.636 0 -0.001 0 RF 0.140 8 0.091 5 0.142 5 0.625 8 0.057 7 SVM 0.140 4 0.091 5 0.142 3 0.605 1 0.064 0 ARIMA 0.142 3 0.090 9 0.143 8 0.723 2 0.034 4 表 2 套利结果分析
指标 Elman RF SVM ARIMA 平均 综合 Panel A:α=1 年化收益率/% 36.04 44.82 30.39 46.29 41.14 43.77 波动率//% 29.62 32.36 14.74 30.44 32.65 27.10 下行波动率/% 15.74 15.03 6.09 13.57 15.84 11.10 最大回撤/% 25.04 22.91 7.43 19.60 31.77 13.05 夏普比率 1.115 4 1.292 4 1.857 9 1.422 2 1.168 3 1.504 4 索提诺比率 2.099 1 2.782 5 4.498 6 3.190 7 2.408 3 3.673 1 胜率/% 57.55 59.91 60.03 61.71 63.22 66.84 持仓时间占比/% 59.96 42.94 40.38 44.97 39.84 25.86 Panel B:α=4 年化收益率/% 22.59 22.24 13.46 29.37 29.75 22.97 波动率/% 26.03 23.28 10.17 25.63 24.50 20.46 下行波动率/% 13.79 12.48 3.29 10.23 9.04 8.04 最大回撤/% 21.40 22.91 5.66 15.85 11.07 11.07 夏普比率 0.752 3 0.826 4 1.028 5 1.028 8 1.091 6 0.975 8 索提诺比率 1.419 9 1.541 2 3.182 6 2.576 5 2.958 1 2.483 6 胜率/% 58.47 67.11 70.15 65.66 68.12 68.75 持仓时间占比/% 15.94 10.26 4.52 11.21 9.32 6.48 Panel C:α=8 年化收益率/% 13.70 13.16 6.93 15.43 14.21 13.75 波动率/% 21.41 18.28 7.33 21.56 17.81 17.24 下行波动率/% 8.84 8.60 0.01 8.38 7.66 7.32 最大回撤/% 13.90 13.13 0.02 11.07 11.07 11.07 夏普比率 0.499 8 0.555 7 0.536 9 0.576 4 0.629 1 0.623 3 索提诺比率 1.210 8 1.180 3 383.060 0 1.482 4 1.463 4 1.468 1 胜率/% 67.69 72.09 91.67 68.52 75.00 81.82 持仓时间占比/% 4.39 2.90 0.81 3.65 2.97 2.23 注:计算夏普比率时采用银行一年期定期存款利率作为无风险利率;索提诺比率是用超额收益除以下行标准差,相对夏普比率仅分母不同;下同. 表 3 EMD滚动套利结果
Panel A:预测结果 模型 RMSE MAE Theil-U DAR ROS2 Elman 0.192 8 0.094 6 0.187 9 0.639 6 -1.349 4 RF 0.099 5 0.061 3 0.100 9 0.685 3 0.096 9 SVM 0.098 0 0.060 5 0.099 7 0.664 4 0.119 7 ARIMA 0.095 8 0.059 0 0.097 0 0.757 7 0.152 8 Panel B:套利结果(α=1) 指标 RF SVM ARIMA 平均 综合 年化收益率/% 49.17 55.64 96.52 81.09 82.63 波动率/% 31.84 25.95 32.76 31.52 29.19 下行波动率/% 14.79 13.76 11.31 11.30 10.22 最大回撤/% 30.09 15.14 16.52 17.91 21.03 夏普比率 1.449 9 2.028 6 2.854 9 2.477 6 2.727 7 索提诺比率 3.121 2 3.826 2 8.271 1 6.909 6 7.790 3 胜率/% 59.73 63.14 63.70 63.73 65.02 持仓时间占比/% 49.97 48.55 57.66 50.64 32.82 表 4 分样本稳健性检验
指标 Panel A:机器学习(2014.7-2017.7) Panel B:机器学习+EMD(2014.7-2017.7) RF SVM ARIMA 平均 综合 RF SVM ARIMA 平均 综合 年化收益率/% 57.41 23.88 62.76 51.71 55.71 46.52 62.64 124.24 104.59 92.15 波动率/% 42.99 13.04 39.56 43.12 35.41 42.09 32.88 42.83 41.40 38.47 下行波动率/% 20.16 4.65 17.06 20.79 14.66 20.25 18.38 15.18 15.34 14.07 最大回撤/% 22.91 4.12 19.60 31.77 13.05 30.09 15.14 16.52 17.91 21.03 夏普比率 1.265 6 1.601 0 1.510 6 1.129 6 1.488 6 1.033 9 1.813 9 2.830 9 2.453 7 2.317 4 索提诺比率 2.699 6 4.493 4 3.502 4 2.342 7 3.596 3 2.149 0 3.243 9 7.985 7 6.623 8 6.335 6 胜率/% 60.32 62.02 61.02 62.69 66.96 58.02 63.16 61.04 62.41 60.77 持仓时间占比/% 49.73 27.73 49.60 44.67 29.87 54.00 40.53 61.60 53.20 34.67 指标 Panel C:机器学习(2017.8-2020.7) Panel D:机器学习+EMD(2017.8-2020.7) RF SVM ARIMA 平均 综合 RF SVM ARIMA 平均 综合 年化收益率/% 33.23 37.23 31.49 31.31 32.75 51.88 48.95 72.23 60.28 73.58 波动率/% 14.90 16.28 16.38 15.79 14.12 15.35 15.95 16.97 15.80 14.37 下行波动率/% 5.79 7.26 8.39 7.65 5.20 3.80 5.98 4.26 3.65 2.42 最大回撤/% 6.22 7.43 7.30 6.11 6.15 4.24 6.43 3.73 3.17 3.78 夏普比率 2.029 4 2.103 2 1.739 8 1.793 0 2.106 4 3.184 6 2.881 7 4.079 5 3.625 3 4.910 5 索提诺比率 5.225 5 4.716 5 3.396 8 3.699 9 5.721 4 12.846 3 7.683 0 16.252 0 15.676 7 29.164 0 胜率/% 59.32 58.97 62.59 63.92 66.67 61.79 63.13 66.84 65.24 69.91 持仓时间占比/% 35.98 53.28 40.16 34.84 21.72 45.83 56.69 53.55 48.02 30.87 表 5 基于EMD所有信号的套利结果
模型 Panel A:预测效果 RMSE MAE Theil-U DAR ROS2 RF 0.095 6 0.056 3 0.095 5 0.760 2 0.155 2 SVM 0.090 6 0.053 1 0.091 4 0.758 9 0.226 9 ARIMA 0.098 1 0.057 2 0.098 0 0.795 0 0.118 8 指标 Panel B:套利结果(α=1) RF SVM ARIMA 平均 综合 年化收益率/% 94.20 70.20 102.47 104.87 109.80 波动率/% 32.78 30.42 32.60 32.66 32.04 下行波动率/% 8.19 16.42 6.55 6.56 6.09 最大回撤/% 9.41 22.31 9.41 9.41 12.53 夏普比率 2.782 2 2.208 9 3.051 4 3.119 3 3.333 8 索提诺比率 11.129 3 4.093 6 15.191 5 15.531 0 17.543 1 胜率/% 73.46 73.48 74.15 75.02 77.25 持仓时间占比/% 82.17 81.23 81.77 82.17 68.26 表 6 螺纹钢期货机器学习+EMD套利
模型 Panel A:预测结果 RMSE MAE Theil-U DAR ROS2 RF 0.173 7 0.126 1 0.173 5 0.723 6 0.099 9 SVM 0.171 3 0.126 8 0.170 8 0.698 4 0.125 1 ARIMA 0.166 3 0.124 3 0.165 4 0.784 7 0.174 9 指标 Panel B:套利效果 RF SVM ARIMA 平均 综合 年化收益率/% 95.82 96.65 125.27 118.95 98.00 波动率/% 27.08 26.68 27.46 27.19 25.20 下行波动率/% 11.15 10.54 11.04 11.10 8.88 最大回撤/% 6.95 11.14 11.33 9.32 5.77 夏普比率 3.427 9 3.510 0 4.452 6 4.263 7 3.769 9 索提诺比率 8.327 7 8.886 1 11.071 3 10.444 3 10.700 2 胜率/% 56.76 54.76 57.78 58.06 59.12 持仓时间占比/% 76.63 76.46 80.91 79.62 74.93 -
[1] 杨云飞, 鲍玉昆, 胡忠义, 等. 基于EMD和SVMs的原油价格预测方法[J]. 管理学报, 2010, 7(12): 1884-1889. doi: 10.3969/j.issn.1672-884X.2010.12.023 [2] JACOBS H, WEBER M. On the Determinants of Pairs Trading Profitability[J]. Journal of Financial Markets, 2015, 23: 75-97. doi: 10.1016/j.finmar.2014.12.001 [3] 张波, 刘晓倩. 基于EGARCH-M模型的沪深300股指期货跨期套利研究——一种修正的协整关系[J]. 统计与信息论坛, 2017, 32(4): 34-40. doi: 10.3969/j.issn.1007-3116.2017.04.006 [4] 刘海飞, 李伟, 李冬昕, 等. 股指期货跨期套利自适应机制理论与实证——基于沪深300股指期货高频数据的证据[J]. 华东经济管理, 2018, 32(11): 102-111. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-HDJJ201811015.htm [5] KRAUSS C, DO X A, HUCK N. Deep Neural Networks, Gradient-Boosted Trees, Random Forests: Statistical Arbitrage on the S&P 500[J]. European Journal of Operational Research, 2017, 259(2): 689-702. doi: 10.1016/j.ejor.2016.10.031 [6] HAIN M, HESS J, UHRIG-HOMBURG M. Relative Value Arbitrage in European Commodity Markets[J]. Energy Economics, 2018, 69: 140-154. doi: 10.1016/j.eneco.2017.11.005 [7] 邢亚丹, 劳兰珺, 孙谦. 跨期套利收益与风险来源探究——基于沪深300股指期货高频跨期套利策略[J]. 投资研究, 2015, 34(10): 98-109. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-TZYJ201510008.htm [8] doi: http://www.ljmu.ac.uk/AFE/AFE_docs/Soybean_crush_spread.pdf?origin=publication_detail DUNIS C L, LAWS J, EVANS B. Modelling and Trading the Soybean-Oil Crush Spread with Recurrent and Higher Order Networks: a Comparative Analysis[J]. Neural Network World, 2006, 16(3): 193-213. [9] HUCK N. Pairs Selection and Outranking: an Application to the S&P 100 Index[J]. European Journal of Operational Research, 2009, 196(2): 819-825. doi: 10.1016/j.ejor.2008.03.025 [10] WILES P S, ENKE D. Nonlinear Modeling Using Neural Networks for Trading the Soybean Complex[J]. Procedia Computer Science, 2014, 36: 234-239. doi: 10.1016/j.procs.2014.09.085 [11] 王文波, 费浦生, 羿旭明. 基于EMD与神经网络的中国股票市场预测[J]. 系统工程理论与实践, 2010, 30(6): 1027-1033. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-XTLL201006012.htm [12] 刘建和, 梁仁方, 王玉斌, 等. 大豆期货合约均值回归套利策略和Elman神经网络套利策略对比研究[J]. 湖南财政经济学院学报, 2016(3): 8-15. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-HNCJ201603003.htm [13] 邓亚东, 王波. 基于高斯核支持向量机的商品期货市场套利研究[J]. 经济数学, 2018, 35(1): 27-30. doi: 10.3969/j.issn.1007-1660.2018.01.007 [14] 周亮. 基于价差预测的商品期货跨期套利研究[J]. 金融理论与实践, 2019(7): 84-92. doi: 10.3969/j.issn.1003-4625.2019.07.012 [15] HUCK N. Large Data Sets and Machine Learning: Applications to Statistical Arbitrage[J]. European Journal of Operational Research, 2019, 278(1): 330-342. doi: 10.1016/j.ejor.2019.04.013 [16] 熊志斌. ARIMA融合神经网络的人民币汇率预测模型研究[J]. 数量经济技术经济研究, 2011, 28(6): 64-76. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SLJY201106006.htm [17] 周亮. 机器学习融合ARIMA模型的离岸人民币汇率预测[J]. 统计学报, 2020, 1(2): 48-56. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SCGD202002007.htm [18] HUANG N E, SHEN Z, LONG S R, et al. The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and Non-Stationary Time Series Analysis[J]. Proceedings of the Royal Society of London Series A: Mathematical, Physical and Engineering Sciences, 1998, 454(1971): 903-995. doi: 10.1098/rspa.1998.0193 [19] ZHANG X, LAI K K, WANG S Y. A New Approach for Crude Oil Price Analysis Based on Empirical Mode Decomposition[J]. Energy Economics, 2008, 30(3): 905-918. doi: 10.1016/j.eneco.2007.02.012 [20] 杨云飞, 鲍玉昆, 胡忠义, 等. 基于EMD和SVMs的原油价格预测方法[J]. 管理学报, 2010, 7(12): 1884-1889. doi: 10.3969/j.issn.1672-884X.2010.12.023 [21] 米子川, 姜天英. 煤炭大数据指数编制及经验模态分解模型研究[J]. 统计与信息论坛, 2016, 31(8): 71-77. doi: 10.3969/j.issn.1007-3116.2016.08.013 [22] doi: http://www.sciencedirect.com/science/article/pii/S1568494620301010 LI H T, BAI J C, CUI X, et al. A New Secondary Decomposition-Ensemble Approach with Cuckoo Search Optimization for Air Cargo Forecasting[J]. Applied Soft Computing, 2020, 90(1): 1-19. [23] SUN S L, WANG S Y, WEI Y J. A New Multiscale Decomposition Ensemble Approach for Forecasting Exchange Rates[J]. Economic Modelling, 2019, 81: 49-58. doi: 10.1016/j.econmod.2018.12.013 [24] 吴曼曼, 徐建新. 基于EMD改进的Elman神经网络对股票的短期预测模型[J]. 计算机工程与科学, 2019, 41(6): 1119-1127. doi: 10.3969/j.issn.1007-130X.2019.06.022 [25] HUANG N E, WU M L C, LONG S R, et al. A Confidence Limit for the Empirical Mode Decomposition and Hilbert Spectral Analysis[J]. Proceedings of the Royal Society of London Series A: Mathematical, Physical and Engineering Sciences, 2003, 459(2037): 2317-2345. doi: 10.1098/rspa.2003.1123