函数型非参数部分自回归模型及其在金融中的应用

王咪咪; 丁辉

doi:10.13718/j.cnki.xdzk.2017.11.014

摘要: 结合金融市场中的滞后现象以及函数型协变量和响应变量之间的非线性关系提出了函数型非参数部分自回归模型，接着使用profile最小二乘方法和非参数核估计方法给出了该模型的估计，并通过统计模拟验证了该方法的有效性，最后通过上证指数的实例验证了模型的预测能力.

Abstract: Functional data analysis is an important method of analyzing high-frequency data of the financial market. Combining the lag phenomenon on the financial market and the nonlinear relationship between the functional covariate and the response variable, this paper proposes a functional nonparametric partial auto-regression model. Then, the profile least square method and the nonparametric kernel estimation are used to obtain the estimators of the model. Statistical simulation verified its validity. A real example about Shanghai Stock Index data is used to demonstrate the good prediction ability of the model.

Key words:

functional data /
high frequency data /
partial nonparametric auto-regression model /
kernel estimation .

全文HTML

函数型数据分析是处理和分析高频数据的一个很重要的工具.国内外已经有一些文献借助于函数型数据分析方法来研究金融市场中的内在规律^[1-5].但是已有成果都只考虑了函数型协变量对响应变量的影响而没有考虑响应变量的历史时刻对相应变量当前时刻的影响.本文借用自回归模型的思想，在函数型非参数模型的基础上添加自回归项来体现响应变量的历史时刻对响应变量当前时刻的影响，即函数型非参数部分自回归模型，该模型具有广泛的适用性.

1. 函数型非参数部分自回归模型

函数型非参数部分自回归模型的形式如下：

其中：X(t)为定义在区间I上平方可积且完全观测的函数型协变量，g(·)为平方可积空间L²到实数域$ \mathbb{R}$的实值函数，即g：L²→ $ \mathbb{R}$，Y为标量，p为该模型的滞后阶数，ε是误差项，满足Eε=0，Var ε=σ².该模型克服了函数型协变量和响应变量的线性约束，且函数型线性模型是该模型的一个特例(即模型没有滞后项φ₁=…=φ_p=0且g(X(t))= $ \int_\mathit{I} \mathit{X} $(t)β(t)dt)，自回归模型也是该模型的一个特例(即g(X(t))≡0).因此，该模型具有很强的灵活性，在实际研究中有着重要意义.

我们使用profile最小二乘估计与非参数核估计相结合的方法对模型进行估计，具体步骤如下：

令

则模型(1)转化为

利用Nadaraya-Watson核估计^[6]，可得

其中

K(·)是一元核函数，h是窗宽，d(·，·)是两个函数型变量的一个距离度量(例如：d(X(t)，Z(t))= {$ \int_\mathit{I}$(X(t)-Z(t))²$ {\rm{d}}\mathit{t}{{\rm{\} }}^{\frac{1}{2}}}$).于是，由profile最小二乘原理，我们可以通过最小化

得到参数φ₁，…，φ_p的估计.

令

其中

I为n-p阶单位矩阵.则(4)式可以简化为(Y^*-Z^*TΦ)^T(Y^*-Z^*TΦ)，于是

将(5)式代回(3)式可得

于是我们得到非参数函数g(·)的估计.在求解最小二乘估计的时候采用YUAN和WEI的改进的BFGS算法^[7].当然，在估计时涉及到参数h和p的选取，关于h和p的选择有很多准则(例如AIC准则、BIC准则、GCV准则和交叉核实准则)，我们使用交叉核实准则来选取这两个参数.函数型非参数部分自回归模型由于克服了函数型协变量和响应变量的线性约束并且又体现了标量型响应变量的历史时刻影响的自回归形式，因此模型本身具有较大的适用性和灵活性.

2. 大样本性质

为了给出估计的大样本性质，我们引入记号令φ_k⁰表示φ_k的真值，

假设下列条件成立：

1) 有界函数g(·)∈C⁰，其中C⁰={g：L²→ $ \mathbb{R}$，$ \mathop {{\rm{lim}}}\limits_{\mathit{d}\left( {\mathit{x}\left( \mathit{t} \right)} , \mathit{x'}\left( \mathit{t} \right) \to 0\right)} $g(x′(t))=g(x(t))}；

2) ∀ε＞0，P(X(t)∈B(x(t)，ε))=φ_x(t)(ε)＞0；

3) 窗宽参数h满足$ \mathop {\lim }\limits_{\mathit{n} \to \infty } $h=0且$ \mathop {\lim }\limits_{\mathit{n} \to \infty } \frac{{{\rm{log}}\left( \mathit{n} \right)}}{{\mathit{n}{\mathit{\varphi }_{\mathit{x}\left( \mathit{t} \right)}}\left( \mathit{\varepsilon } \right)}} = 0$；

4) 核函数K(·)在[0, 1]上有紧支撑，其导数K′(·)存在，且存在常数c₁＜c₂＜0，使得c₁≤K′≤c₂；

5) ∀m≥2，E(|Y_i-$ \sum\limits_{\mathit{k}{\rm{ = 1}}}^\mathit{p} {{\mathit{\varphi }_\mathit{k}}} $Y_i-k|^m|X(t)=x(t))＜σ_m(x(t))＜∞，其中σ_m(x(t))关于x(t)连续；

6) 存在常数λ＞0，使得E(|ε_i|^2+λ)＜∞；

7) $ \mathop {\lim }\limits_{\mathit{n} \to \infty } $D_n= D，其中D_n= $ \frac{1}{{\mathit{n} - \mathit{p}}}\sum\limits_{\mathit{i} = \mathit{p} + 1}^\mathit{n} {{\mathit{\boldsymbol{\xi }}_\mathit{i}}\mathit{\boldsymbol{\xi }}_\mathit{i}^{\rm{T}}} $，ξ_i=(Y_i-1，…，Y_i-p)^T，i=p+1，…，n，D是一个非负定阵.

则有$ {{{\mathit{\hat{\varphi }}}}_{\mathit{k}}}\xrightarrow{\mathit{P}}\mathit{\varphi }_{\mathit{k}}^{0}$.

证由假设条件1)-5)采用类似FERRATY和VIEU的定理6.1^[8]证明方法可得

其中a.co.代表几乎完全收敛.则

其中

由(7)式及其假设条件5)和6)，我们有

令

易得

又L′_n(Φ)为凸函数，故

对于任意的紧集Ω成立，且$ {\mathit{\boldsymbol{ \boldsymbol{\hat \varPhi} }}}$=O_P(1)，因此$ {\mathit{\boldsymbol{ \boldsymbol{\hat \varPhi} }}}$$ \xrightarrow{\mathit{P}}{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}^{\rm{0}}}$，进而$ {{{\mathit{\hat{\varphi }}}}_{\mathit{k}}}\xrightarrow{\mathit{P}}\mathit{\varphi }_{\mathit{k}}^{0}$.

3. 统计模拟

为了说明估计的有效性，我们下面进行统计模拟.按照下面的模型来生成数据：

其中

对于$ \int_{0}^{1}{{}}$X(t)β(t)dt部分，我们按照下面的方式随机生成函数型数据和斜率函数，即

θ_ik独立且服从区间($ \left( -\sqrt{3}, \sqrt{3} \right)$)上的均匀分布；Y₁=0.6，Y₂=0.3，Y₃=0.4，误差项ε_i独立且均服从正态分布N(0，0.1²).

我们考虑样本量n=100，n=200和n=300这3种情况，并且假设X_i(t)在[0, 1]区间上的100个等间隔的时间点被完全观测到.通过使用交叉核实准则，我们得到滞后阶数$ {\mathit{\hat{p}}}$ =3，窗宽参数$ {\mathit{\hat{h}}}$=0.526，参数φ₁，…，φ₃的估计值的好坏我们通过估计均值和标准差来体现，非参数g(X(t))估计的好坏我们通过均方误差RASE来体现，其中

由表 1可以看出，参数φ₁，…，φ₃的估计的偏差与标准差及其非参数g(X(t))估计均方误差RASE随着样本量的增加而减少.模拟说明我们的估计方法是有效的.

4. 实证分析

我们对上证指数数据进行函数型非参数部分自回归模型建模来说明我们模型的优良性.选取自2015年6月1日至2016年3月1日共183个交易日的上证指数数据.此数据含有上证指数开盘价Y，每个交易日每5分钟的上证指数价格X(t)，因交易日内的交易时间均为9：30-11：30及13：00-15：00，故每个交易日每5 min的上证指数数据共48个.首先对数据进行预处理：将Y和X(t)取对数.该实证分析的目的是找出相对合适的模型对开盘价进行预测.由于上证指数第i天开盘价Y_i受到历史时期开盘价格Y_i-1，…，Y_i-p的影响，且Y_i与第i天每5 min上证价格X_i(t)之间不一定能够满足线性关系，故利用函数型非参数部分自回归模型来刻画Y_i与X_i(t)和Y_i-1，…，Y_i-p的关系，即

为了比较不同的模型对开盘价格的预测能力，考虑4个模型：自回归模型、函数型线性模型、函数型部分线性自回归模型、函数型非参数部分自回归模型.我们使用滚动预测法来体现模型的预测效果：从前173个数据用作训练集去预测第174个数据，然后再把前174个数据用作训练集，预测第175个数据，以此类推，直至前182个数据用作训练集，预测第183个数据结束.我们使用平均预测误差

作为比较不同模型的预测好坏的准则. 4个模型及其对应的平均预测误差结果见表 2.

由表 2可见函数型非参数部分自回归模型的平均预测误差最小，比函数型部分线性自回归模型提高了12.6%，比线性模型提高了23.7%，比自回归模型提高了95%.故这4个模型中函数型非参数部分线性模型的预测效果最好，因此该模型可以为处理和分析金融高频数据提供新的分析方法和思路.

5. 总结

函数型非参数部分自回归模型克服了函数型协变量与响应变量的线性约束，同时引入自回归效应，用来刻画响应变量的历史时刻对响应变量的当前时刻的影响.该模型是函数型线性模型和函数型部分线性自回归模型及其自回归模型的一种推广，具有很大的灵活性和适用性.因此函数型非参数部分自回归模型可以为今后研究金融市场中高频数据提供一种新的思路和模式.

参考文献 (9)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

n	均值			均方误差
n	$ {{{\mathit{\hat{\varphi }}}}_{\rm{1}}}$	$ {{{\mathit{\hat{\varphi }}}}_{\rm{2}}}$	$ {{{\mathit{\hat{\varphi }}}}_{\rm{3}}}$	$ \mathit{\hat{g}}\left( \mathit{\mu } \right)$
100	0.381(0.104)	-0.319(0.105)	0.260(0.116)	0.513(0.024)
200	0.395(0.073)	-0.307(0.063)	0.284(0.082)	0.511(0.019)
300	0.401(0.059)	-0.306(0.060)	0.294(0.069)	0.510(0.014)
注：括号内为标准差.

模型	平均预测误差/ ×10^-5
$ {{\mathit{Y}}_{\mathit{i}}}=\mathit{\alpha }+\int_{0}^{1}{{{\mathit{X}}_{\mathit{i}}}\left( \mathit{t} \right)\mathit{\beta }\left( \mathit{t} \right)\rm{d}\mathit{t}+{{\mathit{\varepsilon }}_{\mathit{i}}}}$	5.58
$ {{\mathit{Y}}_{\mathit{i}}}=\sum\limits_{\mathit{k}\rm{=1}}^{\mathit{p}}{{{\mathit{\varphi }}_{\mathit{k}}}{{\mathit{Y}}_{\mathit{i}-\mathit{k}}}\rm{+}{{\mathit{\varepsilon }}_{\mathit{i}}}}$	93.9
$ {{\mathit{Y}}_{\mathit{i}}}=\mathit{\alpha }+\int_{0}^{1}{{{\mathit{X}}_{\mathit{i}}}\left( \mathit{t} \right)\mathit{\beta }\left( \mathit{t} \right)\rm{d}\mathit{t}+\sum\limits_{\mathit{k}\rm{=1}}^{\mathit{p}}{{{\mathit{\varphi }}_{\mathit{k}}}{{\mathit{Y}}_{\mathit{i}-\mathit{k}}}\rm{+}{{\mathit{\varepsilon }}_{\mathit{i}}}}}$	4.91
$ {{\mathit{Y}}_{\mathit{i}}}\rm{=}\mathit{g}\left( {{\mathit{X}}_{\mathit{i}}}\left( \mathit{t} \right) \right)+\sum\limits_{\mathit{k}\rm{=1}}^{\mathit{p}}{{{\mathit{\varphi }}_{\mathit{k}}}{{\mathit{Y}}_{\mathit{i}-\mathit{k}}}\rm{+}{{\mathit{\varepsilon }}_{\mathit{i}}}}$	4.29

[1]	程丽娟.上证指数的函数型主成分分析预测[J].岭南师范学院学报, 2016, 37(3): 39-43. doi: http://d.wanfangdata.com.cn/Periodical/zjsfxyxb201603005
[2]	蔺顺锋, 易丹辉, 肖宏伟.基于函数型数据分析视角的我国副省级城市年平均工资差异研究[J].现代管理科学, 2015(3): 27-29. doi: http://d.wanfangdata.com.cn/Periodical/xdglkx2015030009
[3]	龙文, 李楠, 王惠文, 等.金融危机过程中不同类型国家经济发展的差异性比较——基于函数数据分析方法[J].管理评论, 2014, 26(3): 3-10. doi: http://d.wanfangdata.com.cn/Periodical/glpl201403001
[4]	许梁, 孙涛, 徐箭, 等.基于函数型非参数回归模型的中长期日负荷曲线预测[J].电力自动化设备, 2015, 35(7): 89-94. doi: http://d.wanfangdata.com.cn/Periodical/dlzdhsb201507014
[5]	马晓波, 冯凌秉, 李玮.高频数据日内波动特征的函数型分析[J].企业导报, 2011(22): 76-77. doi: http://d.wanfangdata.com.cn/Periodical/qydb201122055
[6]	WASSERMAN L. All of Nonparametric Statistics [M]. New York: Springer, 2006.
[7]	YUAN G, WEI Z. Non Monotone Backtracking Inexact BFGS Method for Regression Analysis [J]. Communications in Statistics-Theory and Methods, 2013, 42(2): 214-238. doi: 10.1080/03610926.2011.579370
[8]	FERRATY F, VIEU P. Nonparametric Functional Data Analysis: Theory and Practice [M]. New York: Springer, 2006.
[9]	RAMSAY J O, SILVERMAN B W. Functional Data Analysis [M]. New York: Springer, 1997.

留言板