-
函数型数据分析是处理和分析高频数据的一个很重要的工具.国内外已经有一些文献借助于函数型数据分析方法来研究金融市场中的内在规律[1-5].但是已有成果都只考虑了函数型协变量对响应变量的影响而没有考虑响应变量的历史时刻对相应变量当前时刻的影响.本文借用自回归模型的思想,在函数型非参数模型的基础上添加自回归项来体现响应变量的历史时刻对响应变量当前时刻的影响,即函数型非参数部分自回归模型,该模型具有广泛的适用性.
全文HTML
-
函数型非参数部分自回归模型的形式如下:
其中:X(t)为定义在区间I上平方可积且完全观测的函数型协变量,g(·)为平方可积空间L2到实数域
$ \mathbb{R}$ 的实值函数,即g:L2→$ \mathbb{R}$ ,Y为标量,p为该模型的滞后阶数,ε是误差项,满足Eε=0,Var ε=σ2.该模型克服了函数型协变量和响应变量的线性约束,且函数型线性模型是该模型的一个特例(即模型没有滞后项φ1=…=φp=0且g(X(t))=$ \int_\mathit{I} \mathit{X} $ (t)β(t)dt),自回归模型也是该模型的一个特例(即g(X(t))≡0).因此,该模型具有很强的灵活性,在实际研究中有着重要意义.我们使用profile最小二乘估计与非参数核估计相结合的方法对模型进行估计,具体步骤如下:
令
则模型(1)转化为
利用Nadaraya-Watson核估计[6],可得
其中
K(·)是一元核函数,h是窗宽,d(·,·)是两个函数型变量的一个距离度量(例如:d(X(t),Z(t))= {
$ \int_\mathit{I}$ (X(t)-Z(t))2$ {\rm{d}}\mathit{t}{{\rm{\} }}^{\frac{1}{2}}}$ ).于是,由profile最小二乘原理,我们可以通过最小化得到参数φ1,…,φp的估计.
令
其中
I为n-p阶单位矩阵.则(4)式可以简化为(Y*-Z*TΦ)T(Y*-Z*TΦ),于是
将(5)式代回(3)式可得
于是我们得到非参数函数g(·)的估计.在求解最小二乘估计的时候采用YUAN和WEI的改进的BFGS算法[7].当然,在估计时涉及到参数h和p的选取,关于h和p的选择有很多准则(例如AIC准则、BIC准则、GCV准则和交叉核实准则),我们使用交叉核实准则来选取这两个参数.函数型非参数部分自回归模型由于克服了函数型协变量和响应变量的线性约束并且又体现了标量型响应变量的历史时刻影响的自回归形式,因此模型本身具有较大的适用性和灵活性.
-
为了给出估计的大样本性质,我们引入记号令φk0表示φk的真值,
假设下列条件成立:
1) 有界函数g(·)∈C0,其中C0={g:L2→
$ \mathbb{R}$ ,$ \mathop {{\rm{lim}}}\limits_{\mathit{d}\left( {\mathit{x}\left( \mathit{t} \right)} , \mathit{x'}\left( \mathit{t} \right) \to 0\right)} $ g(x′(t))=g(x(t))};2) ∀ε>0,P(X(t)∈B(x(t),ε))=φx(t)(ε)>0;
3) 窗宽参数h满足
$ \mathop {\lim }\limits_{\mathit{n} \to \infty } $ h=0且$ \mathop {\lim }\limits_{\mathit{n} \to \infty } \frac{{{\rm{log}}\left( \mathit{n} \right)}}{{\mathit{n}{\mathit{\varphi }_{\mathit{x}\left( \mathit{t} \right)}}\left( \mathit{\varepsilon } \right)}} = 0$ ;4) 核函数K(·)在[0, 1]上有紧支撑,其导数K′(·)存在,且存在常数c1<c2<0,使得c1≤K′≤c2;
5) ∀m≥2,E(|Yi-
$ \sum\limits_{\mathit{k}{\rm{ = 1}}}^\mathit{p} {{\mathit{\varphi }_\mathit{k}}} $ Yi-k|m|X(t)=x(t))<σm(x(t))<∞,其中σm(x(t))关于x(t)连续;6) 存在常数λ>0,使得E(|εi|2+λ)<∞;
7)
$ \mathop {\lim }\limits_{\mathit{n} \to \infty } $ Dn= D,其中Dn=$ \frac{1}{{\mathit{n} - \mathit{p}}}\sum\limits_{\mathit{i} = \mathit{p} + 1}^\mathit{n} {{\mathit{\boldsymbol{\xi }}_\mathit{i}}\mathit{\boldsymbol{\xi }}_\mathit{i}^{\rm{T}}} $ ,ξi=(Yi-1,…,Yi-p)T,i=p+1,…,n,D是一个非负定阵.则有
$ {{{\mathit{\hat{\varphi }}}}_{\mathit{k}}}\xrightarrow{\mathit{P}}\mathit{\varphi }_{\mathit{k}}^{0}$ .证 由假设条件1)-5)采用类似FERRATY和VIEU的定理6.1[8]证明方法可得
其中a.co.代表几乎完全收敛.则
其中
由(7)式及其假设条件5)和6),我们有
令
易得
又L′n(Φ)为凸函数,故
对于任意的紧集Ω成立,且
$ {\mathit{\boldsymbol{ \boldsymbol{\hat \varPhi} }}}$ =OP(1),因此$ {\mathit{\boldsymbol{ \boldsymbol{\hat \varPhi} }}}$ $ \xrightarrow{\mathit{P}}{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}^{\rm{0}}}$ ,进而$ {{{\mathit{\hat{\varphi }}}}_{\mathit{k}}}\xrightarrow{\mathit{P}}\mathit{\varphi }_{\mathit{k}}^{0}$ .
-
为了说明估计的有效性,我们下面进行统计模拟.按照下面的模型来生成数据:
其中
对于
$ \int_{0}^{1}{{}}$ X(t)β(t)dt部分,我们按照下面的方式随机生成函数型数据和斜率函数,即θik独立且服从区间(
$ \left( -\sqrt{3}, \sqrt{3} \right)$ )上的均匀分布;Y1=0.6,Y2=0.3,Y3=0.4,误差项εi独立且均服从正态分布N(0,0.12).我们考虑样本量n=100,n=200和n=300这3种情况,并且假设Xi(t)在[0, 1]区间上的100个等间隔的时间点被完全观测到.通过使用交叉核实准则,我们得到滞后阶数
$ {\mathit{\hat{p}}}$ =3,窗宽参数$ {\mathit{\hat{h}}}$ =0.526,参数φ1,…,φ3的估计值的好坏我们通过估计均值和标准差来体现,非参数g(X(t))估计的好坏我们通过均方误差RASE来体现,其中由表 1可以看出,参数φ1,…,φ3的估计的偏差与标准差及其非参数g(X(t))估计均方误差RASE随着样本量的增加而减少.模拟说明我们的估计方法是有效的.
-
我们对上证指数数据进行函数型非参数部分自回归模型建模来说明我们模型的优良性.选取自2015年6月1日至2016年3月1日共183个交易日的上证指数数据.此数据含有上证指数开盘价Y,每个交易日每5分钟的上证指数价格X(t),因交易日内的交易时间均为9:30-11:30及13:00-15:00,故每个交易日每5 min的上证指数数据共48个.首先对数据进行预处理:将Y和X(t)取对数.该实证分析的目的是找出相对合适的模型对开盘价进行预测.由于上证指数第i天开盘价Yi受到历史时期开盘价格Yi-1,…,Yi-p的影响,且Yi与第i天每5 min上证价格Xi(t)之间不一定能够满足线性关系,故利用函数型非参数部分自回归模型来刻画Yi与Xi(t)和Yi-1,…,Yi-p的关系,即
为了比较不同的模型对开盘价格的预测能力,考虑4个模型:自回归模型、函数型线性模型、函数型部分线性自回归模型、函数型非参数部分自回归模型.我们使用滚动预测法来体现模型的预测效果:从前173个数据用作训练集去预测第174个数据,然后再把前174个数据用作训练集,预测第175个数据,以此类推,直至前182个数据用作训练集,预测第183个数据结束.我们使用平均预测误差
作为比较不同模型的预测好坏的准则. 4个模型及其对应的平均预测误差结果见表 2.
由表 2可见函数型非参数部分自回归模型的平均预测误差最小,比函数型部分线性自回归模型提高了12.6%,比线性模型提高了23.7%,比自回归模型提高了95%.故这4个模型中函数型非参数部分线性模型的预测效果最好,因此该模型可以为处理和分析金融高频数据提供新的分析方法和思路.
-
函数型非参数部分自回归模型克服了函数型协变量与响应变量的线性约束,同时引入自回归效应,用来刻画响应变量的历史时刻对响应变量的当前时刻的影响.该模型是函数型线性模型和函数型部分线性自回归模型及其自回归模型的一种推广,具有很大的灵活性和适用性.因此函数型非参数部分自回归模型可以为今后研究金融市场中高频数据提供一种新的思路和模式.