-
有效市场假说是20世纪70年代提出的,指的是资产价格能够及时反映市场上的所有信息,但是在最近一些年里该假说受到了全世界研究者的挑战.学者们发现了很多市场异象,并建立了资本资产定价模型(CAPM)来描述,模型中常见的因子包括价值效应[1]、规模效应[2]、动量效应[3]、流动性效应[4]、股票发行效应[5]、波动率效应[6]等.之后大量学者在资本资产定价模型的基础上,建立了多因子选股模型来构造投资组合,证明了这些因子在实践中的有效性.这些模型大多是建立在均值回归基础上的.均值回归要求变量符合正态分布和同方差的原假设,但是金融市场上往往存在着异方差现象,且价格序列分布往往不是正态的,因此使用均值回归来进行拟合会导致结果与现实有所偏差.在这种状况下,分位数回归的优势便凸显了出来,其最大的优势就是可以对分布的任何一个位置(分位点)建立回归模型,研究变量之间的关系,跟均值回归只能得到单个预测值不同,分位数回归可以通过给予数据不同的权重得到一组预测值.当数据出现尖峰或者厚尾的形态以及显著的异方差时,分位数回归更加稳健.因此,笔者拟采用分位数回归方法研究规模、股价、市盈率、动量、换手率和波动率等因子的有效性,并选取最合适的分位点构造多因子选股策略,并通过实证检验验证策略的有效性.结果发现多因子选股模型表现出优于OLS回归模型的投资效果,规模-股价模型在样本间可以获得43.17%的年化收益率,而市净率-动量-换手率因子选股模型可以获得18.48%的年化收益率.由于分位数回归在发掘因子使用范围时具有优势,而现有研究对此涉及得又较少,故笔者的研究对于丰富金融投资理论具有一定的参考价值,同时对于金融投资实践也有着重要的指导意义.
全文HTML
-
国内外大量文献研究了股票基本面及动量等信息对股票收益率的影响,最经典的就是Fama等[7]提出的三因子模型,他们将股票相对于无风险收益的超额收益归类到市场β(股市整体收益率超过无风险收益率的比率)、规模效应(SMB,小规模股票收益率超过大规模股票收益率的比率)和价值效应(HML,高账面市值比股票收益率超过低账面市值比股票收益率的比率)3个因子.在此之后,Liew等[8]对10个发达国家股票市场进行了研究,发现规模效应和价值效应对股票未来收益率具有很好的预测作用. Chan等[9]的研究同样发现价值股的平均收益率要超过成长股. Horowitz等[10]基于美国股票市场1963-1981年数据的研究证明了规模效应的存在性. Griffin等[11]、Rouwenhorst[12-13]在他们的早期实证研究中考察了股票动量信息在发展中国家股票市场的作用,他们发现过去一年里涨幅更高的股票在接下来一年里的表现也会超过过去一年里表现较差的股票(也称为动量效应).在Cakici等[14]的近期研究中,他们考察了亚洲、东欧及拉丁美洲3个发展中地区股票市场的价值效应及动量效应,结果发现在亚洲和拉丁美洲存在着很强的价值效应和动量效应,拥有高价值和高动量的股票在接下来的一段时间内会表现得更好.很多基于美国股票市场的研究发现了低波动率股票比高波动率股票能够获得更高的收益. Clarke等[15]发现基于美国股市1 000个最大市值的股票所构造的最小方差组合,能够减少25%的总体波动率,同时获得超过市场基准的投资收益. Ang等[16]基于1963-2000年的美国股市数据进行研究后发现,高波动率的股票往往会获得不对称的低收益. Blitz等[17]采用短期波动率(1个月)和长期波动率(36个月)研究了欧洲和日本市场的波动率异象,结果发现买入低波动股票率卖出高波动率股票的对冲策略可以获得12%的年化收益率,并且还发现了波动率效应不能被常见的风险定价模型所解释. Wang等[18]的研究也发现波动率与股票的横截面收益率之间具有显著的相互影响.
国内学者方面,吴世农等[19]的早期研究中发现中国股市存在显著的账面市值比效应和规模效应.田利辉等[20]对比检验了中美两国股票组合同期收益率,结果发现中国股市系统性风险突出,存在着市值规模效应,但账面市值比效应并不显著.曾贵等[21]研究表明,基于股票价值的投资在我国具有普适性.高春亭等[22]研发发现,规模、B/M、盈利和投资4个因素在解释个股横截面收益差异上的显著性依次降低,使用五因子资产定价模型能较好地拟合这些特征,而且在表现上也优于三因子资产定价模型.除此以外,张峥等[23]研究发现,中国股票市场股票换手率与横截面股票收益之间存在着负相关关系.周亮[24-25]发现,规模、股价、股东人数变动、换手率及毛利率5个指标对股票收益有显著影响,并且在2015年股灾发生后估值因子在投资策略中的重要性越来越强,规模因子的重要性则有所降低.在对动量效应的检验上,高秋明等[26]发现我国A股市场不存在显著的月度频率上的动量效应,而当形成期为2~4周、持有期为1~3周时则存在稳定的动量收益.舒建平等[27]发现,深圳A股市场的动量效应与反转效应存在类似的周期性相互演化规律,但演化的周期长度并不固定.但鲁臻等[28]的文章则发现,中国股市的反转效应相对于惯性效应要更明显一些.
综上可以看到,国内外学者对影响股票收益率的基本面及技术面因子进行了大量而深入的研究,常被考察到的因子有规模、价格、估值、流动性、波动率、动量等,主要采用的方式是按因子高低对股票进行分组,并比较不同组别之间的收益率之差,再将其与常用的风险因子进行回归以判断因子的有效性.但是,将分位数回归方法与因子结合起来考察的很少,考虑到分位数回归能够有效规避金融市场上的异方差性和非正态分布等特性,因此研究分位数回归在多因子选股中的应用具有重要的理论和现实意义.
-
分位数回归最早由Roger等[29]于1978年提出,它提供了回归变量X和因变量Y的分位数之间线性关系的估计方法.相对于最小二乘估计,分位数回归模型具有4个方面的优势[30]:①分位数模型特别适合具有异方差性的模型;②能给出条件分布的大体特征;③在扰动项非正态的情形下,分位数估计量可能比最小二乘估计量更为有效;④分位数回归时通过使加权误差绝对值之和最小得到参数的估计,估计量不容易受到异常值的影响,从而估计更加稳健.
对一个连续随机变量y,如果y≤Q(τ)的概率是τ,则称y的τ分位数值是Q(τ);设随机变量Y的分布函数为F(y)=P(Y≤y),则Y的第τ分位数为Q(τ)=inf{y:F(y)≥τ}(0<τ<1).
对于一般模型
其中yi为被解释变量,xi为k×1的行向量,βτ为k×1的行向量,表示对应于被解释变量第τ分位数的各解释变量的回归系数,ατi为截距项,μτi为随机误差项.现假设Y的条件分位数由k个解释变量组成的矩阵X现行表示
式中,
${x_i} = {\left({{x_{1i}}, {x_{2i}}, \cdots, {x_{ki}}} \right)^\prime }$ 为解释变量向量,$\beta \left(\tau \right) = {\left({{\beta _1}, {\beta _2}, \cdots, {\beta _k}} \right)^\prime }$ 是τ分位数下的系数向量,则当τ在(0,1)上变动时,求解下面的最小化问题就可以得到分位数回归不同的参数估计
-
借鉴高春亭等[22]、张峥等[23]、周亮[24]的研究结论,选取规模、股价、市盈率、动量、换手率和波动率6个指标作为选股策略的基本因子.其中,规模用股票的流通市值来表示,在回归分析中对数据取对数;股价用股票的前复权价格来表示,在回归分析中对数据取对数;市盈率采用股票的动态市盈率表示;动量则用股票的上一年收益率表示;换手率指的是股票当年交易总额与流通市值的比值;波动率则采用Parkinson[31]定义的极差波动率
$\sigma = \sqrt {\frac{1}{{4\ln 2}}{{\left({\ln {h_i} - \ln {l_i}} \right)}^2}} $ 来表示,其中hi为股票当年价格的最高价,li为股票当年价格的最低价.股市中常用的市场基准是沪深300指数,沪深300指数的样本股包含的主要是金融、能源石化、材料等规模最大、流动性最好的股票,其中金融类股票权重达到了30%.因此,虽然沪深300指数能够较好地反映出市场的总体走势,但是从选股的角度来看,剔除掉沪深300指数所包含的总市值最大的300只股票的中证500指数成分股,覆盖面更广、规模适中,能够更好地进行选股以及体现出选股策略的优势来.因此,选择中证500指数成分股中2007年以前上市的股票,并且剔除掉金融类及ST类股票,最终得到样本股票297只.选择这297只股票2007年初至2017年末共11年所有变量的年度数据作为研究对象,共得到样本3 267个.所有数据均来自东方财富金融数据库.
2.1. 分位数回归法
2.2. 变量选取与数据来源
-
表 1报告了所有变量的描述性统计情况,可以看到所选股票样本股价均值在10.48元,Q(0.9)也只有20.29元,表示绝大部分股票的股价均在20元以下;从流通市值看,均值为89.65,这与我们所选股票为中证500指数样本股有关,流通市值适中;从动量上看,均值为0.122,表明绝大部分股票在样本区间内都能取得正的年化收益;而从换手率看,均值达到了528.3%,表明我国股市投机氛围严重,股票换手过于频繁.在样本区间内,除市净率的均值小于中位值[即Q(0.5)]外,其余变量的均值均大于其中位值,因此除了市净率是左偏外,其余变量均是右偏;这一点从倒数第2列偏度值上也可以看出.从峰度上看,所有变量的峰度均远大于3,因此可以说明所有的变量都是尖峰厚尾的,因此采用分位数回归相对最小二乘回归更为合适.
-
以下一年的股票收益率为因变量,分别以当年的规模、股价、市净率、动量、换手率、波动率为自变量,分别采用分位数回归和OLS回归方法(采用固定效应模型)对变量之间的关系进行单因子建模,所得结果如表 2所示.从OLS模型的回归结果可以看到,在单因子模型下所有的因子均对下一年的股票收益率有显著的负向影响,也就是说规模越小、股价越低、市净率越低、动量越小、换手率越低及波动率越低的股票,下一年取得更高收益的可能性越大.规模和市净率的回归结果符合Fama三因子模型的解释结果;股价越低收益率越高,这是由于投资者通常认为价格越低的股票上涨空间越大,这也是我国股市高送转现象经常出现的原因所在;动量越小收益率越高,说明我国股市短期来看,反转效应(即前期涨幅更小的股票,下一期涨幅越大)比动量效应(即前期涨幅越大的股票,下一期涨幅越大)更明显;换手率越低的股票下一年收益率越高,这可能是因为换手率越低,说明筹码分布越集中,因此主力拉升股价的动力越强;而波动率越低的股票下一年收益率越高,这在很多研究中均有说明,常被称为“特质波动率”之谜[32].
OLS模型的回归结果建立在变量是正态分布的前提下,但是从表 1数据可以看到,几乎所有的数据都是尖峰厚尾有偏的,因此OLS模型拟合的结果并不严谨,而分位数回归则可以很好地解决这个问题. 表 2第3-7列报告了分位数回归结果,可以看到与OLS模型的回归系数相比,分位数回归系数有了很大变化,更形象的变化情况如图 1所示,其中横线表示OLS回归系数,曲线表示分位数回归系数变动情况.由图 1可知,所有因子的分位数回归系数都是变化的,50%分位的拟合结果与OLS模型的拟合结果很接近.规模因子随着分位数值变大而逐步下降,从10%分位的0.099下降到90%分位的-0.321,表明对于低收益率股票而言,规模越大收益越高;但是对于高收益股票而言,规模效应则表现得越来越明显,在90%分位上,规模每降低1个百分点,都可以使收益增加0.321个百分点.股价因子随着分位点变大,其系数在25%分位达到最大,之后开始下降,但是所有数值均是位于0以下,说明低价股的收益率要高于高价股,而且随着股票收益率增加,该效应越来越明显.市净率因子则在低收益率股票上表现得更为明显,在50%以上的分位点时系数变动很小.动量因子和换手率因子的表现比较相似,均是在低收益股票上表现得更为明显,随着股票收益率增高,两个因子的系数绝对值越来越小,说明两个因子的效应越来越低.波动率因子则表现得比较特殊,其在50%分位点附近的系数接近于0,往两边走系数绝对值均越来越大,也就是因子的效应越来越强,只是方向有所不同,表现为对于低收益率的股票在波动率越低时,收益会越高;而对于高收益率的股票而言,波动率越高,则会促使收益率增长越多.
-
对于单因子而言,应该尽量选择系数绝对值更高的模型来进行选股,因为系数绝对值越高,说明因子的效应越强,无论是选择预期收益最大的股票构造多头头寸,还是建立赢家-输家(购买预期收益率最高的股票,同时卖出预期收益率最低的股票)投资组合,理论上均可以获得最高的收益率.在所选的6个因子中,规模因子和股价因子系数绝对值最大值均出现在高分位点,市净率、动量和换手率因子系数绝对值最大值均出现在低分位点;而波动率在低分位点和高分位点的系数绝对值均较大,且通过初步验证发现波动率因子与其他因子同时建模时系数不显著(因子相关性较强).因此,将波动率因子剔除,同时分别建立2个选股模型,分别是规模-股价模型(SP模型)和市盈率-动量-换手率模型(PRV模型). 表 3报告了2个模型的OLS及分位数回归结果,从模型的拟合效果(用调整R2来判断)来看,SP模型QR(0.9)的回归模型拟合效果最佳,调整R2达到21.72%,而QR(0.1)的调整R2只有5.5%,作为对比的OLS模型的调整R2也只有14.24%;PRV模型QR(0.1)的调整R2为26.97%,而QR(0.9)的调整R2只有8.85%,作为对比的OLS模型的调整R2为17.04%.这与图 1的结果吻合,即规模因子与股价因子在90%分位的表现最好,市盈率因子、动量因子和换手率因子在10%分位的表现最好.从系数上也可以得出同样的结论,从模型系数加总来看(虽然对比并不严谨,但是仍然可以看出分位数模型的有效性),SP模型QR(0.1)2个因子系数的和为-0.137 2,QR(0.5)为-0.296 6,QR(0.9)为-0.388 1;PRV模型QR(0.1)3个因子系数的和为-0.624 2,QR(0.5)为-0.509 2,QR(0.9)为-0.366 1,且换手率和市盈率2个因子的系数均不显著;因此也可以看出,SP模型在QR(0.9)效果最佳,PRV模型在QR(0.1)效果最佳.
-
分别采用SP模型和PRV模型构造多因子投资策略,依据模型回归系数来对下一年股票的收益率进行预测,并按照预期收益率高低将股票分为10组,并在每年年初对股票组合进行动态调整.统计每个模型在样本期间的年化收益率,结果如表 4所示.由表 4可知,SP模型QR(0.9)在样本区间可以获得43.17%的对冲组合,远高于QR(0.1)的6.74%,也高于OLS模型的36.3%;PRV模型QR(0.1)在样本区间获得了18.48%的对冲收益,略高于QR(0.9)的15.36%以及OLS模型的17.71%.两个模型的投资效果再次印证了前文所述的分位数回归结果,即SP模型在QR(0.9)、PRV模型在QR(0.1)均能取得更好的效果.同时对比SP模型和PRV模型可以发现,SP模型的投资效果要好于PRV模型,同时模型的区分度也更高,表现为QR(0.9)与QR(0.1)模型间的差异更大,因此综合来看规模因子和股价因子在我国股市比市净率、动量及换手率因子应用性更强.
3.1. 变量描述性统计
3.2. 单因子回归分析
3.3. 多因子回归分析
3.4. 多因子投资策略分析
-
选取2007年初至2017年末的中证500指数成分股规模、股价、市盈率、动量、换手率和波动率6个因子的所有年度数据,探讨了分位数回归在多因子选股策略中的应用情况,结果发现:2个模型的投资效果均要优于OLS回归模型的投资效果.同时也可以看出,规模-股价因子选股模型的投资效果要优于市净率-动量-换手率因子选股模型,说明在我国股市规模和股价因子比市净率、动量和换手率因子要有更强的应用性.相对于其他学者采用均值回归来验证因子的有效性或构造选股策略,笔者的研究具有更强的理论和实践价值,如对规模和股价因子的应用方式因与市净率、动量和换手率的应用方式有所不同,前者应该在收益更高的股票上应用,而后者则应该在收益更低的股票上应用.
然而,笔者的研究仍然存在很多可以进一步完善或深化的地方:①在对样本股票的选取上,笔者只是选取了中证500指数成分股进行研究,虽然中证500指数成分股在沪深股市具有很强的代表性,但是分位数回归是否在股市全样本中有较好的应用性是值得进一步探讨的方向;②在周期频率的选择上,笔者只是选择了2007-2017年的年度数据进行分析,但是无疑相对于月度、周度甚至更高频的数据,年度数据丢失的信息太多,因此在更高频率上用更大样本对数据进行挖掘,是更好地将分位数回归应用到选股策略上的方向;③笔者的研究只是将样本作为一个整体进行分析,这是受制于样本频率过低的缘故,如果能够采用月度等更高频的数据,则可以对样本进行区分,如划分为牛市、熊市,然后再研究在不同市场状况下各因子的表现状况;④在因子的选取上,只是在前人研究的基础上选择了常用的选股因子,随着大数据技术的发展,利用机器学习等数据挖掘技术构造更前沿的指标是整个投资行业未来发展的趋势.