Longitudinal Data Model Averaging Based on SAIC Method

Wang Ziyi

doi:10.13718/j.cnki.xsxb.2023.03.010

The running time required for traditional SAIC model averaging shows a stepwise increase with the number of data dimensions, and its prediction accuracy decreases. In this paper, we propose a class of longitudinal data model averaging method based on the traditional SAIC model averaging method, which can significantly improve the computational efficiency and make the prediction results have good stability. The simulation experimental results show that the new model proposed in this paper outperforms the traditional method in terms of stability, accuracy and running speed in predicting the sum of squared residuals compared with the traditional method.

HTML

现实生活中，数据往往存在不确定性. 有些模型能很好拟合已持有的数据，但进行预测时却与真实情况相差较大，误导决策者做出错误的决策^[1]. 模型平均的出现解决了这一问题，使预测模型变得更加稳定.

传统的变量选择方法代表是：赤池信息量准则(Akaike's information criterion，AIC)由文献[2]在研究信息论尤其是在解决时间序列的定阶问题时提出，现常被用于处理模型选择，评估模型的复杂度等属性.

目前经典的模型平均法有两类：频率模型平均法FMA^[3-4]和贝叶斯模型平均法BMA^[5-6](核心思路是通过后验概率来分配权重).

文献[7]提出的超高维回归下的模型平均法中，考虑了预测因子数量p超过样本容量n的高维回归问题，为高维回归问题开发了一个新的模型平均程序，主要研究了该方法下的渐近最优性和模型的权重赋予. 文献[8]提出的水手刀模型平均法是一类分位数回归模型平均(quantile regression model averaging). 为了考虑分位数回归模型中的误差项和解释变量之间的相关性，提出了一种重叠模型平均估计模型，该方法证明了在最小化样本外最终预测误差方面的渐近最优性.

这些研究表明，模型平均预测参数通常会比单一的模型选择方法预测的参数实现更低的估计、预测误差和风险. 传统的SAIC方法尽管表现较好，但耗时极长. 本文提供一种新的模型平均思路用以提升模型的稳定性、准确性和运行速度.

1. 广义估计方程中的最小AIC模型

假设有k个模型，根据文献[2]有其中第i个模型中赤池信息量为

其中：L_i为第i个模型的似然函数，p_i为第i个模型的参数.

由于本文是纵向数据，并且采用的是广义估计方程用于预测，使用拟似然函数计算赤池信息量过于冗杂，本文通过残差平方项代替似然函数项. 将第i个模型的赤池信息量变为：

其中：残差平方和$ R S S_i=\left\|Y-\hat{Y}_i\right\|^2 ; N=\sum\limits_{i=1}^m n_i$为纵向数据中的样本数. 在样本数相同的不同广义估计方程中，N的值都是相等的.

在所有的k个模型中，每个模型对应一个赤池信息量. 从k个赤池信息量中选出赤池信息量最小的模型，将该模型作为预测模型，记为mAIC(minimum AIC model).

2. SAIC模型平均法

文献[3]较为详细提到了SAIC模型平均法. 其中详细说明了模型平均法的思路和SAIC方法的推导，并主要研究了模型的权重赋值.

由赤池信息量的定义

我们不难通过变形得到两个拥有不同参数量和似然函数模型的赤池信息量函数比值

值得一提的是，在惩罚项相等的时候，该函数会变为似然函数的优势比.

由(2)式可以得到一个关于模型权重ω_k的计算公式. 假设有K个子模型做模型平均，则第k个子模型在该模型平均中分配到的权重为

由该方法得出的模型权重有以下特点：

1) 拥有相同赤池信息量的模型具有相同的权重.

2) 假设利用K个子模型做模型平均，这些权重将仅与赤池信息量有关，和惩罚项无关(他们拥有相同的变量数p).

3) 拥有更小赤池信息量的模型具有更大的权重.

3. 基于SAIC的4类模型平均法

本文研究的纵向数据数据结构的参数和符号说明如下：

设$\left\{\left(y_{i j}, x_{i j}\right) ; j=1, 2, \cdots, n_i\right\}$是第$i$个个体的观测，其中$(i=1, 2, \cdots, m)$，设置$\boldsymbol{y}_i\left(n_i \times 1\right)=\left(y_{i 1}\right.$, $\left.y_{i 2}, \cdots, y_{i n_i}\right)^{\mathrm{T}}$，且$\boldsymbol{X}_i\left(n_i \times p\right)=\left(x_{i 1}, x_{i 2}, \cdots, x_{i n_i}\right)$，则纵向数据为如下线性回归模型

其中: $\boldsymbol{y}$为$(N \times 1)$的向量, $\boldsymbol{y}=\left(y_1^{\mathrm{T}}, y_2^{\mathrm{T}}, \cdots, y_m^{\mathrm{T}}\right)^{\mathrm{T}}, \boldsymbol{X}$为$(N \times p)$维的矩阵, $\boldsymbol{X}=\left(\boldsymbol{X}_1^{\mathrm{T}}, \boldsymbol{X}_2^{\mathrm{T}}, \cdots \boldsymbol{X}_m^{\mathrm{T}}\right)^{\mathrm{T}}$, 残差项$\boldsymbol{\varepsilon}$的维度同$\boldsymbol{y}$一致, 且服从多元正态分布$\boldsymbol{\varepsilon} \sim N(0, \boldsymbol{\varSigma}), \boldsymbol{\varSigma}$为$N \times N$阶的分块对角矩阵, 即

通常情况下，自变量p越多，样本量N需要得就越多，因此我们要求N>p.

3.1. MSAIC

MSAIC的核心思路是：在拥有相同参数数量的所有子集中选取p个(p为数据的协变量数)赤池信息量最小的模型，并对这p个模型进行加权. 具体步骤如下：

参数数目为1的子集为$\left(\boldsymbol{X}_1, \boldsymbol{X}_2, \cdots, \boldsymbol{X}_P\right)$, 从中选取赤池信息量最小的模型$\left(\boldsymbol{X}_{k 1}\right)$; 参数数目为2的子集有$\left(\boldsymbol{X}_1, \boldsymbol{X}_2\right), \left(\boldsymbol{X}_1, \boldsymbol{X}_3\right), \cdots, \left(\boldsymbol{X}_{p-1}, \boldsymbol{X}_p\right)$, 从中选取赤池信息量最小的模型$\left(\boldsymbol{X}_{l 1}, \boldsymbol{X}_{l 2}\right)$. 重复此动作共$p$次, 挑选出$p$个子集

基于广义估计方程，p个子模型共能算出p个估计方程：$\left(f_1(\cdot), f_2(\cdot), \cdots, f_p(\cdot)\right)$.

代入数据后可以得出p个关于Y的拟合值组成的向量：

利用SAIC加权法，对这p个子集基于SAIC方法进行加权. 这p个子集可以得到p个赤池信息量. 第i个模型的赤池信息量变为

该模型的权重$\omega_i$的计算方式

由此可获得p个模型的权重(ω₁，ω₂，…，ω_p).

相较传统的SAIC方法，该计算量从约p！降低为(2^p-1).

在模型(7)中代入数据后能得出Y的估计值$\overset{\wedge }{\mathop{\boldsymbol{Y}}} $：

该模型平均方法仅对传统的SAIC模型平均法的最后的加权步骤进行了改进，计算量仍然巨大，为解决这一问题，本文进一步提出了MOSAIC以降低模型平均法的计算量.

3.2. MOSAIC

MOSAIC(Minimum Onward Smooth AIC)，是MSAIC的改进方法，借鉴了逐步回归向前法(Forward Stepwise). MOSAIC的具体步骤如下：

1) 从参数数量为1的子模型中选择拥有最小赤池信息量(共需计算p个模型)的子模型(X_k1).

2) 在参数数量为2的所有子模型中(共需计算(p-1)个模型)，从拥有(X_k1)的子模型中，选择拥有最小AIC的子模型(X_k1，X_k2). 重复此行为，直至将所有参数加入到子模型(X_k1，X_k2，…，X_kp)中，挑选出p个子集，基于广义估计方程算出p个估计方程：

3) 利用SAIC加权法，仅对这p个子集基于SAIC方法进行加权，得到p个权重(ω₁，ω₂，…，ω_p). 代入数据后能得出Y的估计值

该计算量相较本章第一小节提出的MSAIC方法的计算量，从(2^p-1)降低为$\frac{p(p+1)}{2} $.

该模型平均方法虽然对MSAIC进行了改进，但其计算量仍然较大，在维度较高的数据中仍难以快速输出结果. 为解决这一问题，本文进一步提出了MOOSAIC.

3.3. MOOSAIC

MOOSAIC (Margin Overweighted of Smooth AIC)，是MOSAIC的改进方法.

1) 计算参数数量为1的所有子模型的赤池信息量(共需计算p个模型)，并依据该赤池信息量按从小到大的顺序，对子模型进行排序

p个子模型所示

其中第i个模型为

基于广义估计方程，p个子模型能算出p个估计方程

基于SAIC方法，对p个模型的赤池信息量进行加权，得到p个权重(ω₁，ω₂，…，ω_p)，代入数据后能得出Y的估计值：

与MOSAIC相比，$\overset{\wedge }{\mathop{\boldsymbol{Y}}}$的计算量从$\frac{p(p+1)}{2}$降低为$(2 p-1)$.

3.4. MO&MOO加权模型

将MOSAIC模型输出的残差平方和与MOOSAIC模型输出的残差平方和进行加权，且权重变化非线性，可以给出其权重公式：

MOSAIC和MOOSAIC的加权模型为

记为MO&MOO模型.

该模型为MOSAIC和MOOSAIC利用指数进行的简单加权. 引入该模型是为说明：并非加权模型的部头越大，模型拟合效果就越好越稳定. 之后的结果，无论是预测精度还是稳定效果，MO&MOO模型都远不如它的两个组成部分：MOOSAIC模型和MOSAIC模型.

5. 结论

为解决SAIC模型在大数据下面临运算时间长的困境，本文提出了MSAIC，MOSAIC，MOOSAIC 3种基于SAIC方法的模型平均法. 提升SAIC方法下的运行效率、预测精度和预测稳定性所需运行时长从大到小排序依次为MSAIC，MOSAIC和MOOSAIC. 通过数值实验将3种方法与多种经典预测方法，如Lasso，Scad等方法进行比较最后结果验证了MOOSAIC最大幅度提升了运行效率、运行精度和预测稳定性，且运行时长从数量级p！降低为数量级(2p-1).

Figure (2) Table (5) Reference (9)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	田文玲. 线性模型平均的一些理论性质研究[D]. 上海: 华东师范大学, 2019. Google Scholar
[2]	AKAIKE H. A New Look at the Statistical Model Identification[J]. IEEE Transactions on Automatic Control, 1974, 19(6): 716-723. doi: 10.1109/TAC.1974.1100705 CrossRef Google Scholar
[3]	HJORT N L, CLAESKENS G. Frequentist Model Average Estimators[J]. Journal of the American Statistical Association, 2003, 98(464): 879-899. doi: 10.1198/016214503000000828 CrossRef Google Scholar
[4]	BUCKLAND S T, BURNHAM K P, AUGUSTIN N H. Model Selection: an Integral Part of Inference[J]. Biometrics, 1997, 53(2): 603. doi: 10.2307/2533961 CrossRef Google Scholar
[5]	DRAPER D. Assessment and Propagation of Model Uncertainty[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1995, 57(1): 45-70. doi: 10.1111/j.2517-6161.1995.tb02015.x CrossRef Google Scholar
[6]	RAFTERY A E, MADIGAN D, HOETING J A. Bayesian Model Averaging for Linear Regression Models[J]. Journal of the American Statistical Association, 1997, 92(437): 179-191. doi: 10.1080/01621459.1997.10473615 CrossRef Google Scholar
[7]	ANDO T, LI K C. A Model-Averaging Approach for High-Dimensional Regression[J]. Journal of the American Statistical Association, 2014, 109(505): 254-265. doi: 10.1080/01621459.2013.838168 CrossRef Google Scholar
[8]	LU X, SU L J. Jackknife Model Averaging for Quantile Regressions[J]. Journal of Econometrics, 2015, 188(1): 40-58. doi: 10.1016/j.jeconom.2014.11.005 CrossRef Google Scholar
[9]	陈心洁, 赵志豪. 高维纵向数据的模型平均估计[J]. 系统科学与数学, 2020, 40(7): 1297-1324. Google Scholar

Message Board

Longitudinal Data Model Averaging Based on SAIC Method

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors