基于SAIC方法的纵向数据模型平均

王梓屹

doi:10.13718/j.cnki.xsxb.2023.03.010

摘要: 传统的SAIC模型平均所需运行时间随数据维数而呈现出阶乘级的增长，其预测精度也随之下降. 本文基于传统SAIC模型平均法进行了改进，提出一类基于SAIC加权法的纵向数据模型平均法，使运算效率大幅提升，并且使预测效果拥有良好的稳定性. 模拟实验结果表明，与传统方法相比，在预测残差平方和层面，本文提出的新模型在稳定性、精准性和运行速度方面均优于传统方法.

Abstract: The running time required for traditional SAIC model averaging shows a stepwise increase with the number of data dimensions, and its prediction accuracy decreases. In this paper, we propose a class of longitudinal data model averaging method based on the traditional SAIC model averaging method, which can significantly improve the computational efficiency and make the prediction results have good stability. The simulation experimental results show that the new model proposed in this paper outperforms the traditional method in terms of stability, accuracy and running speed in predicting the sum of squared residuals compared with the traditional method.

Key words:

全文HTML

现实生活中，数据往往存在不确定性. 有些模型能很好拟合已持有的数据，但进行预测时却与真实情况相差较大，误导决策者做出错误的决策^[1]. 模型平均的出现解决了这一问题，使预测模型变得更加稳定.

传统的变量选择方法代表是：赤池信息量准则(Akaike's information criterion，AIC)由文献[2]在研究信息论尤其是在解决时间序列的定阶问题时提出，现常被用于处理模型选择，评估模型的复杂度等属性.

目前经典的模型平均法有两类：频率模型平均法FMA^[3-4]和贝叶斯模型平均法BMA^[5-6](核心思路是通过后验概率来分配权重).

文献[7]提出的超高维回归下的模型平均法中，考虑了预测因子数量p超过样本容量n的高维回归问题，为高维回归问题开发了一个新的模型平均程序，主要研究了该方法下的渐近最优性和模型的权重赋予. 文献[8]提出的水手刀模型平均法是一类分位数回归模型平均(quantile regression model averaging). 为了考虑分位数回归模型中的误差项和解释变量之间的相关性，提出了一种重叠模型平均估计模型，该方法证明了在最小化样本外最终预测误差方面的渐近最优性.

这些研究表明，模型平均预测参数通常会比单一的模型选择方法预测的参数实现更低的估计、预测误差和风险. 传统的SAIC方法尽管表现较好，但耗时极长. 本文提供一种新的模型平均思路用以提升模型的稳定性、准确性和运行速度.

1. 广义估计方程中的最小AIC模型

假设有k个模型，根据文献[2]有其中第i个模型中赤池信息量为

其中：L_i为第i个模型的似然函数，p_i为第i个模型的参数.

由于本文是纵向数据，并且采用的是广义估计方程用于预测，使用拟似然函数计算赤池信息量过于冗杂，本文通过残差平方项代替似然函数项. 将第i个模型的赤池信息量变为：

其中：残差平方和$ R S S_i=\left\|Y-\hat{Y}_i\right\|^2 ; N=\sum\limits_{i=1}^m n_i$为纵向数据中的样本数. 在样本数相同的不同广义估计方程中，N的值都是相等的.

在所有的k个模型中，每个模型对应一个赤池信息量. 从k个赤池信息量中选出赤池信息量最小的模型，将该模型作为预测模型，记为mAIC(minimum AIC model).

2. SAIC模型平均法

文献[3]较为详细提到了SAIC模型平均法. 其中详细说明了模型平均法的思路和SAIC方法的推导，并主要研究了模型的权重赋值.

由赤池信息量的定义

我们不难通过变形得到两个拥有不同参数量和似然函数模型的赤池信息量函数比值

值得一提的是，在惩罚项相等的时候，该函数会变为似然函数的优势比.

由(2)式可以得到一个关于模型权重ω_k的计算公式. 假设有K个子模型做模型平均，则第k个子模型在该模型平均中分配到的权重为

由该方法得出的模型权重有以下特点：

1) 拥有相同赤池信息量的模型具有相同的权重.

2) 假设利用K个子模型做模型平均，这些权重将仅与赤池信息量有关，和惩罚项无关(他们拥有相同的变量数p).

3) 拥有更小赤池信息量的模型具有更大的权重.

3. 基于SAIC的4类模型平均法

本文研究的纵向数据数据结构的参数和符号说明如下：

设$\left\{\left(y_{i j}, x_{i j}\right) ; j=1, 2, \cdots, n_i\right\}$是第$i$个个体的观测，其中$(i=1, 2, \cdots, m)$，设置$\boldsymbol{y}_i\left(n_i \times 1\right)=\left(y_{i 1}\right.$, $\left.y_{i 2}, \cdots, y_{i n_i}\right)^{\mathrm{T}}$，且$\boldsymbol{X}_i\left(n_i \times p\right)=\left(x_{i 1}, x_{i 2}, \cdots, x_{i n_i}\right)$，则纵向数据为如下线性回归模型

其中: $\boldsymbol{y}$为$(N \times 1)$的向量, $\boldsymbol{y}=\left(y_1^{\mathrm{T}}, y_2^{\mathrm{T}}, \cdots, y_m^{\mathrm{T}}\right)^{\mathrm{T}}, \boldsymbol{X}$为$(N \times p)$维的矩阵, $\boldsymbol{X}=\left(\boldsymbol{X}_1^{\mathrm{T}}, \boldsymbol{X}_2^{\mathrm{T}}, \cdots \boldsymbol{X}_m^{\mathrm{T}}\right)^{\mathrm{T}}$, 残差项$\boldsymbol{\varepsilon}$的维度同$\boldsymbol{y}$一致, 且服从多元正态分布$\boldsymbol{\varepsilon} \sim N(0, \boldsymbol{\varSigma}), \boldsymbol{\varSigma}$为$N \times N$阶的分块对角矩阵, 即

通常情况下，自变量p越多，样本量N需要得就越多，因此我们要求N>p.

3.1. MSAIC

MSAIC的核心思路是：在拥有相同参数数量的所有子集中选取p个(p为数据的协变量数)赤池信息量最小的模型，并对这p个模型进行加权. 具体步骤如下：

参数数目为1的子集为$\left(\boldsymbol{X}_1, \boldsymbol{X}_2, \cdots, \boldsymbol{X}_P\right)$, 从中选取赤池信息量最小的模型$\left(\boldsymbol{X}_{k 1}\right)$; 参数数目为2的子集有$\left(\boldsymbol{X}_1, \boldsymbol{X}_2\right), \left(\boldsymbol{X}_1, \boldsymbol{X}_3\right), \cdots, \left(\boldsymbol{X}_{p-1}, \boldsymbol{X}_p\right)$, 从中选取赤池信息量最小的模型$\left(\boldsymbol{X}_{l 1}, \boldsymbol{X}_{l 2}\right)$. 重复此动作共$p$次, 挑选出$p$个子集

基于广义估计方程，p个子模型共能算出p个估计方程：$\left(f_1(\cdot), f_2(\cdot), \cdots, f_p(\cdot)\right)$.

代入数据后可以得出p个关于Y的拟合值组成的向量：

利用SAIC加权法，对这p个子集基于SAIC方法进行加权. 这p个子集可以得到p个赤池信息量. 第i个模型的赤池信息量变为

该模型的权重$\omega_i$的计算方式

由此可获得p个模型的权重(ω₁，ω₂，…，ω_p).

相较传统的SAIC方法，该计算量从约p！降低为(2^p-1).

在模型(7)中代入数据后能得出Y的估计值$\overset{\wedge }{\mathop{\boldsymbol{Y}}} $：

该模型平均方法仅对传统的SAIC模型平均法的最后的加权步骤进行了改进，计算量仍然巨大，为解决这一问题，本文进一步提出了MOSAIC以降低模型平均法的计算量.

3.2. MOSAIC

MOSAIC(Minimum Onward Smooth AIC)，是MSAIC的改进方法，借鉴了逐步回归向前法(Forward Stepwise). MOSAIC的具体步骤如下：

1) 从参数数量为1的子模型中选择拥有最小赤池信息量(共需计算p个模型)的子模型(X_k1).

2) 在参数数量为2的所有子模型中(共需计算(p-1)个模型)，从拥有(X_k1)的子模型中，选择拥有最小AIC的子模型(X_k1，X_k2). 重复此行为，直至将所有参数加入到子模型(X_k1，X_k2，…，X_kp)中，挑选出p个子集，基于广义估计方程算出p个估计方程：

3) 利用SAIC加权法，仅对这p个子集基于SAIC方法进行加权，得到p个权重(ω₁，ω₂，…，ω_p). 代入数据后能得出Y的估计值

该计算量相较本章第一小节提出的MSAIC方法的计算量，从(2^p-1)降低为$\frac{p(p+1)}{2} $.

该模型平均方法虽然对MSAIC进行了改进，但其计算量仍然较大，在维度较高的数据中仍难以快速输出结果. 为解决这一问题，本文进一步提出了MOOSAIC.

3.3. MOOSAIC

MOOSAIC (Margin Overweighted of Smooth AIC)，是MOSAIC的改进方法.

1) 计算参数数量为1的所有子模型的赤池信息量(共需计算p个模型)，并依据该赤池信息量按从小到大的顺序，对子模型进行排序

p个子模型所示

其中第i个模型为

基于广义估计方程，p个子模型能算出p个估计方程

基于SAIC方法，对p个模型的赤池信息量进行加权，得到p个权重(ω₁，ω₂，…，ω_p)，代入数据后能得出Y的估计值：

与MOSAIC相比，$\overset{\wedge }{\mathop{\boldsymbol{Y}}}$的计算量从$\frac{p(p+1)}{2}$降低为$(2 p-1)$.

3.4. MO&MOO加权模型

将MOSAIC模型输出的残差平方和与MOOSAIC模型输出的残差平方和进行加权，且权重变化非线性，可以给出其权重公式：

MOSAIC和MOOSAIC的加权模型为

记为MO&MOO模型.

该模型为MOSAIC和MOOSAIC利用指数进行的简单加权. 引入该模型是为说明：并非加权模型的部头越大，模型拟合效果就越好越稳定. 之后的结果，无论是预测精度还是稳定效果，MO&MOO模型都远不如它的两个组成部分：MOOSAIC模型和MOSAIC模型.

5. 结论

为解决SAIC模型在大数据下面临运算时间长的困境，本文提出了MSAIC，MOSAIC，MOOSAIC 3种基于SAIC方法的模型平均法. 提升SAIC方法下的运行效率、预测精度和预测稳定性所需运行时长从大到小排序依次为MSAIC，MOSAIC和MOOSAIC. 通过数值实验将3种方法与多种经典预测方法，如Lasso，Scad等方法进行比较最后结果验证了MOOSAIC最大幅度提升了运行效率、运行精度和预测稳定性，且运行时长从数量级p！降低为数量级(2p-1).

参考文献 (9)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

	mAIC	全模型	MOSAIC	moo	mo&moo	lasso	scad
1st Qu.	1 226.904	1 231.066	1 226.762	1 224.210	1 227.039	1 231.240	1 232.610
Median	1 231.304	1 237.673	1 230.425	1 227.836	1 231.239	1 237.127	1 238.527
3rd Qu.	1 235.197	1 243.363	1 235.582	1 232.163	1 235.055	1 244.076	1 245.666
Qu.Deviation	8.293	12.297	8.820	7.952	8.016	12.835	13.056

	mAIC	全模型	MOSAIC	moo	mo&moo	lasso	scad
1st Qu.	1 226.491	1 231.675	1 226.097	1 221.828	1 226.481	1 230.988	1 232.376
Median	1 232.121	1 237.679	1 231.799	1 225.447	1 232.067	1 237.101	1 239.064
3rd Qu.	1 239.198	1 246.314	1 238.029	1 230.469	1 238.628	1 246.077	1 247.640
Qu.Deviation	12.708	14.640	11.932	8.641	12.148	15.089	15.264

	mAIC	全模型	MOSAIC	moo	mo&moo	lasso	scad
1st Qu.	1 227.556	1 232.514	1 227.166	1 223.992	1 227.683	1 230.377	1 232.661
Median	1 235.737	1 241.549	1 234.026	1 227.934	1 236.064	1 238.348	1 240.726
3rd Qu.	1 242.752	1 248.828	1 240.521	1 234.779	1 242.293	1 247.527	1 250.311
Qu.Deviation	15.196	16.314	13.355	10.787	14.609	17.150	17.650

	mAIC	全模型	MOSAIC	moo	mo&moo	lasso	scad
1st Qu.	49.944	50.164	49.951	49.788	49.822	49.931	50.046
Median	50.129	50.401	50.157	49.928	50.018	50.152	50.316
3rd Qu.	50.291	50.631	50.335	50.080	50.152	50.308	50.498
Qu.Deviation	0.346	0.466	0.385	0.292	0.330	0.377	0.452

留言板