变量选择的稳健贝叶斯LASSO方法

梁韵婷; 张辉国; 胡锡健

doi:10.13718/j.cnki.xsxb.2023.08.005

变量选择的稳健贝叶斯LASSO方法

新疆大学数学与系统科学学院, 乌鲁木齐 830046

基金项目: 国家自然科学基金项目(11961065); 教育部人文社会科学研究规划基金项目(19YJA910007); 新疆自然科学基金项目(2019D01C045)

详细信息

作者简介:
梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究 .

中图分类号: O212.8

Robust Bayesian LASSO for Variable Selection

College of Mathematics and System Science, Xinjiang University, Urumqi 830046, China

摘要:
针对数据中广泛存在的异常值会扭曲贝叶斯LASSO方法的参数估计和变量选择结果的问题, 通过引入异方差扰动的先验设定, 借此提升贝叶斯LASSO方法的稳健性, 并推导出各参数的后验分布, 利用Gibbs抽样得到其估计值与置信区间. 该方法在数值模拟中表现出较低的拟合误差与较高的变量识别准确率, 对糖尿病数据集和血浆β-胡萝卜素水平数据集的分析表明该方法能达到简化模型与减少预测误差的平衡, 实现稳健的变量选择与系数估计, 并对数据中可能包含的异常值与异方差扰动有良好的抑制作用.
- 变量选择 /
- 贝叶斯LASSO /
- 稳健性 /
- 异常值 /
- 异方差
Abstract:
Given that the ubiquitous outliers in the data can distort the parameter estimation and variable selection results of Bayesian LASSO, the prior information of heteroscedastic disturbances is introduced to improve the robustness of Bayesian LASSO. The posterior distribution of each parameter is derived, and the estimation and confidence interval of each parameter are obtained by Gibbs sampling. The method exhibits low fitting error and high variable identification accuracy in numerical simulation, and the analyses of diabetes dataset and Plasma Beta-Carotene Level Dataset show that the proposed method achieves the balance between simplifying model and reducing prediction error. The proposed method can realize robust variable selection and coefficient estimation and has a good inhibitory effect to outliers and heteroscedastic disturbances that may be included in the data.
- variable selection /
- Bayesian LASSO /
- robustness /
- outlier /
- heteroscedasticity .

图 1 糖尿病数据集各变量的箱线图

下载: 全尺寸图片幻灯片

图 2 学生化残差与帽子统计量的气泡图，其中圆圈的面积表示与Cook距离成正比的观测值

下载: 全尺寸图片幻灯片

图 3 不同方法下糖尿病数据集各变量的系数估计值与对应的95%置信区间

下载: 全尺寸图片幻灯片

图 4 血浆胡萝卜素的直方图

下载: 全尺寸图片幻灯片

图 5 胆固醇的直方图

下载: 全尺寸图片幻灯片

图 6 不同方法下血浆胡萝卜素水平数据集各变量的系数估计值与对应的95%置信区间

下载: 全尺寸图片幻灯片

算法1：稳健贝叶斯LASSO的Gibbs采样器
输入：Y，X，迭代次数T_draw，预热次数T_omit，初值β₍₀₎，σ₍₀₎²，τ₍₀₎²，V₍₀₎
输出：$\hat{\boldsymbol{\beta}}, \hat{\sigma}^2, \hat{\tau}^2, \hat{\boldsymbol{V}} $
1：k←1
2：当k≤T_draw
3：从后验分布p(β\|Y，X，σ_(k-1)²，V_(k-1)，τ_(k-1)²)中抽样并记为β_(k)
4：从后验分布p(τ²\|Y，X，β_(k)，σ_(k-1)²，V_(k-1))中抽样并记为τ_(k)²
5：从后验分布p(σ²\|Y，X，β_(k)，V_(k-1)，τ_(k)²)中抽样并记为σ_(k)²
6：从后验分布p(V\|Y，X，β_(k)，σ_(k)²，τ_(k)²)中抽样并记为V_(k)
7：k←k+1
8：结束
9：删去前T_omit轮样本，取后T_draw-T_omit轮样本计算各参数的后验平均值作为估计值

下载: 导出CSV

表 1 不同模型在4种扰动下基于100次模拟试验的变量选择结果

方法		q=10		q=20
方法		$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$	BAR	$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$	BAR
Example 1	BLASSO	0.078 8	0.726 9	0.105 2	0.729 4
	LASSO	0.056 8	0.720 1	0.087 8	0.688 4
	ALASSO	0.051 0	0.734 1	0.103 8	0.705 7
	RBLASSO	0.014 8	0.837 0	0.048 4	0.793 3
Example 2	BLASSO	0.414 4	0.742 7	0.343 2	0.784 6
	LASSO	0.099 8	0.715 1	0.264 8	0.653 3
	ALASSO	0.100 8	0.764 7	0.240 6	0.769 5
	RBLASSO	0.112 4	0.768 3	0.272 4	0.808 2
Example 3	BLASSO	19.856 6	0.582 9	60.057 4	0.523 5
	LASSO	0.538 4	0.620 0	0.466 6	0.556 1
	ALASSO	0.706 2	0.607 9	0.787 2	0.552 1
	RBLASSO	0.659 4	0.636 9	0.354 2	0.587 9
Example 4	BLASSO	0.030 4	0.935 3	0.047 4	0.827 6
	LASSO	0.019 4	0.785 4	0.045 0	0.669 9
	ALASSO	0.017 8	0.852 4	0.035 2	0.813 4
	RBLASSO	0.030 2	0.924 4	0.055 2	0.813 2

下载: 导出CSV

表 2 不同方法下糖尿病数据集的估计结果

	Least Squares	Weighted Least Squares	Bayesian LASSO	Robust Bayesian LASSO	LASSO	Adaptive LASSO
age	-0.002 6	-0.094 9	-0.066 1	-0.049 1	-0.083 1	-0.111 9
sex	0.012 0	-0.028 2	0.004 1	-0.048 9	0	0
bmi	0.440 9	0.417 5	0.415 9	0.341 7	0.431 5	0.442 8
map	0.285 0	0.251 3	0.236 8	0.164 3	0.252 5	0.273 5
tc	-1.009 8	-0.851 4	-0.051 4	-0.073 5	-0.098 7	-0.133 7
ldl	0.750 8	0.582 3	-0.022 7	-0.048 5	0	0
hdl	0.292 8	0.233 6	-0.058 2	-0.059 1	-0.037 4	-0.035 9
tch	0.006 7	0.024 3	0.004 7	0.028 8	0	0
ltg	0.775 4	0.688 1	0.355 8	0.388 2	0.390 3	0.423 6
glu	-0.015 5	-0.002 6	0.007 7	0.018 6	0	0
MSE	278.734 3	273.482 7	272.943 8	266.531 5	274.390 7	276.019 2
MAPE	0.661 4	0.550 6	0.606 6	0.548 1	0.6122	0.621 1

下载: 导出CSV

表 3 不同方法下血浆胡萝卜素水平数据集的估计结果

	Least Squares	Weighted Least Squares	Bayesian LASSO	Robust Bayesian LASSO	LASSO	Adaptive LASSO
age	0.062 3	0.050 7	0.048 6	0.074 8	0.054 7	0.064 1
smokstat	-0.046 0	-0.034 6	-0.033 7	-0.020 1	-0.032 8	-0.042 4
quetelet	-0.205 2	-0.181 8	-0.183 6	-0.138 0	-0.194 6	-0.202 3
vituse	-0.265 5	-0.240 0	-0.228 6	-0.136 7	-0.247 2	-0.256 4
calories	-0.080 4	-0.206 2	-0.011 7	-0.025 7	0	0
fat	-0.051 4	0.070 9	-0.059 3	-0.006 2	-0.091 1	-0.102 1
fiber	0.234 1	0.219 7	0.169 1	0.049 5	0.183 8	0.199 2
alcohol	0.160 0	0.104 4	0.103 7	0.030 4	0.128 9	0.145 3
chol	-0.046 8	-0.043 0	-0.038 4	-0.016 1	-0.040 2	-0.047 3
betadiet	0.236 0	0.222 3	0.215 0	0.152 6	0.227 3	0.235 3
MSE	34.914 1	28.592 2	29.465 3	20.370 3	32.385 3	34.267 3
MAPE	0.346 6	0.343 7	0.323 9	0.326 9	0.353 6	0.364 1

下载: 导出CSV

[1]	TIBSHIRANI R. Regression Shrinkage and Selection via the Lasso [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 1996, 58(1): 267-288.
[2]	ZOU H, HASTIE T. Regularization and Variable Selection via the Elastic Net [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2005, 67(2): 301-320. doi: 10.1111/j.1467-9868.2005.00503.x
[3]	ZOU H. The Adaptive Lasso and Its Oracle Properties [J]. Journal of the American Statistical Association, 2006, 101(476): 1418-1429. doi: 10.1198/016214506000000735
[4]	YUAN M, LIN Y. Model Selection and Estimation in Regression with Grouped Variables [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2006, 68(1): 49-67. doi: 10.1111/j.1467-9868.2005.00532.x
[5]	FAN J Q, LI R Z. Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties [J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360. doi: 10.1198/016214501753382273
[6]	ZHANG C H. Nearly Unbiased Variable Selection under Minimax Concave Penalty [J]. The Annals of Statistics, 2010, 38(2): 894-942.
[7]	WANG H S, LI G D, JIANG G H. Robust Regression Shrinkage and Consistent Variable Selection through the LAD-Lasso [J]. Journal of Business & Economic Statistics, 2007, 25(3): 347-355.
[8]	WU Y, LIU Y. Variable Selection in Quantile Regression [J]. Statistica Sinica, 2009, 19(2): 801-817.
[9]	WANG X Q, JIANG Y L, HUANG M, et al. Robust Variable Selection with Exponential Squared Loss [J]. Journal of the American Statistical Association, 2013, 108(502): 632-643. doi: 10.1080/01621459.2013.766613
[10]	PARK T, CASELLA G. The Bayesian Lasso [J]. Journal of the American Statistical Association, 2008, 103(482): 681-686. doi: 10.1198/016214508000000337
[11]	KYUNG M, GILL J, GHOSH M, et al. Penalized Regression, Standard Errors, and Bayesian Lassos [J]. Bayesian Analysis, 2010, 5(2): 369-412.
[12]	GEWEKE J. Bayesian Treatment of the Independent Student-t Linear Model [J]. Journal of Applied Econometrics, 1993, 8(S1): S19-S40. doi: 10.1002/jae.3950080504
[13]	LANGE K L, LITTLE R J A, TAYLOR J M G. Robust Statistical Modeling Using the t Distribution [J]. Journal of the American Statistical Association, 1989, 84(408): 881-896.
[14]	ATCHADÉ Y F. A Computational Framework for Empirical Bayes Inference [J]. Statistics and Computing, 2011, 21(4): 463-473. doi: 10.1007/s11222-010-9182-3
[15]	LIN X, LEE L F. GMM Estimation of Spatial Autoregressive Models with Unknown Heteroskedasticity [J]. Journal of Econometrics, 2010, 157(1): 34-52. doi: 10.1016/j.jeconom.2009.10.035
[16]	EFRON B, HASTIE T, JOHNSTONE I, et al. Least Angle Regression [J]. The Annals of Statistics, 2004, 32(2): 407-499.
[17]	NIERENBERG D W, STUKEL T A, BARON J A, et al. Determinants of Plasma Levels of beta-Carotene and Retinol [J]. American Journal of Epidemiology, 1989, 130(3): 511-521. doi: 10.1093/oxfordjournals.aje.a115365

图( 6) 表( 4)

计量

文章访问数: 2447
HTML全文浏览数: 2447
PDF下载数: 208
施引文献: 0

全文HTML

随着信息化时代的到来，大数据的应用越来越广泛，同时也不可避免地出现了异质性问题，表现出异方差特性. 而当数据中存在异方差误差或异常点时，变量选择的结果将不再稳定. 目前变量选择方法主要分为非贝叶斯方法和贝叶斯方法. 基于惩罚函数的变量选择是非贝叶斯方法的主流^[1-9]，最常见的包括LASSO(Least Absolute Shrinkage and Selection Operator)及其改进方法，如：EN(Elastic Net)、自适应LASSO(ALASSO)、组LASSO、SCAD(Smoothly Clipped Absolute Deviation)、MCP(Minimax Convex Penalty)、最小绝对偏差LASSO^[7]等. 尽管非贝叶斯方法已经取得了不错的成果，但这类方法都不能提供令人满意的标准差估计.

文献[1]表明当回归参数具有独立且相同的拉普拉斯先验时，LASSO估计可以解释为后验众数估计. 因此，基于该联系和贝叶斯思想，文献[10]提出了贝叶斯LASSO(BLASSO)并构造了全贝叶斯分层模型和相应的采样器. 文献[11]证明在预测均方误差方面，贝叶斯LASSO的表现与频率派LASSO相似甚至在某些情况下更好. 基于文献[10-13]的研究，本文将贝叶斯LASSO与异方差误差先验相结合，以实现稳健的变量选择与系数估计，同时该法能自动产生各参数的置信区间.

1. 分层模型

1.1. Gibbs采样器

考虑以下线性回归模型

其中：Y为n×1维的因变量，X为n×p维的解释变量，误差ε服从异方差的多元正态分布，V =diag(V₁，…，V_n)，则该模型的似然函数如式(2)所示

结合文献[10, 12]的工作，则全模型的分层表示为

将该模型的似然函数与各参数的先验分布相乘，可得联合后验分布为

基于式(3)，可得β的全条件后验分布服从均值为B ^-1 X ^T V ^-1 Y，方差为σ² B ^-1的多元正态分布，其中：B = X ^T V ^-1 X + D _τ^-1；σ²的全条件后验分布服从形状参数为$\frac{n}{2}+\frac{p}{2}+\alpha$，尺度参数为$\frac{(\boldsymbol{Y}-\boldsymbol{X} \boldsymbol{\beta})^{\mathrm{T}} \boldsymbol{V}^{-1}(\boldsymbol{Y}-\boldsymbol{X} \boldsymbol{\beta})}{2}+$$\frac{\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{D}_{\boldsymbol{r}}^{-1} \boldsymbol{\beta}}{2}+\gamma $的逆伽马分布；$\frac{1}{\tau_j^2} $的全条件后验分布服从形状参数为λ′=λ²，均值参数为$\mu^{\prime}=\sqrt{\frac{\lambda^2 \sigma^2}{\beta_j^2}}$的逆高斯分布；文献[12]得出V的全条件后验分布服从以下形式的卡方分布

式中e_i项为向量e = Y - Xβ的第i个元素，V _-i=(V₁，…，V_i-1，V_i+1，…，V_n)，i=1，…，n. 根据各参数后验分布可构造出稳健贝叶斯LASSO的Gibbs采样算法：

算法1：稳健贝叶斯LASSO的Gibbs采样器
输入：Y，X，迭代次数T_draw，预热次数T_omit，初值β₍₀₎，σ₍₀₎²，τ₍₀₎²，V₍₀₎
输出：$\hat{\boldsymbol{\beta}}, \hat{\sigma}^2, \hat{\tau}^2, \hat{\boldsymbol{V}} $
1：k←1
2：当k≤T_draw
3：从后验分布p(β\|Y，X，σ_(k-1)²，V_(k-1)，τ_(k-1)²)中抽样并记为β_(k)
4：从后验分布p(τ²\|Y，X，β_(k)，σ_(k-1)²，V_(k-1))中抽样并记为τ_(k)²
5：从后验分布p(σ²\|Y，X，β_(k)，V_(k-1)，τ_(k)²)中抽样并记为σ_(k)²
6：从后验分布p(V\|Y，X，β_(k)，σ_(k)²，τ_(k)²)中抽样并记为V_(k)
7：k←k+1
8：结束
9：删去前T_omit轮样本，取后T_draw-T_omit轮样本计算各参数的后验平均值作为估计值

1.2. 超参数选取

关于超参数λ²的选取，借鉴文献[10]提出的基于边际最大似然的经验贝叶斯法，具体算法如下：

1) 令k=0并设初值为$ \lambda_{(0)}=\frac{p \sqrt{\hat{\sigma}_{\mathrm{wLS}}^2}}{\sum\limits_{j=1}^p\left|\hat{\boldsymbol{\beta}}_{\mathrm{wLS}}^2\right|}$，其中$\hat{\sigma}_{\mathrm{WLS}}^2 \text { 和 } \hat{\boldsymbol{\beta}}_{\mathrm{WLS}}^2$为以普通线性最小二乘估计残差值的绝对值的倒数为权重的加权最小二乘估计值；

2) 令λ=λ_(k)并利用上述Gibbs采样器从β，σ²，τ ²，V的后验分布中生成第k轮样本；

3) 利用第k轮样本近似计算更新$\lambda_{(k+1)}=\sqrt{\frac{2 p}{\sum\limits_{j=1}^p E_{\lambda_{(k)}}\left[\tau_j^2 \mid \boldsymbol{Y}\right]}}$并令k=k+1；

4) 重复步骤2)-3)直至所需的收敛水平.

由于经验贝叶斯法需要多次Gibbs采样，因此该法计算量极大. 文献[14]提出了一种基于随机近似的单步方法作为替代，该方法可以仅使用单次Gibbs采样器来获得超参数的极大似然估计，从而极大减少计算量. 该法首先作变换λ_(k)=e^s_(k)，具体算法如下：

1) 令k=0并设初值为s₍₀₎=0，θ ₍₀₎=(β ₍₀₎，σ₍₀₎²，τ ₍₀₎²，V ₍₀₎)；

2) 从K_{s_(k)}(θ_(k)，·)中生成θ_(k+1)，其中K_s为联合后验分布p(· |Y，s)的Gibbs采样器的马尔科夫核；

3) 令$s_{(k+1)}=s_{(k)}+a_k\left(2 p-\mathrm{e}^{2 s_{(k)}} \sum\limits_{j=1}^p \tau_{j, (k+1)}^2\right) $令k=k+1；

4) 重复步骤2)-3)直至所需的迭代次数.

其中{a_k，k≥0} 为一个非降的正数序列，并满足以下性质

2. 数值模拟

本节将评估异方差误差先验下稳健贝叶斯LASSO的实验特性与优点. 根据式(1)生成数据，令X=[ι_n，X′]，ι_n为n维的单位向量，X′= [X₁，X₂，…，X_p-1]为多元正态分布N(0，Σ)生成，其中Σ_ij=0.5^|i-j|. 为了考虑系数向量不同的稀释度，所有模拟均设置n=100和p=50并令非零系数的个数q∈{10，20}. 此外，为了测试收缩的适应性，一半的非零系数从正态分布N(0，1)中生成，另一半非零系数从正态分布N(0，5)中抽样，从而使得一半的非零系数接近于0，另一半的非零系数则表现出更大的变化，剩余系数则设置为0. 每次模拟均使用5 000次迭代并取后2 500次抽样计算各参数的后验均值作为估计值，为了避免偶然性，模拟均重复100次. 为了考察所提方法对异常值的稳健性，本文考虑了4种不同的ε.

例1(异方差误差)：为了生成异方差误差，对于样本量n按照文献[15]生成随机组，其中组的个数由均匀分布U(3，20)抽样得出. 如果组个数大于10，则将该组所有样本的方差设置为等于组个数，否则将方差设置为组个数倒数的平方，并令ε的第i个元素为

其中：σ_i为第i个观测样本的标准差，ξ_i来自独立同分布的标准正态分布N(0，1).

例2(污染分布)：ε服从污染分布，其中前90%来自标准正态分布，后10%服从标准柯西分布.

例3(柯西分布)：ε服从标准柯西分布.

例4(拉普拉斯分布)：ε服从标准拉普拉斯分布.

为了衡量系数估计与变量选择的性能，本文采用均方误差(MSE)与平衡准确率(BAR)作为指标. 平衡准确率能综合衡量变量选择方法正确选择、错选、漏选变量的个数，其计算公式如下

其中TP，TN，FP，FN分别表示真阳性、真阴性、假阳性和假阴性的数量.

将本文提出的稳健贝叶斯LASSO方法简记为RBLASSO. 表 1列出了不施加异方差误差先验下几种常见方法与RBLASSO的实验结果，其中每项指标为基于100次模拟的平均值. 值得注意的是，贝叶斯方法的变量选择结果基于参数的95%置信区间. 若95%置信区间含0，则可认为该参数被识别为0.

从模拟结果可得，本文方法在大多数情况下都具有较好的综合表现，其中当误差分布为异方差时RBLASSO的各项性能指标均为最优. 根据对比可得，当非零系数的个数q增大时，即系数向量越密集时，每种方法的估计值往往会稍差，这是因为需要用相同数量的观测值估计更多的非零参数. 当误差分布服从标准柯西分布，即例子3时，不施加异方差误差先验下的贝叶斯LASSO的$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$相比其他误差分布大得多，而RBLASSO依然能保持较好的系数估计与变量选择能力，甚至在q增大时$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$反而减小，这表明了施加异方差误差先验对抵抗异常值具有重大作用.

4. 结论

本文通过将异方差误差先验引入贝叶斯LASSO，提出了贝叶斯LASSO的稳健模型并建立了相应的贝叶斯分层模型与Gibbs采样器，从而提高了对异常值及异方差误差的稳健性. 数值模拟和实证分析表明当存在异常值或异方差误差时，该方法能实现较简洁的模型与较低的误差，从而实现稳健的变量选择. 此外，该模型立足于贝叶斯思想，能方便地得到估计值的置信区间，从而弥补了LASSO类方法不能给出较好可信度评估的劣势.

参考文献 (17)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

变量选择的稳健贝叶斯LASSO方法

新疆大学数学与系统科学学院, 乌鲁木齐 830046

作者简介:
梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究 .

Robust Bayesian LASSO for Variable Selection

College of Mathematics and System Science, Xinjiang University, Urumqi 830046, China

计量

变量选择的稳健贝叶斯LASSO方法

作者简介: 梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究
新疆大学数学与系统科学学院, 乌鲁木齐 830046

English Abstract

Robust Bayesian LASSO for Variable Selection

全文HTML

1.1. Gibbs采样器

1.2. 超参数选取

3.1. 糖尿病数据集

3.2. 血浆β-胡萝卜素水平数据集

目录

留言板

变量选择的稳健贝叶斯LASSO方法

新疆大学 数学与系统科学学院, 乌鲁木齐 830046

作者简介: 梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究 .

Robust Bayesian LASSO for Variable Selection

College of Mathematics and System Science, Xinjiang University, Urumqi 830046, China

计量

出版历程

变量选择的稳健贝叶斯LASSO方法

作者简介: 梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究 新疆大学 数学与系统科学学院, 乌鲁木齐 830046

English Abstract

Robust Bayesian LASSO for Variable Selection

全文HTML

1.1. Gibbs采样器

1.2. 超参数选取

3.1. 糖尿病数据集

3.2. 血浆β-胡萝卜素水平数据集

目录

新疆大学数学与系统科学学院, 乌鲁木齐 830046

作者简介:
梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究 .

作者简介: 梁韵婷, 硕士研究生, 主要从事贝叶斯空间计量模型的研究
新疆大学数学与系统科学学院, 乌鲁木齐 830046