Robust Bayesian LASSO for Variable Selection

LIANG Yunting; ZHANG Huiguo; HU Xijian

doi:10.13718/j.cnki.xsxb.2023.08.005

Given that the ubiquitous outliers in the data can distort the parameter estimation and variable selection results of Bayesian LASSO, the prior information of heteroscedastic disturbances is introduced to improve the robustness of Bayesian LASSO. The posterior distribution of each parameter is derived, and the estimation and confidence interval of each parameter are obtained by Gibbs sampling. The method exhibits low fitting error and high variable identification accuracy in numerical simulation, and the analyses of diabetes dataset and Plasma Beta-Carotene Level Dataset show that the proposed method achieves the balance between simplifying model and reducing prediction error. The proposed method can realize robust variable selection and coefficient estimation and has a good inhibitory effect to outliers and heteroscedastic disturbances that may be included in the data.

HTML

随着信息化时代的到来，大数据的应用越来越广泛，同时也不可避免地出现了异质性问题，表现出异方差特性. 而当数据中存在异方差误差或异常点时，变量选择的结果将不再稳定. 目前变量选择方法主要分为非贝叶斯方法和贝叶斯方法. 基于惩罚函数的变量选择是非贝叶斯方法的主流^[1-9]，最常见的包括LASSO(Least Absolute Shrinkage and Selection Operator)及其改进方法，如：EN(Elastic Net)、自适应LASSO(ALASSO)、组LASSO、SCAD(Smoothly Clipped Absolute Deviation)、MCP(Minimax Convex Penalty)、最小绝对偏差LASSO^[7]等. 尽管非贝叶斯方法已经取得了不错的成果，但这类方法都不能提供令人满意的标准差估计.

文献[1]表明当回归参数具有独立且相同的拉普拉斯先验时，LASSO估计可以解释为后验众数估计. 因此，基于该联系和贝叶斯思想，文献[10]提出了贝叶斯LASSO(BLASSO)并构造了全贝叶斯分层模型和相应的采样器. 文献[11]证明在预测均方误差方面，贝叶斯LASSO的表现与频率派LASSO相似甚至在某些情况下更好. 基于文献[10-13]的研究，本文将贝叶斯LASSO与异方差误差先验相结合，以实现稳健的变量选择与系数估计，同时该法能自动产生各参数的置信区间.

1. 分层模型

1.1. Gibbs采样器

考虑以下线性回归模型

其中：Y为n×1维的因变量，X为n×p维的解释变量，误差ε服从异方差的多元正态分布，V =diag(V₁，…，V_n)，则该模型的似然函数如式(2)所示

结合文献[10, 12]的工作，则全模型的分层表示为

将该模型的似然函数与各参数的先验分布相乘，可得联合后验分布为

基于式(3)，可得β的全条件后验分布服从均值为B ^-1 X ^T V ^-1 Y，方差为σ² B ^-1的多元正态分布，其中：B = X ^T V ^-1 X + D _τ^-1；σ²的全条件后验分布服从形状参数为$\frac{n}{2}+\frac{p}{2}+\alpha$，尺度参数为$\frac{(\boldsymbol{Y}-\boldsymbol{X} \boldsymbol{\beta})^{\mathrm{T}} \boldsymbol{V}^{-1}(\boldsymbol{Y}-\boldsymbol{X} \boldsymbol{\beta})}{2}+$$\frac{\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{D}_{\boldsymbol{r}}^{-1} \boldsymbol{\beta}}{2}+\gamma $的逆伽马分布；$\frac{1}{\tau_j^2} $的全条件后验分布服从形状参数为λ′=λ²，均值参数为$\mu^{\prime}=\sqrt{\frac{\lambda^2 \sigma^2}{\beta_j^2}}$的逆高斯分布；文献[12]得出V的全条件后验分布服从以下形式的卡方分布

式中e_i项为向量e = Y - Xβ的第i个元素，V _-i=(V₁，…，V_i-1，V_i+1，…，V_n)，i=1，…，n. 根据各参数后验分布可构造出稳健贝叶斯LASSO的Gibbs采样算法：

算法1：稳健贝叶斯LASSO的Gibbs采样器
输入：Y，X，迭代次数T_draw，预热次数T_omit，初值β₍₀₎，σ₍₀₎²，τ₍₀₎²，V₍₀₎
输出：$\hat{\boldsymbol{\beta}}, \hat{\sigma}^2, \hat{\tau}^2, \hat{\boldsymbol{V}} $
1：k←1
2：当k≤T_draw
3：从后验分布p(β\|Y，X，σ_(k-1)²，V_(k-1)，τ_(k-1)²)中抽样并记为β_(k)
4：从后验分布p(τ²\|Y，X，β_(k)，σ_(k-1)²，V_(k-1))中抽样并记为τ_(k)²
5：从后验分布p(σ²\|Y，X，β_(k)，V_(k-1)，τ_(k)²)中抽样并记为σ_(k)²
6：从后验分布p(V\|Y，X，β_(k)，σ_(k)²，τ_(k)²)中抽样并记为V_(k)
7：k←k+1
8：结束
9：删去前T_omit轮样本，取后T_draw-T_omit轮样本计算各参数的后验平均值作为估计值

1.2. 超参数选取

关于超参数λ²的选取，借鉴文献[10]提出的基于边际最大似然的经验贝叶斯法，具体算法如下：

1) 令k=0并设初值为$ \lambda_{(0)}=\frac{p \sqrt{\hat{\sigma}_{\mathrm{wLS}}^2}}{\sum\limits_{j=1}^p\left|\hat{\boldsymbol{\beta}}_{\mathrm{wLS}}^2\right|}$，其中$\hat{\sigma}_{\mathrm{WLS}}^2 \text { 和 } \hat{\boldsymbol{\beta}}_{\mathrm{WLS}}^2$为以普通线性最小二乘估计残差值的绝对值的倒数为权重的加权最小二乘估计值；

2) 令λ=λ_(k)并利用上述Gibbs采样器从β，σ²，τ ²，V的后验分布中生成第k轮样本；

3) 利用第k轮样本近似计算更新$\lambda_{(k+1)}=\sqrt{\frac{2 p}{\sum\limits_{j=1}^p E_{\lambda_{(k)}}\left[\tau_j^2 \mid \boldsymbol{Y}\right]}}$并令k=k+1；

4) 重复步骤2)-3)直至所需的收敛水平.

由于经验贝叶斯法需要多次Gibbs采样，因此该法计算量极大. 文献[14]提出了一种基于随机近似的单步方法作为替代，该方法可以仅使用单次Gibbs采样器来获得超参数的极大似然估计，从而极大减少计算量. 该法首先作变换λ_(k)=e^s_(k)，具体算法如下：

1) 令k=0并设初值为s₍₀₎=0，θ ₍₀₎=(β ₍₀₎，σ₍₀₎²，τ ₍₀₎²，V ₍₀₎)；

2) 从K_{s_(k)}(θ_(k)，·)中生成θ_(k+1)，其中K_s为联合后验分布p(· |Y，s)的Gibbs采样器的马尔科夫核；

3) 令$s_{(k+1)}=s_{(k)}+a_k\left(2 p-\mathrm{e}^{2 s_{(k)}} \sum\limits_{j=1}^p \tau_{j, (k+1)}^2\right) $令k=k+1；

4) 重复步骤2)-3)直至所需的迭代次数.

其中{a_k，k≥0} 为一个非降的正数序列，并满足以下性质

2. 数值模拟

本节将评估异方差误差先验下稳健贝叶斯LASSO的实验特性与优点. 根据式(1)生成数据，令X=[ι_n，X′]，ι_n为n维的单位向量，X′= [X₁，X₂，…，X_p-1]为多元正态分布N(0，Σ)生成，其中Σ_ij=0.5^|i-j|. 为了考虑系数向量不同的稀释度，所有模拟均设置n=100和p=50并令非零系数的个数q∈{10，20}. 此外，为了测试收缩的适应性，一半的非零系数从正态分布N(0，1)中生成，另一半非零系数从正态分布N(0，5)中抽样，从而使得一半的非零系数接近于0，另一半的非零系数则表现出更大的变化，剩余系数则设置为0. 每次模拟均使用5 000次迭代并取后2 500次抽样计算各参数的后验均值作为估计值，为了避免偶然性，模拟均重复100次. 为了考察所提方法对异常值的稳健性，本文考虑了4种不同的ε.

例1(异方差误差)：为了生成异方差误差，对于样本量n按照文献[15]生成随机组，其中组的个数由均匀分布U(3，20)抽样得出. 如果组个数大于10，则将该组所有样本的方差设置为等于组个数，否则将方差设置为组个数倒数的平方，并令ε的第i个元素为

其中：σ_i为第i个观测样本的标准差，ξ_i来自独立同分布的标准正态分布N(0，1).

例2(污染分布)：ε服从污染分布，其中前90%来自标准正态分布，后10%服从标准柯西分布.

例3(柯西分布)：ε服从标准柯西分布.

例4(拉普拉斯分布)：ε服从标准拉普拉斯分布.

为了衡量系数估计与变量选择的性能，本文采用均方误差(MSE)与平衡准确率(BAR)作为指标. 平衡准确率能综合衡量变量选择方法正确选择、错选、漏选变量的个数，其计算公式如下

其中TP，TN，FP，FN分别表示真阳性、真阴性、假阳性和假阴性的数量.

将本文提出的稳健贝叶斯LASSO方法简记为RBLASSO. 表 1列出了不施加异方差误差先验下几种常见方法与RBLASSO的实验结果，其中每项指标为基于100次模拟的平均值. 值得注意的是，贝叶斯方法的变量选择结果基于参数的95%置信区间. 若95%置信区间含0，则可认为该参数被识别为0.

从模拟结果可得，本文方法在大多数情况下都具有较好的综合表现，其中当误差分布为异方差时RBLASSO的各项性能指标均为最优. 根据对比可得，当非零系数的个数q增大时，即系数向量越密集时，每种方法的估计值往往会稍差，这是因为需要用相同数量的观测值估计更多的非零参数. 当误差分布服从标准柯西分布，即例子3时，不施加异方差误差先验下的贝叶斯LASSO的$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$相比其他误差分布大得多，而RBLASSO依然能保持较好的系数估计与变量选择能力，甚至在q增大时$\operatorname{MSE}(\hat{\boldsymbol{\beta}})$反而减小，这表明了施加异方差误差先验对抵抗异常值具有重大作用.

4. 结论

本文通过将异方差误差先验引入贝叶斯LASSO，提出了贝叶斯LASSO的稳健模型并建立了相应的贝叶斯分层模型与Gibbs采样器，从而提高了对异常值及异方差误差的稳健性. 数值模拟和实证分析表明当存在异常值或异方差误差时，该方法能实现较简洁的模型与较低的误差，从而实现稳健的变量选择. 此外，该模型立足于贝叶斯思想，能方便地得到估计值的置信区间，从而弥补了LASSO类方法不能给出较好可信度评估的劣势.

Figure (6) Table (4) Reference (17)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	TIBSHIRANI R. Regression Shrinkage and Selection via the Lasso [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 1996, 58(1): 267-288. Google Scholar
[2]	ZOU H, HASTIE T. Regularization and Variable Selection via the Elastic Net [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2005, 67(2): 301-320. doi: 10.1111/j.1467-9868.2005.00503.x CrossRef Google Scholar
[3]	ZOU H. The Adaptive Lasso and Its Oracle Properties [J]. Journal of the American Statistical Association, 2006, 101(476): 1418-1429. doi: 10.1198/016214506000000735 CrossRef Google Scholar
[4]	YUAN M, LIN Y. Model Selection and Estimation in Regression with Grouped Variables [J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2006, 68(1): 49-67. doi: 10.1111/j.1467-9868.2005.00532.x CrossRef Google Scholar
[5]	FAN J Q, LI R Z. Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties [J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360. doi: 10.1198/016214501753382273 CrossRef Google Scholar
[6]	ZHANG C H. Nearly Unbiased Variable Selection under Minimax Concave Penalty [J]. The Annals of Statistics, 2010, 38(2): 894-942. Google Scholar
[7]	WANG H S, LI G D, JIANG G H. Robust Regression Shrinkage and Consistent Variable Selection through the LAD-Lasso [J]. Journal of Business & Economic Statistics, 2007, 25(3): 347-355. Google Scholar
[8]	WU Y, LIU Y. Variable Selection in Quantile Regression [J]. Statistica Sinica, 2009, 19(2): 801-817. Google Scholar
[9]	WANG X Q, JIANG Y L, HUANG M, et al. Robust Variable Selection with Exponential Squared Loss [J]. Journal of the American Statistical Association, 2013, 108(502): 632-643. doi: 10.1080/01621459.2013.766613 CrossRef Google Scholar
[10]	PARK T, CASELLA G. The Bayesian Lasso [J]. Journal of the American Statistical Association, 2008, 103(482): 681-686. doi: 10.1198/016214508000000337 CrossRef Google Scholar
[11]	KYUNG M, GILL J, GHOSH M, et al. Penalized Regression, Standard Errors, and Bayesian Lassos [J]. Bayesian Analysis, 2010, 5(2): 369-412. Google Scholar
[12]	GEWEKE J. Bayesian Treatment of the Independent Student-t Linear Model [J]. Journal of Applied Econometrics, 1993, 8(S1): S19-S40. doi: 10.1002/jae.3950080504 CrossRef Google Scholar
[13]	LANGE K L, LITTLE R J A, TAYLOR J M G. Robust Statistical Modeling Using the t Distribution [J]. Journal of the American Statistical Association, 1989, 84(408): 881-896. Google Scholar
[14]	ATCHADÉ Y F. A Computational Framework for Empirical Bayes Inference [J]. Statistics and Computing, 2011, 21(4): 463-473. doi: 10.1007/s11222-010-9182-3 CrossRef Google Scholar
[15]	LIN X, LEE L F. GMM Estimation of Spatial Autoregressive Models with Unknown Heteroskedasticity [J]. Journal of Econometrics, 2010, 157(1): 34-52. doi: 10.1016/j.jeconom.2009.10.035 CrossRef Google Scholar
[16]	EFRON B, HASTIE T, JOHNSTONE I, et al. Least Angle Regression [J]. The Annals of Statistics, 2004, 32(2): 407-499. Google Scholar
[17]	NIERENBERG D W, STUKEL T A, BARON J A, et al. Determinants of Plasma Levels of beta-Carotene and Retinol [J]. American Journal of Epidemiology, 1989, 130(3): 511-521. doi: 10.1093/oxfordjournals.aje.a115365 CrossRef Google Scholar

Message Board

Robust Bayesian LASSO for Variable Selection

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors