-
大数据时代已经到来,“数据”贯穿了生活的方方面面,在各行各业中都起着举足轻重的作用. 各个领域为了挖掘潜藏的数据价值,对已有数据进行分析建模,但同时也面临着真实场景过于复杂,易出现高维数据的情况. 在变量维数p远大于样本量n的情况下,传统低维统计分析方法往往显得力不从心. 首先模型的准确性难以得到保证,其次在解释变量大量增加的情况下,模型对于问题的可解释性变差,分析的焦点被模糊,并且在高维变量情况下,模型的复杂度提高,计算量增加,存在一定的求解困难. 因此,在建模过程中,变量选择显得尤为重要.
高维数据变量选择最常用的方法是基于罚函数的正则化方法[1],它可以同时进行变量选择和参数估计. 稀疏正则化方法的一般框架为
其中:l(β)为损失函数,pλ(·)为罚函数,λ为正则化参数. 常用的正则化方法有Lasso[2],adaptive Lasso[3],relaxed Lasso[4],SCAD[5],MCP[6]等. 在实际应用中,上述方法的正则化参数λ的调节是非常重要的,正则化参数λ的选择决定了模型的性能. 目前常采用CV(交叉验证)[7],GCV(广义交叉验证)[8],AIC(赤池信息准则)[9],BIC(贝叶斯信息准则)[8]等多种准则选择正则化参数λ,但是每种方法都有各自的优缺点. CV方法的预测误差小,但计算量庞大,而且没有完整理论推导,且解释性较差. GCV方法容易产生过拟合现象[8],从而不满足变量选择的一致性要求. AIC准则可以权衡估计模型的复杂度和模型拟合数据的优良性,但也易出现过拟合现象. BIC准则选择的模型更加接近于真实模型,但是它只考虑了变量选择,参数估计的效果不一定好. Hansen[10]针对岭回归问题提出最优化参数选择的L曲线法. L曲线方法简单易行,不受模型误差方差的影响,但L曲线方法不一定适用于Lasso正则化参数的选择.
鉴于以上原因,本文运用L曲线的思想,提出一种新的L曲线准则(LC)选择Lasso正则化参数. 通过数值模拟,比较CV,GCV,BIC与LC在Lasso方法中模型选择和参数估计的效果. 最后将该方法运用在实际数据中,分析探讨2019年186个国家经济自由指数的影响因素.
Regularization Parameter Selection of Lasso Based on L-curve
-
摘要: 大数据背景下, 基于罚函数的正则化方法是高维数据变量选择的重要方法. Lasso估计是常用的变量选择方法, 而Lasso正则化参数的取值直接影响选择模型的性能, 是正则化方法成败的关键. 针对Lasso估计, 提出一种新的L曲线(LC)准则选择正则化参数. 数值模拟和实际应用表明: 相比CV, GCV, BIC等准则, LC准则能够以较高的概率选择真实的模型, 并且具有较小的模型误差.Abstract: In the background of big data, the regularization method based on the penalty function is vital for variables selection of high-dimensional data. Lasso is a common method for variable selection. The value of Lasso regularization parameters directly affects the performance of the selection model, which is the key to the regularization method. Aiming at Lasso, the L-curve criterion for the selection of regularization parameters has been modified, and the new LC criterion been proposed. Through data simulation and practical application, compared with CV, GCV, BIC and other criteria, the LC criterion can select a real model with a higher probability and has a smaller model error.
-
Key words:
- high-dimensional data /
- variable selection /
- Lasso /
- LC criterion /
- regularization parameter selection .
-
表 1 低维数据模拟
σ (n,p) 准则 MME SD C IC Underfit Correctfit Overfit 1 n=100,p=12 CV 0.173 5 0.121 7 3.00 0.55 0.00 0.59 0.41 GCV 0.073 1 0.050 8 3.00 3.06 0.00 0.08 0.92 BIC 0.071 3 0.060 0 3.00 1.06 0.00 0.38 0.62 LC 0.126 4 0.163 3 3.00 0.13 0.00 0.87 0.13 n=100,p=20 CV 0.198 7 0.110 3 3.00 0.57 0.00 0.65 0.35 GCV 0.093 6 0.067 5 3.00 4.23 0.00 0.12 0.88 BIC 0.091 5 0.069 9 3.00 1.15 0.00 0.43 0.57 MLC 0.151 7 0.169 4 3.00 0.06 0.00 0.94 0.06 n=200,p=20 CV 0.133 8 0.056 9 3.00 0.44 0.00 0.70 0.30 GCV 0.042 8 0.028 5 3.00 3.25 0.00 0.10 0.90 BIC 0.045 3 0.036 4 3.00 0.93 0.00 0.43 0.57 LC 0.081 3 0.088 9 3.00 0.02 0.00 0.98 0.02 2 n=100,p=12 CV 0.665 8 0.423 2 3.00 0.45 0.00 0.66 0.34 GCV 0.272 0 0.218 0 3.00 2.38 0.00 0.18 0.82 BIC 0.266 6 0.218 0 3.00 0.92 0.00 0.39 0.61 LC 0.442 8 0.915 2 3.00 0.02 0.00 0.98 0.02 n=100,p=20 CV 0.772 5 0.397 0 3.00 0.64 0.00 0.56 0.44 GCV 0.308 1 0.254 4 3.00 3.68 0.00 0.11 0.89 BIC 0.337 0 0.248 4 3.00 1.16 0.00 0.40 0.60 LC 0.590 2 1.260 8 2.98 0.02 0.02 0.96 0.02 n=200,p=20 CV 0.461 6 0.228 0 3.00 0.36 0.00 0.69 0.31 GCV 0.172 2 0.129 1 3.00 3.89 0.00 0.15 0.85 BIC 0.166 4 0.119 4 3.00 0.91 0.00 0.43 0.57 LC 0.255 3 0.427 4 3.00 0.02 0.00 0.98 0.02 表 2 高维数据模拟
σ (n,p) 准则 MME SD C IC Underfit Correctfit Overfit 1 n=100,p=200 CV 0.273 5 0.122 8 3.00 1.55 0.00 0.51 0.49 BIC 0.237 0 0.107 1 3.00 0.44 0.00 0.63 0.37 LC 0.268 5 0.145 0 3.00 0.09 0.00 0.91 0.09 n=200,p=500 CV 0.185 0 0.072 2 3.00 0.74 0.00 0.69 0.31 BIC 0.116 5 0.056 9 3.00 0.44 0.00 0.67 0.33 LC 0.138 7 0.096 3 3.00 0.00 0.00 1.00 0.00 n=400,p=1 000 CV 0.106 5 0.040 2 3.00 0.48 0.00 0.80 0.20 BIC 0.063 9 0.028 2 3.00 0.16 0.00 0.85 0.15 LC 0.071 2 0.048 4 3.00 0.00 0.00 1.00 0.00 2 n=100,p=200 CV 1.177 2 0.555 4 3.00 1.48 0.00 0.49 0.51 BIC 0.894 4 0.544 5 3.00 0.45 0.00 0.64 0.36 LC 1.109 5 1.311 0 2.98 0.03 0.02 0.95 0.03 n=200,p=500 CV 0.665 5 0.309 6 3.00 1.03 0.00 0.67 0.33 BIC 0.473 8 0.252 0 3.00 0.28 0.00 0.78 0.22 LC 0.565 3 0.405 1 3.00 0.00 0.00 1.00 0.00 n=400,p=1 000 CV 0.431 6 0.166 2 3.00 0.97 0.00 0.80 0.20 BIC 0.268 5 0.123 2 3.00 0.22 0.00 0.81 0.19 LC 0.313 2 0.141 0 3.00 0.00 0.00 1.00 0.00 表 3 线性模型结果
变量 估计 标准差 T值 Pr(> |t|) β1 8.40E-02 3.26E-04 257.971 < 2E-16*** β2 8.30E-02 3.01E-04 275.615 < 2E-16*** β3 8.34E-02 3.03E-04 275.202 < 2E-16*** β4 8.33E-02 2.29E-04 363.631 < 2E-16*** β5 8.35E-02 1.35E-04 620.092 < 2E-16*** β6 8.33E-02 8.17E-05 1 018.977 < 2E-16*** β7 8.35E-02 2.70E-04 309.680 < 2E-16*** β8 8.33E-02 1.95E-04 427.345 < 2E-16*** β9 8.30E-02 3.03E-04 273.902 < 2E-16*** β10 8.31E-02 3.24E-04 256.286 < 2E-16*** β11 8.31E-02 1.99E-04 417.092 < 2E-16*** β12 8.34E-02 2.35E-04 354.345 < 2E-16*** Intercept 7.07E-06 1.18E-05 0.597 0.552 注:***表示极其显著. 表 4 不同方法下的参数估计结果
变量 OLS CV GCV BIC LC β1 13.136 9 4.942 5 12.983 0 11.639 1 0.000 0 β2 3.824 0 4.162 5 3.815 1 3.588 0 0.000 0 β3 1.896 6 3.437 4 2.031 5 2.550 3 5.873 1 β4 -5.336 1 5.501 7 -5.202 7 -5.166 0 -2.727 3 β5 1.279 9 5.102 2 1.019 8 0.000 0 -1.497 6 β6 6.693 7 5.972 8 6.661 5 6.416 5 0.000 0 β7 0.469 4 5.418 7 0.000 0 0.000 0 0.000 0 β8 3.843 6 4.987 8 3.617 7 2.220 6 0.000 0 β9 -19.985 1 5.823 0 -19.511 3 -17.388 7 0.000 0 β10 -16.914 9 5.876 9 -16.314 0 -13.797 4 0.000 0 β11 6.178 7 4.865 3 5.983 4 5.023 8 0.000 0 β12 7.716 8 4.523 5 7.696 2 7.562 6 0.000 0 -
[1] 曾津, 周建军. 高维数据变量选择方法综述[J]. 数理统计与管理, 2017, 36(4): 678-692. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-SLTJ201704012.htm [2] TIBSHIRANI R. Regression Shrinkage and Selection via the Lasso[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267-288. doi: 10.1111/j.2517-6161.1996.tb02080.x [3] ZOU H. The Adaptive Lasso and Its Oracle Properties[J]. Journal of the American Statistical Association, 2006, 101(476): 1418-1429. doi: 10.1198/016214506000000735 [4] doi: http://www.sciencedirect.com/science/article/pii/S0167947306004956 MEINSHAUSEN N. Relaxed Lasso[J]. Computational Statistics & Data Analysis, 2007, 52(1): 374-393. [5] FAN J Q, LI R Z. Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties[J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360. doi: 10.1198/016214501753382273 [6] doi: http://www.researchgate.net/profile/Cun-Hui_Zhang/publication/45903073_Nearly_unbiased_variable_selection_under_minimax_concave_penalty/links/56994b9a08aea14769433646/Nearly-unbiased-variable-selection-under-minimax-concave-penalty.pdf ZHANG C H. Nearly Unbiased Variable Selection under Minimax Concave Penalty[J]. The Annals of Statistics, 2010, 38(2): 894-942. [7] ALLEN D M. The Relationship between Variable Selection and Data Agumentation and a Method for Prediction[J]. Technometrics, 1974, 16(1): 125-127. doi: 10.1080/00401706.1974.10489157 [8] WANG H, LI R, TSAI C L. Tuning Parameter Selectors for the Smoothly Clipped Absolute Deviation Method[J]. Biometrika, 2007, 94(3): 553-568. doi: 10.1093/biomet/asm053 [9] doi: http://yaroslavvb.com/papers/zou-on.pdf ZOU H, HASTIE T, TIBSHIRANI R. On the "Degrees of Freedom" of the Lasso[J]. The Annals of Statistics, 2007, 35(5): 2173-2192. [10] CHEN J, CHEN Z. Extended Bayesian Information Criteria for Model Selection with Large Model Spaces[J]. Biometrika, 2008, 95(3): 759-771. doi: 10.1093/biomet/asn034 [11] HOERL A E, KENNARD R W. Ridge Regression: Biased Estimation for Nonorthogonal Problems[J]. Technometrics, 1970, 12(1): 55-67. doi: 10.1080/00401706.1970.10488634 [12] HANSEN P C. Analysis of Discrete Ill-Posed Problems by Means of the L-Curve[J]. SIAM Review, 1992, 34(4): 561-580. doi: 10.1137/1034115 [13] HANKE M. Conjugate Gradient Type Methods[M]//Conjugate Gradient Type Methods for Ill-Posed Problems. Englewood: Chapman and Hall/CRC, 2017: 7-34. [14] HANSEN P C, O'LEARY D P. The Use of the L-Curve in the Regularization of Discrete Ill-Posed Problems[J]. SIAM Journal on Scientific Computing, 1993, 14(6): 1487-1503. doi: 10.1137/0914086 [15] ZHU Y Z. An Augmented ADMM Algorithm with Application to the Generalized Lasso Problem[J]. Journal of Computational and Graphical Statistics, 2017, 26(1): 195-204. doi: 10.1080/10618600.2015.1114491