Penalized Expectile Estimationfor High-Dimensional Longitudinal Data

FAN Meihong; LI Tingting

doi:10.13718/j.cnki.xsxb.2023.06.010

Based on the expectile regression theory, the penaltyexpectile (PGEEE) estimation of high-dimensional longitudinal data has been proposed, andthe Oracle property ofthe estimator has been established under some regular conditions. Numerical simulation and empirical results demonstrate that the PGEEEestimation provides a consistent estimation of the regression coefficients ofthe model whilerealizingthe variableselection. Moreover, this method can effectivelyidentify heteroscedasticity, characterize the heterogeneous structure ofthe data, and mine the richerin for mation in the data.

HTML

在统计学中，有很多方法可以寻找数据间的潜在关系，刻画数据结构. 文献[1]提出的广义估计方程(generalized estimating equaiton，GEE)是很常见的一种分析纵向数据的统计方法，在研究数据内部关系及预测等方面有重要的作用. 此方法的优点是即使相关结构被误判，所得估计仍然是相合的. 在大数据时代，高维纵向数据能比时序数据和横截面数据提供更多的信息. 然而数据的高维性使模型变得复杂，降低了模型的估计精度. 带惩罚项的正则化估计是解决高维数据的常用方法. 文献[2]提出的SCAD惩罚和文献[3]提出的MCP惩罚是常见的非凸惩罚方法，具有Oracle性质. 文献[4-5]将GEE与惩罚函数相结合，提出了惩罚广义估计方程(penalized generalized estimating equation，PGEE)，模拟研究表明该方法在筛选出重要变量的同时得到模型回归系数的无偏估计.

在实际应用中，数据往往会呈现异质性. 文献[6]首次提出分位数回归(quantile regression，QR)方法，可以捕捉整个条件分布的特征. 文献[7]基于独立的数据结构提出纵向数据的线性分位数回归模型. 这不可避免地会损失估计效率. 进一步，文献[8]考虑纵向数据重复观测样本间的相关性，建立分位数GEE回归模型，提高了估计效率. 文献[9]对纵向数据的分位数回归模型添加惩罚项，提出了惩罚分位数回归模型.

QR方法对应的损失函数具有不可微性，这给数值计算带来了很大的难度，尤其对于高维复杂数据来说，该问题变得更加突出. 受分位数回归的启发，文献[10]将分位数回归中的非对称绝对值损失函数替换为非对称最小平方损失函数，提出了期望分位数(expectile)估计量. Expectile方法不仅继承了QR方法可以处理异质性的优点，且具有连续可微的损失函数，相较QR方法在计算上也有很大的优势. 在独立同分布的截面数据中，文献[11-12]将expectile回归与惩罚函数相结合，提出带有惩罚项的expectile回归模型，建立了Oracle性质，同时实现了变量选择和异方差识别. 文献[13]将expectile应用到纵向数据，提出了广义expectile估计方程(generalized expectile estimating equation，GEEE). 模拟结果显示，GEEE估计量可以识别出异方差，在保留分位数优点的同时，降低了计算难度. 近年来，作为QR方法的替代，expectile方法受到部分学者的关注，但在纵向数据变量选择方面的研究还不多见. 本文将截面数据的惩罚expectile回归模型扩展到纵向数据，提出PGEEE(penalized generalized expectile estimating equation)估计量. 模拟结果和实证分析显示，PGEEE估计量不仅可以实现高维数据的变量选择，并且同时为重要变量的回归系数进行估计. 更重要的是，PGEEE方法可以得到一系列τ水平下的变量选择和模型估计结果，详细地刻画了数据的异质结构，能够比GEE提供更多的信息.

1. 纵向数据的expectile回归和PGEEE模型

1.1. Expectile回归模型和PGEEE

定义随机变量Y的τ-expectile值为

其中τ∈(0，1)，ρ_τ(θ)=|τ-I(θ≤0)|·θ²是非对称平方损失函数，I是示性函数. 由τ-expectile的定义易知，当τ=0.5时，ρ_τ(·)等价于经典的最小二乘损失函数，则模型(1)对应经典的均值回归模型，μ_τ(Y)为随机变量Y的数学期望.

假设有纵向样本数据$\left(y_{i j}, \boldsymbol{X}_{i j}\right), i=1, \cdots, n, j=1, \cdots, m_i$满足如下的expectile线性回归模型

其中：n是个体的数目，m_i是第i个个体的测量次数，y_ij和$\boldsymbol{X}_{i j}=\left(X_{i j}^1, \cdots, X_{i j}^{p_n}\right)^{\mathrm{T}}$是第i个个体的第j次观测值，总观测次数$ N=\sum_{i=1}^n m_i \text {. }$在本文中，协变量的维数p_n可以是发散的. $\boldsymbol\varepsilon_i=\left(\varepsilon_{i 1}, \cdots, \varepsilon_{i m_i}\right)^{\mathrm{T}}$为误差值向量，满足其τ-expectile值μ_τ(ε _i)=0. β_n是p_n维未知参数，值得注意的是，β_n应与τ相关，在不引起混淆的情况下，本文忽略其下标τ. 记$\boldsymbol{y}_i=\left(y_{i 1}, \cdots, y_{i m_i}\right)^{\mathrm{T}}, \boldsymbol{X}_i=\left(\boldsymbol{X}_{i 1}, \cdots, \boldsymbol{X}_{i m_i}\right)^{\mathrm{T}}, $则模型(2)可表示为

对β _n的估计可以通过求解如下目标函数的最小值来获得，即

考虑重复观测时个体内的相关性，文献[13]在纵向数据协变量数固定的情况下提出了GEEE模型，即通过求解如下估计方程

获得系数β _n的估计. 其中，$\mathit{\boldsymbol\Psi}_\tau\left(\boldsymbol{y}_i-\boldsymbol{X}_i \boldsymbol{\beta}_n\right)=\operatorname{diag}\left(\psi_\tau\left(y_{i 1}-\boldsymbol{X}_{i 1}^{\mathrm{T}} \boldsymbol{\beta}_n\right), \cdots, \psi_\tau\left(y_{i m_i}-\boldsymbol{X}_{i m_i}^{\mathrm{T}} \boldsymbol{\beta}_n\right)\right), \psi_\tau(x)=|\tau-\mathrm{I}(x \leqslant 0)|, \hat{\boldsymbol{V}}_{i \tau}=\boldsymbol{A}_{i \tau}^{\frac{1}{2}} \boldsymbol{R}_i\left(\hat{\boldsymbol{\alpha}}_\tau\right) \boldsymbol{A}_{i \tau}^{\frac{1}{2}}, \boldsymbol{A}_{i \tau}=\operatorname{diag}\left(\sigma_{i 1}, \cdots, \sigma_{i m_i}\right), \sigma_{i j}=\operatorname{Var}\left(y_{i j} \mid \boldsymbol{X}_{i j}, \boldsymbol{\beta}_n\right), \boldsymbol{R}_i\left(\boldsymbol{\alpha}_\tau\right)$称为参数为α _τ的工作相关矩阵，用来代替真实的相关系数矩阵，具有独立(IND)，自回归(AR(1))，等相关(CS)，不确定性(UN)相关结构等. $\hat{\boldsymbol{\alpha}}_\tau$是参数α _τ的估计，本文使用矩估计，表达式详见算法过程.

进一步地，本文在协变量维数p_n发散的情况下，提出纵向数据的惩罚非对称最小二乘PGEEE估计，即通过求解如下估计方程

获得系数β _n的PGEEE估计. 其中，$\boldsymbol{P}_{\lambda_n}^{\prime}\left(\left|\boldsymbol{\beta}_n\right|\right)=\left(p_{\lambda_n}^{\prime}\left(\left|\boldsymbol{\beta}_{n 1}\right|\right), \cdots, p_{\lambda_n}^{\prime}\left(\left|\boldsymbol{\beta}_{_np_n}\right|\right)\right)^{\mathrm{T}}, p_{\lambda_n}(t)$是一个含有调节参数λ_n的非负惩罚函数，p′ _{λ_n}^(t)为p_{λ_n}^(t)的导数. $\operatorname{Sign}\left(\boldsymbol{\beta}_n\right)=\left(\operatorname{sign}\left(\boldsymbol{\beta}_{n 1}\right), \cdots, \operatorname{sign}\left(\boldsymbol{\beta}_{n p_n}\right)\right)^{\mathrm{T}}, \operatorname{sign}(t)=\mathrm{I}(t>0)-\mathrm{I}(t <0)$为符号函数. $\boldsymbol{P}_{\lambda n}^{\prime}\left(\left|\boldsymbol{\beta}_n\right|\right) \operatorname{Sign}\left(\boldsymbol{\beta}_n\right)$定义为对应元素相乘得到的向量. 本文考虑MCP和SCAD两种惩罚方法. MCP惩罚函数的数学表达式为

为简化模型，参考文献[14]，取γ=3. SCAD惩罚函数的数学表达式为

根据文献[2]建议取γ=3.7. 此时模型(6)中需要选择的参数只有λ_n，本文使用BIC准则来选取，表达式见算法过程.

1.2. 求解算法

Step1：给定一个λ_n，求解(4)式获得初始值$\hat{\boldsymbol\beta}_n^{(0)}$

Step2：$\hat{\varepsilon}_{i t \tau}=y_{i t}-\boldsymbol{X}_{i t}^{\mathrm{T}} \hat{\boldsymbol{\beta}}_n^{(k)}, $计算相关系数.

Step3：使用如下迭代式计算$\hat{\boldsymbol{\beta}}_n^{(k+1)}:$

其中$\boldsymbol{E}_n\left(\hat{\boldsymbol{\beta}}_n\right)=\operatorname{diag}\left\{\frac{p_{\lambda_n}^{\prime}\left(\left|\hat{\beta}_1\right|+\right)}{\left|\hat{\beta}_1\right|}, \cdots, \frac{p_{\lambda_n}^{\prime}\left(\left|\hat{\beta}_{p_n}\right|+\right)}{\left|\hat{\beta}_{p_n}\right|}\right\} .$

tep4：重复Step2-Step3直至收敛，并计算λ_n对应的BIC值，其表达式为

其中，df表示λ_n对应模型所选择的变量个数.

Step5：重复Step1-Step4，选取BIC值最小的λ_n作为惩罚因子，对应的$\hat{\boldsymbol{\beta}}_n$为未知参数最优解.

2. Oracle性质

记m=max{m_i，i=1，…，n}，参数真值为$\boldsymbol{\beta}_{n 0}=\left(\boldsymbol{\beta}_{n 0(1)}^{\mathrm{T}}, \boldsymbol{\beta}_{n 0(2)}^{\mathrm{T}}\right)^{\mathrm{T}}$不失一般性，设$\boldsymbol{\beta}_{n 0(1)}$为s维非零元素构成的向量，$\boldsymbol{\beta}_{n 0(2)}$为p_n^-s维零向量，$\boldsymbol{\beta}_{n 0(2)}=\bf{0}, $则协变量矩阵可记为$\boldsymbol{X}_i=\left(\boldsymbol{X}_{i(1)}, \boldsymbol{X}_{i(2)}\right), \boldsymbol{X}_{i(1)}=\left(\boldsymbol{X}_{i 1(1)}, \cdots,\right.\left.\boldsymbol{X}_{i m_i(1)}\right), \boldsymbol{X}_{i j(1)}$为$\boldsymbol{X}_{i j}$的前s个元素构成的向量. C，C₁，C₂，…代表与n无关的正常数，不同地方可以取不同的值. 为了证明估计量的性质，本文需要以下假设条件：

(A1) $\sup {i, j}\left\|\boldsymbol{X}_{i j}\right\|=O_p\left(\sqrt{p_n}\right) ;\left\{\left(\boldsymbol{X}_i, \boldsymbol{y}_i\right)\right\}_{i=1}^n$独立，且$\operatorname{Var}\left[\mathit{\Psi}_\tau\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\right]=\mathrm{E}\left[\mathit{\Psi}_\tau\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)^{\mathrm{T}}\mathit{\Psi}_\tau\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\right]=\boldsymbol{\Sigma}_{i \tau} ;$存在υ>0，Δ>0，使$\mathrm{E}\left|\psi_\tau\left(\varepsilon_{i j \tau}\right)\right|^{4+υ} <\Delta, \mathrm{E}\left|\varepsilon_{i j \tau}\right|^{4+υ} <\Delta ;$

(A2) 估计协方差阵$\hat{\boldsymbol{V}}_{i \tau}$满足$\left\|\hat{\boldsymbol{V}}_{i \tau}^{-1}-\overline{\boldsymbol{V}}_{i \tau}^{-1}\right\|=O_p\left(\sqrt{\frac{p_n}{n}}\right), $其中$\overline{\boldsymbol{V}}_{i \tau}$是满足$C_1 \boldsymbol{I}_{m_i} \leqslant \overline{\boldsymbol{V}}_{i z} \leqslant C_2 \boldsymbol{I}_{m_i}$的正定阵($\overline{\boldsymbol{V}}_{i \tau}$可以不等于真实协方差阵$V_{i 0 r}$)，I _m_i是m_i阶单位阵. $\|\boldsymbol{A}\|=\left[\operatorname{tr}\left(\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}}\right)\right]^{\frac{1}{2}}$表示矩阵A的Frobenius范数；

(A3) 存在两个正常数C₁，C₂，使得$C_1 \leqslant \lambda_{\min }\left(\frac{1}{n} \sum\limits_{i=1}^n \boldsymbol{X}_i^{\mathrm{T}} \boldsymbol{X}_i\right) \leqslant \lambda_{\max }\left(\frac{1}{n} \sum\limits_{i=1}^n \boldsymbol{X}_i^{\mathrm{T}} \boldsymbol{X}_i\right) \leqslant C_2, \lambda_{\min }, \lambda_{\max }$分别表示矩阵的最小和最大特征根；

(A4) 记$\boldsymbol{P}_1=\boldsymbol{P}_{\lambda_n}^{\prime}\left(\left|\boldsymbol{\beta}_{n 0(1)}\right|\right) \operatorname{Sign}\left(\boldsymbol{\beta}_{n 0(1)}\right), \boldsymbol{P}_2=\operatorname{diag}\left(p_{\lambda_n}^{\prime \prime}\left(\beta_{10}\right), \cdots, p_{\lambda_n}^{\prime \prime}\left(\beta_{s 0}\right)\right) ; \boldsymbol{D}_\tau=\lim\limits _{n \rightarrow \infty} \frac{1}{n} \sum\limits_{i=1}^n \boldsymbol{X}_{i(1)}^{\mathrm{T}} \overline{\boldsymbol{V}}_{i \tau}^{-1} \boldsymbol{\Sigma}_{i \tau} \overline{\boldsymbol{V}}_{i \tau}^{-1} \boldsymbol{X}_{i(1)}, \mathit{\boldsymbol\Phi}_\tau=\lim\limits _{n \rightarrow \infty} \frac{1}{n} \sum\limits_{i=1}^n \boldsymbol{X}_{i(1)}^{\mathrm{T}} \overline{\boldsymbol{V}}_{i \tau}^{-1} \mathrm{E}\left[\mathit{\Psi}_\tau\left(\boldsymbol{y}_i-\boldsymbol{X}_{i(1)} \boldsymbol{\beta}_{n 0(1)}\right)\right] \boldsymbol{X}_{i(1)}$

(A5) $\frac{1}{n} p_n^3 \rightarrow 0;$

(A6) $a_n=\max\limits _{1 \leqslant k \leqslant p_n}\left\{p_{\lambda_n}^{\prime}\left(\left|\beta_{j 0}\right|\right), \beta_{j 0} \neq 0\right\}=O\left(n^{-\frac{1}{2}}\right), b_n=\max\limits _{1 \leqslant k \leqslant p_n}\left\{p_{\lambda_n}^{\prime \prime}\left(\left|\beta_{j 0}\right|\right), \beta_{j 0} \neq 0\right\} \rightarrow 0 ;$

(A7) $\liminf \limits_{n \rightarrow \infty} \liminf \limits_{\theta \rightarrow 0+} \frac{p_{\lambda_n}^{\prime}(\theta)}{\lambda_n}>0, \frac{1}{\lambda_n} \sqrt{\frac{p_n}{n}} \rightarrow 0 .$

定理1 记方程(6)的解$\hat{\boldsymbol{\beta}}_n$为模型(2)中系数$\boldsymbol{\beta}_n$的PGEEE估计. 当(A1)-(A7)满足，若$\lambda_n \rightarrow 0, $且当$n \rightarrow \infty$时，$\frac{\sqrt{\frac{p_n}{n}}}{\lambda_n} \rightarrow 0, $那么存在$\hat{\boldsymbol{\beta}}_n=\left(\hat{\boldsymbol{\beta}}_{n(1)}^{\mathrm{T}}, \hat{\boldsymbol{\beta}}_{n(2)}^{\mathrm{T}}\right)^{\mathrm{T}}$满足

(i) (稀疏性) $\hat{\boldsymbol{\beta}}_{n(2)}=\bf{0} ;$

(ii) (渐近正态性) $\sqrt{n}\left(\mathit{\boldsymbol\Phi}_\tau+\boldsymbol{P}_2\right)\left(\hat{\boldsymbol{\beta}}_{n(1)}-\boldsymbol{\beta}_{n 0(1)}+\left(\mathit{\boldsymbol\Phi}_\tau+\boldsymbol{P}_2\right)^{-1} \boldsymbol{P}_1\right) \rightarrow N\left(\bf{0}, \boldsymbol{D}_\tau\right)$

注定理1表明所提出的方法可以选出正确的模型，同时实现对重要变量回归系数的参数估计，称为Oracle性质^[2].

定理1的证明：

(i) 令$\alpha_n=\sqrt{\frac{p_n}{n}}.$第一步证明相合性，即$\left\|\hat{\boldsymbol{\beta}}_n-\boldsymbol{\beta}_{n 0}\right\|=O_p\left(\sqrt{\frac{p_n}{n}}\right) .$只需证明对任意的$ \epsilon>0 \text {, }$，都存在一个大的常数D，使得

成立即可. 根据表达式，有

计算I的阶. 令$\overline{\boldsymbol{S}}\left(\boldsymbol{\beta}_n\right)=\sum_{i=1}^n \boldsymbol{X}_i^{\mathrm{T}} \overline{\boldsymbol{V}}_{i \tau}^{-1} \mathit{\boldsymbol\Psi}_{\mathrm{\tau}}\left(\boldsymbol{y}_i-\boldsymbol{X}_i \boldsymbol{\beta}_n\right)\left(\boldsymbol{y}_i-\boldsymbol{X}_i \boldsymbol{\beta}_n\right), $有

其中

考虑I₁₁，有

由Cauchy-Schwarz不等式知，$\left|I_{11}\right| \leqslant\left\|\boldsymbol{\beta}_n-\boldsymbol{\beta}_{n 0}\right\|\left\|\overline{\boldsymbol{S}}\left(\boldsymbol{\beta}_{n 0}\right)\right\|=O_p\left(\sqrt{\frac{p_n}{n} \cdot \sqrt{n p_n}}\right)\|u\|=\|u\| O_p\left(p_n\right) .$令$\hat{\boldsymbol{V}}_{i \tau}^{-1}-\overline{\boldsymbol{V}}_{i \tau}^{-1}=\left(q_{i t s}\right)_{1 <t, s <m_i}, $有

且

由(18)式知，$\left|I_{12}\right|=O_p\left(\sqrt{\frac{p_n}{n}} \cdot \sqrt{\frac{p_n}{n}} \cdot \sqrt{n p_n}\right)\|u\|=o_p\left(p_n\right)\|u\| \text {, }$因此

将I₂分为两部分计算，有

记

其中由(A3)知

又因为

由(24)式得，$\left|I_{21}^b\right|=O_p\left(\sqrt{n p_n} \cdot \alpha_n\right)\|u\|=O_p\left(p_n\right)\|u\|, $故$\left|I_{21}\right|=-O_p\left(p_n\right)\|u\|^2+O_p\left(p_n\right)\|u\| .$类似地，计算I₂₂.

其中

又

由(28)式知，$I_{22}^b=O_p\left(\sqrt{p_n} \cdot \alpha_n\right)\|u\|=o_p\left(p_n\right)\|u\|, $则$I_{22}=-o_p\left(p_n\right)\|u\|^2+o_p\left(p_n\right)\|u\| .$因此，有

由(19)，(29)式可得，(14)式的值由(29)式控制，小于0. 易知(13)式中的第二项以$n\;\;{\alpha\;_n}^2\|\;u\;\|\;\;+n \;\;b\;_n \;\alpha\;_n\;^2\;\|\;u\;\|\;^2$为界，因此可以找到一个足够大的D，使得(13)式的值完全由(29)式决定. (12)式得证.

接着证明稀疏性$\hat{\boldsymbol{\beta}}_{n(2)}=\bf{0}$即对于任意$\left\|\boldsymbol{\beta}_{n(1)}-\boldsymbol{\beta}_{n o(1)}\right\|=O_p\left(\sqrt{\frac{p_n}{n}}\right)$，存在$\varepsilon_n=C \sqrt{\frac{p_n}{n}}, j=s+1, \cdots, $p_n, 使得

由相合性证明过程知$\left\|\boldsymbol{S}\left(\boldsymbol{\beta}_n\right)\right\|=O_p\left(\sqrt{n p_n}\right)$因此

由(A7)可知，(31)式的符号完全由β_j的符号决定. (30)式得证.

(ii) 由相合性证明过程知，$\boldsymbol{Q}\left(\left(\boldsymbol{\beta}_{n(1)}^{\mathrm{T}}, \bf{0}^{\mathrm{T}}\right)^{\mathrm{T}}\right)$存在$\sqrt{\frac{n}{p_n}}$相合的局部最小值. 令$\hat{\boldsymbol{\beta}}_n$为局部最小值，则其满足如下方程

即

根据文献[13]可知，$-\frac{1}{n}\left(\mathrm{E}\left[\overline{\boldsymbol{S}}\left(\boldsymbol{\beta}_{n 0(1)}\right)\right]\right)^{\prime} \stackrel{p}{\longrightarrow} \mathit{\boldsymbol\Phi}_{\mathrm{r}}, \frac{1}{\sqrt{n}} \overline{\boldsymbol{S}}\left(\boldsymbol{\beta}_{n 0(1)}\right) \rightarrow N\left(0, \boldsymbol{D}_{\mathrm{r}}\right)$由条件(A4)可知，$I I=n \boldsymbol{P}_1+n \boldsymbol{P}_2\left(\hat{\boldsymbol{\beta}}_{n(1)}-\boldsymbol{\beta}_{n 0(1)}\right)$由Slutsky定理可得

定理证毕.

3. 模拟研究

为了研究所提方法的有限样本性质，本文比较了不同的惩罚方法及相关结构下所提出方法的效果. 数据来源于以下模型

对于协变量的生成分为两步：第一步，生成$\boldsymbol{Z}_{i j}=\left(Z_{i j}^1, \cdots, Z_{i j}^{p n}\right)^{\mathrm{T}}, $来源于多元正态分布N(0，R _{p_n})，$\left(\boldsymbol{R}_{p_n}\right)_{a, b}=0.5^{|a-b|}, 1 \leqslant a, b \leqslant p_n .$第二步，令$X_{i j}^l=Z_{i j}^l, l \neq k, X_{i j}^k=F\left(Z_{i j}^k\right), $生成p_n维向量$\boldsymbol{X}_{i j}^{\mathrm{T}}=\left(X_{i j}^1, \cdots, X_{i j}^{p_j}\right), F(\bullet)$表示标准正态分布的分布函数，主要用于刻画数据中的异方差. $\varepsilon_i^{\mathrm{T}}=\left(\varepsilon_{i 1}, \cdots, \varepsilon_{i m_i}\right)$服从多元正态分布N(0，R_i). 分别考虑如下三种情形：

情形1   $p_n=10, k=9, m_i=4, n=50, 100, 200, \boldsymbol{\beta}_n=(-3, 5, 0, 0, 4, 0, 0, 2, 0, 0)^{\mathrm{T}}. \boldsymbol{R}_i$是参数为0.9的等相关结构矩阵.

情形2   k=2，m_i服从参数为(3，6)的均匀分布，R _i是参数为0.9的AR(1)结构矩阵. 其余设置和情形1一样.

情形3  p_n=30，n=100，200. β _n =(-3，5，0，0，4，0，0，2，0，0，…，0)^T. 其余设置和情形1一样.

注  在情形1和情形3中，τ=0.5时，真实模型中的自变量为$X_{i j}^1, X_{i j}^2, X_{i j}^5, X_{i j}^8 ; \tau=0.9$时，真实模型中的自变量为$X_{i j}^1, X_{i j}^2, X_{i j}^5, X_{i j}^8, X_{i j}^9$. 情形1与情形3的设置可以比较在不同的τ下PGEEE选择的模型，同时观察协变量维数增加时的模型估计效果. 情形2中，无论τ取何值，真实模型中的自变量均为$X_{i j}^{1 i}, X_{i j}^2, X_{i j}^5, X_{i j}^8$但部分回归系数与τ有关. τ=0.5时，β₂=5；τ=0.9时，β₂=6.29. 情形2的设置可以比较PGEEE在不同τ水平下的估计精度.

重复模拟100次，表 1-3给出了3种情形下MCP和SCAD两种惩罚方法的PGEEE估计结果. 使用指标Size(平均选取变量个数)，FN(重要变量被误认为噪音变量的平均个数)，FP(噪音变量被选择的平均个数)，Prob(X_ij⁹被选出的概率)，MSE(估计量的均方误差)，MAE(回归系数β₂估计量的平均绝对误差)来衡量估计量的优劣. 模拟结果显示：

(i) SCAD和MCP两种惩罚方法并无明显的优劣之分. FN均为0，表示所有重要的变量都被识别，FP接近0，表明噪音变量被选择的可能性很小；

(ii) 在情形1和情形3中，τ=0.9时，Prob等于1，而τ=0.5时，Prob的值接近0. 这表明所提出的估计量PGEEE可以在不同的τ水平下，有效识别出正确的模型，刻画数据中的异方差结构；

(iii) 在不同的τ水平下，即使选择的变量相同，参数估计值也可能不同(情形2). 在此情形下，估计量的MSE和MAE随着样本量增大而减小，表示该方法可以在识别出异方差的同时实现回归参数的一致估计；

(iv) 对比情形1和情形3，协变量维数p_n从10增加至30，结果显示模型中噪音变量数量增加时，PGEEE估计表现依然较好，且估计量MSE减小，表明该方法可以用于分析高维数据，排除无关变量，识别出重要变量.

(v) 考虑相关结构时估计量的表现总体上优于独立(IND)的情形. 即使相关结构被误判后，参数估计效果依然很好，尤其使用UN结构时.

5. 结语

本文基于expectile提出了高维纵向数据的PGEEE估计量，在实现模型变量选择的同时，对模型的回归系数进行估计. 在正则条件下本文建立了PGEEE估计量的Oracle性质. 数值模拟结果显示，MCP与SCAD惩罚及不同的协方差结构在变量选择方面并无明显差异. 相较于独立结构，考虑相关结构时回归系数的估计效率更高. 多数情况下，不确定结构(UN)的PGEEE估计量具有较好的估计精度. 最后建立工资数据的PGEEE模型，可以看到在不同的τ水平下，影响工资的因素有所区别，同一个因素影响程度也可能不同. 这表明PGEEE可以有效识别数据中的异质结构，比经典的惩罚估计方程估计(PGEE)挖掘出更丰富的信息，更合理地分析了工资的影响因素.

Figure (1) Table (4) Reference (15)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	LIANG K Y, ZEGER S L. Longitudinal Data Analysis Using Generalized Linear Models [J]. Biometrika, 1986, 73(1) : 13-22. doi: 10.1093/biomet/73.1.13 CrossRef Google Scholar
[2]	FANJ Q, LI R Z. Variable Selection via Nonconcave Penalized Likelihood andIts Oracle Properties [J]. Journal oftheAmerican Statistical Association, 2001, 96(456) : 1348-1360. doi: 10.1198/016214501753382273 CrossRef Google Scholar
[3]	ZHANG C H. Nearly Unbiased Variable Selection under Minimax Concave Penalty [J]. The Annals of Statistics, 2010, 38(2) : 894-942. Google Scholar
[4]	WANG L, ZHOUJ H, QU A N. Penalized Generalized Estimating Equationsfor High-Dimensional Longitudinal DataAnalysis [J]. Biometrics, 2012, 68(2) : 353-360. doi: 10.1111/j.1541-0420.2011.01678.x CrossRef Google Scholar
[5]	DZIAKJ, LI R. Penalized Generalized Estimating Equationsfor Variable Selection with Longitudinal Data [M]. Berlin: Springer, 2020. Google Scholar
[6]	KOENKER R, BASSETT G. Regression Quantiles [J]. Econometrica, 1978, 46(1) : 33-50. doi: 10.2307/1913643 CrossRef Google Scholar
[7]	CHEN L, WEI LJ, PARZEN MI. Quantile Regressionfor Correlated Observations [M]//Proceedings ofthe Second Seattle Symposiumin Biostatistics. New York: Springer New York, 2004: 51-69. Google Scholar
[8]	LU X M, FAN Z Z. Weighted Quantile Regressionfor Longitudinal Data [J]. Computational Statistics, 2015, 30(2) : 569-592. doi: 10.1007/s00180-014-0550-x CrossRef Google Scholar
[9]	KOENKER R. Quantile Regressionfor Longitudinal Data [J]. Journal of Multivariate Analysis, 2004, 91(1) : 74-89. doi: 10.1016/j.jmva.2004.05.006 CrossRef Google Scholar
[10]	NEWEY W K, POWELLJ L. Asymmetric Least Squares Estimationand Testing [J]. Econometrica, 1987, 55(4) : 819-847. doi: 10.2307/1911031 CrossRef Google Scholar
[11]	GU Y, ZOU H. High-Dimensional Generalizations of Asymmetric Least Squares Regressionand Their Applications [J]. The Annals of Statistics, 2016, 44(6) : 2661-2694. Google Scholar
[12]	LIAO L N, PARK C, CHOI H. Penalized Expectile Regression: an Alternativeto Penalized Quantile Regression [J]. Annals oftheInstituteof Statistical Mathematics, 2019, 71(2) : 409-438. doi: 10.1007/s10463-018-0645-1 CrossRef Google Scholar
[13]	BARRY A, OUALKACHA K, CHARPENTIER A. A New GEE Method to Account for Heteroscedasticity UsingAsymmetric Least-Square Regressions [J]. Journal of Applied Statistics, 2022, 49(14) : 3564-3590. doi: 10.1080/02664763.2021.1957789 CrossRef Google Scholar
[14]	周霖, 罗幼喜. 混合效应模型的双MCP惩罚分位回归研究[J]. 华中师范大学学报(自然科学版), 2021, 55(6) : 991-999, 1012. Google Scholar
[15]	CORNWELL C, RUPERT P. Efficient Estimation with Panel Data: an Empirical Comparison of Instrumental VariablesEstimators [J]. Journal of Applied Econometrics, 1988, 3(2) : 149-155. doi: 10.1002/jae.3950030206 CrossRef Google Scholar

Message Board

Penalized Expectile Estimationfor High-Dimensional Longitudinal Data

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors