-
Cox模型[1]是处理生存数据的一种经典方法,常被广泛运用于医学、生物学、经济学、保险学等众多领域.尽管Cox模型是目前为止最有用的生存分析方法,但它却要求自变量间相互独立,至少不存在强相关的情况.此外,它还要求数据是大n小p类型.于是,经典Cox模型在处理强相关及大p小n问题时,就不再适用了.
Lasso方法为解决此类问题提供了新的思路. 1997年Tibshirani成功将该方法应用于Cox模型[2],进一步验证了它的实用性.针对Lasso估计在某些情况下不相合的问题,Zou于2006年提出了具有Oracle性质的Adaptive Lasso方法[3-5],很好克服了Lasso的不足.对于存在组效应的数据结构,Zou和Hastie在Lasso的基础上,提出了Elastic Net[6-8],防止了模型的过于稀疏,且有效处理了大p小n问题.同样,Elastic Net估计也不具有Oracle性质[9-10],而Zou和Zhang在Elastic Net的基础上,对l1惩罚部分加权,提出了具有Oracle性质的Adaptive Elastic Net方法[11].
在Cox模型的诸多变量选择方法[7, 12]中,对于存在强相关性的变量,Elastic Net方法较Lasso方法有更好的拟合效果和更高的预测能力,能将强相关变量全部选入或全部剔除模型.但美中不足的是,在模型精确度方面,Elastic Net方法对于零变量的估计却不及Adaptive Elastic Net方法.为此,将Adaptive Elastic Net方法应用于Cox模型的变量选择中,研究在该模型下Adaptive Elastic Net方法的相关性质是一件有意义的工作.
全文HTML
-
对于第i个个体,Cox模型的表达式为:
其中,样本容量为n,预测变量个数为p,协变量矩阵为X=(X1,X2,…,Xn),Xi=(xi1,xi2,…,xip)T为第i个个体的p个协变量,回归向量为β=(β1,β2,…,βp)T,h0(ti)为第i个个体的基准风险率,i=1,2,…,n.
现记观测数据为(Zi,δi,Xi),Zi为第i个个体的研究时间,令h0(t)恒定,则似然函数[13]为:
其中:δi为示性函数,事件删失时δi=0,事件发生时δi=1;Ri为ti时刻个体的风险集;k=1,2,…,p.
于是,借鉴Tibshirani[2]及Fan[10]提出的处理思想,极小化偏对数似然函数的相反数并添上适当的惩罚项便可定义Cox模型的Elastic Net估计:
进一步由
可得
其中λ1和λ2为调整参数,且满足λ1≥0,λ2≥0.
进一步,借鉴普通线性模型中Adaptive Elastic Net估计的定义思想[7, 11],在(1) 式的基础上,对l1惩罚部分加权,便可定义Cox模型的Adaptive Elastic Net估计:
其中:
${\hat \omega _k} = {(\left| {{{\hat \beta }_{(EN)k}}} \right|)^{ - \gamma }}$ ,γ为一正常数.
-
现研究Cox模型Adaptive Elastic Net估计的组效应性质.
定理1 对Cox模型,给定数据(Zi,δi,Xi)及参数(λ1*,λ2),响应变量已经中心化且自变量已经标准化.令xa=(x1a,x2a,…,xna)为n个个体的第a个协变量,xb=(x1b,x2b,…,xnb)为n个个体的第b个协变量,a,b=1,2,…,p.
$\hat \beta (\lambda_1^*,\lambda_2)$ 表示AEN估计,其中$\hat \beta_a (\lambda_1^*,\lambda_2)$ 和$\hat \beta_b (\lambda_1^*,\lambda_2)$ 是任意一组强相关变量xa和xb的系数.假设$\hat \beta_a (\lambda_1^*,\lambda_2)\hat \beta_b (\lambda_1^*,\lambda_2) > 0$ .定义
则
证 由于
$\hat \beta_a (\lambda_1^*,\lambda_2)\hat \beta_b (\lambda_1^*,\lambda_2) > 0$ ,故符号函数$\mathop{\rm sgn} \{\hat \beta_a (\lambda_1^*,\lambda_2)\} = \mathop{\rm sgn} \{\hat \beta_b (\lambda_1^*,\lambda_2)\}$ ,且$\hat \beta_a (\lambda_1^*,\lambda_2) \ne 0$ ,$\hat \beta_b (\lambda_1^*,\lambda_2) \ne 0$ .现令
$\hat \beta_m (\lambda_1^*,\lambda_2) \ne 0$ ,$\hat \beta (\lambda_1^*,\lambda_2) $ 满足其中
则由于
$\hat \beta_a (\lambda_1^*,\lambda_2) \ne 0$ ,故有成立.
即
于是
同理
将(3),(4) 式相减得到
其中r=1,2,…,p,故(5) 式可变形为
从而
于是,对于强相关变量xa和xb,由于xa和xb强相关,即E[xaxbT]→1,故对第i个个体,有
从而
由(6),(8) 式,有
故
由
可知
于是
由(7),(9),(10) 式,得到
即
证毕.
Dλ1*,λ2(a,b)刻画了两个变量系数估计之间的差距,这表明若xa和xb高度相关,则对应的系数估计之间的差距将趋于0.也就是说,Cox模型的AEN估计具有组效应性质,即强相关变量得到的系数估计大致相同.
-
上节从理论上揭示了Cox模型Adaptive Elastic Net估计的组效应性质.现通过数值模拟加以验证.
设xi~N(0,1),i=1,2,…,10,其中x3=x2,x7=x6,
$x_4 = 2x_1 +\frac{1}{3}x_2 +\frac{1}{3}x_3$ .则x3与x2强相关,x7与x6强相关,且x4与x1,x2及x3之间存在共线性.考虑Cox模型$h(t) = h_0(t)\exp(\sum\limits_{i=1}^{10} \beta_i x_i)$ ,t~U[0, 1],且真实参数为(-1,3,3,0,$\frac{1}{2}$ ,2,2,0,0,0)T,同时将该模型模拟1 000次,得到n=1 000,p=10的样本数据.分别运用Lasso方法、Adaptive Lasso(ALasso)方法、Elastic Net(EN)方法及Adaptive Elastic Net(AEN)方法对上述数据进行变量筛选[16-18],其中后3种方法的系数估计值可先转化为Lasso方法的形式,再利用Lars算法[19]得到.取
$\lambda_2 = \frac{1}{3}$ ,γ=3,而其他参数由交叉验证方法[20]选出,重复计算50次,取系数估计值的平均值,得到的系数估计值见下表 1.由表 1可知:
1) 对与x1,x2,x3存在共线性的x4,4种方法均没有将其选入模型,说明Lasso方法、Adaptive Lasso方法、Elastic Net方法及Adaptive Elastic Net方法均能处理共线性问题.
2) 比较Lasso方法和ALasso方法:在对x8,x9及x10这3个零变量的处理上,ALasso方法比Lasso方法精确.这体现了Adaptive Lasso方法在零变量的处理方面优于Lasso方法.
3) 比较EN方法和AEN方法:在对变量x8,x9及x10这3个零变量的处理上,AEN方法比EN方法精确.这体现了Adaptive Elastic Net方法在零变量的处理方面优于Elastic Net方法.
4) 比较ALasso方法和AEN方法:在对x2与x3,x6与x7这两组强相关变量的处理上,AEN方法能将强相关变量x2与x3,x6与x7全部选入模型,且这两组强相关变量的系数估计值相同,而ALasso方法只能选择强相关变量组中的一个变量.这体现了AEN方法具有组效应性质.
-
接下来,我们通过电信客户的实际数据来验证Cox模型Adaptive Elastic Net估计的优越性.
本实例来自对某高校在校大学生手机卡使用情况的调查. x1,x2,…,x10分别表示性别、年级、是否学生干部、是否少数民族、是否农业户口、是否生源地就读、是否移动用户、月均电话费用、售后服务质量、月均生活费用10个变量.调查时间从2007年1月开始至2014年1月结束,最终得到380份有效问卷.
对数据进行简单统计分析后发现,大多数变量间存在较高的相关性,故经典Cox模型不再适用.接下来,我们分别将Lasso方法、Adaptive Lasso(ALasso)方法、Elastic Net(EN)方法及Adaptive Elastic Net(AEN)方法运用于Cox模型中,得到的变量选择结果见表 2.
由表 2可知:
1) 4种方法均没有将变量x1和x7选入模型,这说明将Adaptive Elastic Net方法运用于Cox模型是可行的.
2) 对于具有较强相关性的x8与x10,Lasso和ALasso只选择了x10,而EN和AEN则把这两个强相关变量同时选入了模型,这表明Cox模型的Elastic Net方法和Adaptive Elastic Net方法能把强相关变量组中的变量全部选出;此外,在所有系数的估计值中,二者系数的差距最小.这表明Elastic Net方法和Adaptive Elastic Net方法能体现变量间的相关性,且相关系数越大,它们系数估计的差距就越小,这体现了Elastic Net方法和Adaptive Elastic Net方法的组效应性质.
3) 对与手机卡的流失无影响的x3和x4,AEN在对这两个零变量的处理上,比EN精确得多,这体现了Cox模型的Adaptive Elastic Net估计在零变量的处理方面优于Elastic Net.
综上,Cox模型的Adaptive Elastic Net估计优于其它3种估计.
-
Cox模型的Elastic Net方法在处理具有强相关性的生存数据方面,优于Cox模型的Lasso方法.但在模型精确度方面,Elastic Net方法对零变量的估计却不太理想.
为克服这一缺陷,本文将Adaptive Elastic Net方法运用于Cox模型的变量选择中,证明了在一定条件下,Cox模型的Adaptive Elastic Net估计具有组效应性质,即Adaptive Elastic Net方法能将强相关变量全部选入Cox模型.此外,数值模拟和具体实例既验证了其组效应性质,也表明了Cox模型的Adaptive Elastic Net估计对零变量的处理更准确.这表明,Cox模型的Adaptive Elastic Net方法优于其他3种方法.