-
辅助信息可以提高参数估计的精度,具体来说,利用辅助信息可以在抽样设计阶段改进抽样方法,获得更高代表性的样本.在估计量设计阶段,应用辅助变量可以改进估计方法.为了提高估计精度,可以在两个阶段充分使用辅助信息,这些信息可以是相同的,也可以考虑把多种信息结合起来.分层比率估计便是抽样设计和估计方法的一种结合.设U为由L层组成的研究总体,各层单元数记为N1,N2,…,NL,并且
$N = \sum\limits_{h = 1}^L {{N_h}} $ ,Y为研究变量,X为辅助变量,yh与xh为两变量在第h层的样本均值,yRS为变量Y总体均值的分别比率估计,则当辅助变量在第h层的总体均值μXh已知时,${\bar y_{RS}} = \sum\limits_{h = 1}^L {{W_h}} \frac{{{{\bar y}_h}}}{{{{\bar x}_h}}}{\mu _{Xh}}$ ,其中${W_h} = \frac{{{N_h}}}{N}$ 为第h层的层权,h=1,2,…,L[1].除均值外,如果还有辅助变量的其它信息能够利用,这些信息也可以用来提高分别比率估计的精度[2-4].在进行总体均值的比率估计时,以上的研究结果采用的都是分层随机抽样,而各层中样本的获取还可以利用排序集抽样方法进行,称为分层排序集抽样(SRSS)[5-9].
研究发现,辅助变量多个信息的结合可以一定程度上提高估计效率,而且基于分层排序集样本的分别比率估计的改进目前少见报道.鉴于此,为了进一步提高总体均值的估计精度,本文利用辅助变量的多个指标信息,基于分层排序集样本讨论了一种改进的分别比率估计量.
全文HTML
-
排序集抽样方法最初由McIntyre在估计牧草产量时提出[10],采用方法为:1次抽取r2个样本,随机地划分为r组,对每组样本进行排序,从第i组抽取秩为i的样本单元并具体测量,记为X(i),i=1,2,…,r,类似过程可重复进行.分层排序集抽样的特点是各层采用排序集抽样方式,而非随机抽样,具体过程为:1次从二维总体的第h层随机抽取容量为rh2的独立样本,随机划分为rh组,接着按照排序集抽样方式,依据辅助变量X对各层进行排序抽样,得到样本量为rh的分层排序集样本,h=1,2,…,L.若r=r1+r2+…+rh,重复上述过程m次,得到容量为mr的分层排序集样本,记为(Xh(1)k,Yh[1]k),(Xh(2)k,Yh[2]k),…,(Xh(rh)k,Yh[rh]k),k=1,2,…,m,其中Xh(i)k为变量X在第h层秩为i的次序统计量,Yh[i]k为伴随变量,i=1,2,…,rh.基于分层排序集样本,变量X,Y在第h层的样本均值为
${\bar X_{h\left( {{r_h}} \right)}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{X_{h(i)k}}} } $ ,${\bar Y_{h\left[{{r_h}} \right]}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{Y_{h[i]k}}} } $ ,其中nh=mrh,h=1,2,…,L.设μXh,μYh,σXh,σYh为总体在第h层的均值与标准差,并且${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $ .那么当μXh已知时,总体均值μY的分别比率估计量为:另外,根据文献[6]的研究,容易得到引理1、引理2的结论.
引理1 分层排序集抽样下,比率估计量ySRSS的近似均方误差为
其中:ρXhYh为变量X与Y在第h层的相关系数,TXh(i)=μXh(i)-μXh,TYh[i]=μYh[i]-μYh,μYh[i]=E(Yh[i]),μXh(i)=E(Xh(i)),
${R_h} = \frac{{{\mu _{{Y_h}}}}}{{{\mu _{{X_h}}}}}$ ,${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{{h_L}[i]}}}}$ .引理2 分层排序集抽样下,样本均值Xh(rh),Yh[rh]的估计方差与协方差为
其中:μYh[i]=E(Yh[i]),μXh(i)=E(Xh(i)),TXhYh(i)=(μXh(i)-μXh)(μYh[i]-μYh).
-
在进行比率估计时,通常采用的是单一的辅助信息,为了进一步提高估计精度,一些学者在分层随机抽样下,尝试利用辅助变量多种信息的结合,记βh为变量X在第h层的峰度系数,CXh为变异系数,则当这些系数已知时,可以得到相应的改进分别比率估计形式[2-4]:
相应估计量的均方误差为:
其中:μXh,μYh,σXh,σYh为第h层的均值与标准差;
${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$ ,${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$ ;ρXhYh为相关系数;${\lambda _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {C_{{X_h}}}}}$ ,${\eta _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {\beta _h}}}$ ,${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}\mu {x_h}}} + {\beta _h}}}$ .为了在抽样设计阶段进一步提高估计效率,文章受到上述比率估计改进方法的启发,尝试在分层排序集抽样下,将辅助变量变异系数和偏斜系数的线性组合做为辅助信息,重点研究如下的改进分别比率估计量:
其中:Xh(rh),Yh[rh]为排序集抽样下第h层的样本均值;μXh,μYh为总体在第h层的均值;CXh与βh为第h层变异系数和偏斜系数;总体均值
${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $ ,h=1,2,…,L.其它改进形式可类似讨论.为了比较估计量ySRSSp与估计量yRS3的估计效果,首先需要分析基于分层排序集样本的改进比率估计的估计无偏性和均方误差.令Yh[rh]=μYh(1+δ0),Xh(rh)=μXh(1+δ1),根据次序统计量的密度函数,容易验证E(Xh(rh))=μXh,E(Yh[rh])=μYh,则E(δ0)=0,E(δ1)=0,从而
$E\left( {\delta _0^2} \right) = D\left( {{\delta _0}} \right) = \frac{{D\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}} \right)}}{{\mu _{{Y_h}}^2}}$ ,利用引理2中的结论,容易得到同理
其中
${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$ ,${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$ ,${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$ ,${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$ .故
$E\left( {{\delta _1}{\delta _0}} \right) = \frac{1}{{{\mu _{{X_h}}}{\mu _{{Y_h}}}}}{\mathop{\rm cov}} \left( {{{\bar X}_{h\left( {{r_h}} \right)}}, {{\bar Y}_{h\left[{{r_h}} \right]}}} \right)$ ,由引理2得到其中:
${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$ ,${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$ ,${T_{{X_h}{Y_{h(i)}}}} = \left( {{\mu _{{X_{h(i)}}}}- {\mu _{{X_h}}}} \right)\left( {{\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}} \right)$ .定理1 当θh·δ1 < 1时,分层排序集抽样下,总体均值μY的改进比率估计量ySRSSP均方误差为:
其中:
${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$ ,${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$ ,${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$ ,${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{h\left[i \right]}}}}$ .证 MSE(ySRSSp)=
${\mathop{MSE}\nolimits} \left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = \sum\limits_{h = 1}^L {W_h^2} MSE\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right)$ 由于
${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\bar Y_{hc{r_h}}}\left( {\frac{1}{{1 + \frac{{{C_{{X_h}}}\left( {{{\bar X}_{h\left( {{r_h}} \right)}} -{\mu _{{X_h}}}} \right)}}{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}}}} \right)$ 而
其中
${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$ ,又因为${\bar Y_{{h_{\rm{L}}}[{r_h}]}} = {\mu _{{Y_h}}}\left( {1 + {\delta _0}} \right)$ ,从而当θh·δ1 < 1时,
$\frac{1}{{1 + {\theta _h}{\delta _1}}} = 1-{\theta _h}{\delta _1} + \theta _h^2\delta _1^2 + O\left( {{\theta _h}{\delta _1}} \right)$ ,故从而,
$\mathit{MSE}\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = E{\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} -{\mu _{{Y_h}}}} \right)^2} \approx \mu _{{Y_h}}^2E{\left( {{\delta _0} -{\theta _h}{\delta _1}} \right)^2}$ 即将(6),(7),(8)式代入(11)中,得到
定理2 在一阶泰勒近似下,分别比率估计量ySRSSP的估计偏差为
其中:TXh(i)=μXh(i)-μXh,TYh[i]=μYh[i]-μYh,TXhYh(i)=TXh(i)TYh[i],i=1,2,…,rh.
证 根据定义ySRSSp=
$\sum\limits_{h = 1}^L {{W_h}} {\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}$ ,由定理1中(10)式可知,${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\mu _{{Y_h}}}\frac{{1 + {\delta _0}}}{{1 + {\theta _h}{\delta _1}}}$ ,当θh·δ1 < 1时,利用泰勒展开式,得到故Bias(ySRSSp)=
$E\left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) -{\mu _Y}$ ,由于${\mu _Y} = \sum\limits_{h = 1}^L {{W_{h\mu {Y_h}}}} $ ,故利用(7),(8)式容易得到
其中:TXh(i)=μXh(i)-μXh,TYh[i]=μYh[i]-μYh,TXhYh(i)=TXh(i)TYh[i],i=1,2,…,rh.
定理2的结论表明,当循环次数m足够大时,ySRSSp仍然为总体均值μY的近似无偏估计量.
-
均方误差是衡量估计量有效性的重要标准,下面比较分层随机抽样下估计量yRS3与分层排序集抽样下估计量ySRSSp的均方误差.
定理3 如果各层样本容量相同,即nh=mrh时,分层随机抽样和分层排序集抽样下,总体均值的两种比率估计量yRS3与ySRSSp满足关系:MSE(ySRSSp)≤MSE(yRS3).
证 令
${\omega _{{X_{h(i)}}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}$ ,${\omega _{{Y_{h[i]}}}} = \frac{{{T_{{Y_{h\left[i \right]}}}}}}{{{\mu _{{Y_h}}}}}$ ,因为TXhYh(i)=TXh(i)·TYh[i],从而$\frac{{{T_{{X_h}{Y_{h(i)}}}}}}{{{\mu _{{X_h}}}\mu {Y_h}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}\frac{{{T_{{Y_{h[i]}}}}}}{{{\mu _{{Y_h}}}}}$ =ωXh(i)·ωYh[i],i=1,2,…,rh.故当nh=mrh时,利用式(4)容易得到
由于
$\sum\limits_{h = 1}^L {W_h^2} \frac{{\mu _{{Y_h}}^2}}{{mr_h^2}}\sum\limits_{i = 1}^{{r_h}} {{{\left( {{\omega _{{Y_{hi}}[i]}} -{\theta _h}{\omega _{{X_{h(i)}}}}} \right)}^2}} 0$ ,从而MSE(ySRSSp)≤MSE(yRS3).定理3表明,利用排序集样本代替随机样本的分别比率估计有效地降低了估计的均方误差,也即基于分层排序集样本的分别比率估计效率要高于分层随机抽样下的估计效率.
-
假定分层随机抽样和分层排序集抽样方法在每一层中样本容量和抽样比均相同,为了便于比较,只需研究一层的抽样估计结果.选取研究总体为二维正态分布N(μX,μY,σX2,σY2,ρ),相关系数分3种情形ρ=0.80,ρ=0.90,ρ=0.99分别讨论,不妨令μX=2,μY=4,σX=σY=1.首先基于matlab软件分别生成5 000个二维随机数,样本容量n分别取为30,60,90,进行排序集抽样时rh=3,循环次数m=10,20,30,采用随机抽样和排序集抽样两种抽样方法进行比较,利用R软件进行100次的统计模拟,均方误差计算公式为
$\mathit{MSE}(\hat \mu ) = \frac{1}{l}\sum\limits_{i = 1}^l {{{\left( {{{\hat \mu }_i}-\mu } \right)}^2}} $ ,其中:l为模拟次数,μ为参数真值,${\hat \mu _i}$ 为第i次估计值.具体计算结果如表 1所示.由表 1的计算结果容易看出,对于正态分布,随机抽样下利用辅助变量的变异系数和偏度系数改进估计量的效果并不显著,而以排序集样本代替随机抽样后的分别比率估计均方误差明显下降,说明估计精度的提高主要是抽样设计阶段充分利用辅助信息的结果.其它总体分布情况可做类似研究.
随机模拟假设总体是正态分布,为了进一步说明结论的可靠性,文章以77棵杨树第11年生长数据为研究对象[11],进行实例分析,具体数据见表 2.选取树木胸径为辅助变量,树木高度为研究变量,基于3种方法估计树木高度的总体均值.样本容量分别设定为15,30,60.由于排序集抽样nh=mrh,考虑到实际应用中,排序集容量过大容易造成误差,故选取rh=3,循环次数m分别为5,10,20.为了提高计算可信度,利用R软件重复计算100次,得到估计均方误差,计算结果见表 3.
表 3的计算结果表明:第一,无论采用哪一种抽样方法,均方误差都随着样本量的增加不断变小,排序集抽样方法变化更加明显;第二,与分层随机抽样下改进比率估计量相比,基于分层排序集样本和多指标线性组合的改进比率估计的精度进一步提高,特别是估计均方误差明显降低,也进一步说明改进比率估计量的有效性.
-
分层排序集抽样结合了分层抽样和排序集抽样的优点,基于该抽样方法可以建立多种比率估计形式.文章同时考虑辅助变量变异系数和偏斜系数,以两者的线性组合作为辅助信息,构造了改进的分别比率估计模型,并进一步研究了估计量的偏差和均方误差.最后,借助实际例子做了进一步分析,验证了估计量的有效性.