Modified Separate Ratio Estimators of Population Mean and its Application

Song-shan QIAO; Jian-jun ZHANG

doi:10.13718/j.cnki.xsxb.2019.05.007

Auxiliary information can be used in sampling design and estimation design. In this paper, with ranked set samples instead of the random samples in stratified sampling, we have proposed the new separate ratio estimators of population mean based on linear Combination of Multiple Indexes of Auxiliary Variable. We have obtained the bias and mean squared error of the proposed estimators and compared the estimated accuracy of new separate ratio estimators with traditional separate ratio estimators. The results are supported by stochastic simulation and numerical example.

HTML

辅助信息可以提高参数估计的精度，具体来说，利用辅助信息可以在抽样设计阶段改进抽样方法，获得更高代表性的样本.在估计量设计阶段，应用辅助变量可以改进估计方法.为了提高估计精度，可以在两个阶段充分使用辅助信息，这些信息可以是相同的，也可以考虑把多种信息结合起来.分层比率估计便是抽样设计和估计方法的一种结合.设U为由L层组成的研究总体，各层单元数记为N₁，N₂，…，N_L，并且$N = \sum\limits_{h = 1}^L {{N_h}} $，Y为研究变量，X为辅助变量，y_h与x_h为两变量在第h层的样本均值，y_RS为变量Y总体均值的分别比率估计，则当辅助变量在第h层的总体均值μ_Xh已知时，${\bar y_{RS}} = \sum\limits_{h = 1}^L {{W_h}} \frac{{{{\bar y}_h}}}{{{{\bar x}_h}}}{\mu _{Xh}}$，其中${W_h} = \frac{{{N_h}}}{N}$为第h层的层权，h=1，2，…，L^[1].

除均值外，如果还有辅助变量的其它信息能够利用，这些信息也可以用来提高分别比率估计的精度^[2-4].在进行总体均值的比率估计时，以上的研究结果采用的都是分层随机抽样，而各层中样本的获取还可以利用排序集抽样方法进行，称为分层排序集抽样(SRSS)^[5-9].

研究发现，辅助变量多个信息的结合可以一定程度上提高估计效率，而且基于分层排序集样本的分别比率估计的改进目前少见报道.鉴于此，为了进一步提高总体均值的估计精度，本文利用辅助变量的多个指标信息，基于分层排序集样本讨论了一种改进的分别比率估计量.

1. 分层排序集抽样及相关结论

排序集抽样方法最初由McIntyre在估计牧草产量时提出^[10]，采用方法为：1次抽取r²个样本，随机地划分为r组，对每组样本进行排序，从第i组抽取秩为i的样本单元并具体测量，记为X_(i)，i=1，2，…，r，类似过程可重复进行.分层排序集抽样的特点是各层采用排序集抽样方式，而非随机抽样，具体过程为：1次从二维总体的第h层随机抽取容量为r_h²的独立样本，随机划分为r_h组，接着按照排序集抽样方式，依据辅助变量X对各层进行排序抽样，得到样本量为r_h的分层排序集样本，h=1，2，…，L.若r=r₁+r₂+…+r_h，重复上述过程m次，得到容量为mr的分层排序集样本，记为(X_h(1)k，Y_h[1]k)，(X_h(2)k，Y_h[2]k)，…，(X_{h(r_h)k}，Y_{h[r_h]k})，k=1，2，…，m，其中X_h(i)k为变量X在第h层秩为i的次序统计量，Y_h[i]k为伴随变量，i=1，2，…，r_h.基于分层排序集样本，变量X，Y在第h层的样本均值为${\bar X_{h\left( {{r_h}} \right)}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{X_{h(i)k}}} } $，${\bar Y_{h\left[{{r_h}} \right]}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{Y_{h[i]k}}} } $，其中n_h=mr_h，h=1，2，…，L.设μ_{X_h}，μ_{Y_h}，σ_{X_h}，σ_{Y_h}为总体在第h层的均值与标准差，并且${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $.那么当μ_{X_h}已知时，总体均值μ_Y的分别比率估计量为：

另外，根据文献[6]的研究，容易得到引理1、引理2的结论.

引理1 分层排序集抽样下，比率估计量y_SRSS的近似均方误差为

其中：ρ_{X_hY_h}为变量X与Y在第h层的相关系数，T_{X_h(i)}=μ_{X_h(i)}－μ_{X_h}，T_{Y_h[i]}=μ_{Y_h[i]}－μ_{Y_h}，μ_{Y_h[i]}=E(Y_h[i])，μ_{X_h(i)}=E(X_h(i))，${R_h} = \frac{{{\mu _{{Y_h}}}}}{{{\mu _{{X_h}}}}}$，${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{{h_L}[i]}}}}$.

引理2 分层排序集抽样下，样本均值X_{h(r_h)}，Y_{h[r_h]}的估计方差与协方差为

其中：μ_{Y_h[i]}=E(Y_h[i])，μ_{X_h(i)}=E(X_h(i))，T_{X_hY_h(i)}=(μ_{X_h(i)}－μ_{X_h})(μ_{Y_h[i]}－μ_{Y_h}).

2. 分别比率估计的改进方法及性质

在进行比率估计时，通常采用的是单一的辅助信息，为了进一步提高估计精度，一些学者在分层随机抽样下，尝试利用辅助变量多种信息的结合，记β_h为变量X在第h层的峰度系数，C_{X_h}为变异系数，则当这些系数已知时，可以得到相应的改进分别比率估计形式^[2-4]：

相应估计量的均方误差为：

其中：μ_{X_h}，μ_{Y_h}，σ_{X_h}，σ_{Y_h}为第h层的均值与标准差；${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$，${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$；ρ_{X_hY_h}为相关系数；${\lambda _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {C_{{X_h}}}}}$，${\eta _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {\beta _h}}}$，${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}\mu {x_h}}} + {\beta _h}}}$.

为了在抽样设计阶段进一步提高估计效率，文章受到上述比率估计改进方法的启发，尝试在分层排序集抽样下，将辅助变量变异系数和偏斜系数的线性组合做为辅助信息，重点研究如下的改进分别比率估计量：

其中：X_{h(r_h)}，Y_{h[r_h]}为排序集抽样下第h层的样本均值；μ_{X_h}，μ_{Y_h}为总体在第h层的均值；C_{X_h}与β_h为第h层变异系数和偏斜系数；总体均值${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $，h=1，2，…，L.其它改进形式可类似讨论.

为了比较估计量y_SRSS^p与估计量y_RS³的估计效果，首先需要分析基于分层排序集样本的改进比率估计的估计无偏性和均方误差.令Y_{h[r_h]}=μ_{Y_h}(1+δ₀)，X_{h(r_h)}=μ_{X_h}(1+δ₁)，根据次序统计量的密度函数，容易验证E(X_{h(r_h)})=μ_{X_h}，E(Y_{h[r_h]})=μ_{Y_h}，则E(δ₀)=0，E(δ₁)=0，从而$E\left( {\delta _0^2} \right) = D\left( {{\delta _0}} \right) = \frac{{D\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}} \right)}}{{\mu _{{Y_h}}^2}}$，利用引理2中的结论，容易得到

同理

其中${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$，${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$，${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$，${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$.

故$E\left( {{\delta _1}{\delta _0}} \right) = \frac{1}{{{\mu _{{X_h}}}{\mu _{{Y_h}}}}}{\mathop{\rm cov}} \left( {{{\bar X}_{h\left( {{r_h}} \right)}}, {{\bar Y}_{h\left[{{r_h}} \right]}}} \right)$，由引理2得到

其中：${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$，${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$，${T_{{X_h}{Y_{h(i)}}}} = \left( {{\mu _{{X_{h(i)}}}}- {\mu _{{X_h}}}} \right)\left( {{\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}} \right)$.

定理1  当θ_h·δ₁ < 1时，分层排序集抽样下，总体均值μ_Y的改进比率估计量y_SRSS^P均方误差为：

其中：${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$，${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$，${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$，${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{h\left[i \right]}}}}$.

证  MSE(y_SRSS^p)=${\mathop{MSE}\nolimits} \left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = \sum\limits_{h = 1}^L {W_h^2} MSE\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right)$

由于${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\bar Y_{hc{r_h}}}\left( {\frac{1}{{1 + \frac{{{C_{{X_h}}}\left( {{{\bar X}_{h\left( {{r_h}} \right)}} -{\mu _{{X_h}}}} \right)}}{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}}}} \right)$

而

其中${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$，又因为${\bar Y_{{h_{\rm{L}}}[{r_h}]}} = {\mu _{{Y_h}}}\left( {1 + {\delta _0}} \right)$，从而

当θ_h·δ₁ < 1时，$\frac{1}{{1 + {\theta _h}{\delta _1}}} = 1-{\theta _h}{\delta _1} + \theta _h^2\delta _1^2 + O\left( {{\theta _h}{\delta _1}} \right)$，故

从而，$\mathit{MSE}\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = E{\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} -{\mu _{{Y_h}}}} \right)^2} \approx \mu _{{Y_h}}^2E{\left( {{\delta _0} -{\theta _h}{\delta _1}} \right)^2}$即

将(6)，(7)，(8)式代入(11)中，得到

定理2  在一阶泰勒近似下，分别比率估计量y_SRSS^P的估计偏差为

其中：T_{X_h(i)}=μ_{X_h(i)}－μ_{X_h}，T_{Y_h[i]}=μ_{Y_h[i]}－μ_{Y_h}，T_{X_hY_h(i)}=T_{X_h(i)}T_{Y_h[i]}，i=1，2，…，r_h.

证  根据定义y_SRSS^p=$\sum\limits_{h = 1}^L {{W_h}} {\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}$，由定理1中(10)式可知，${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\mu _{{Y_h}}}\frac{{1 + {\delta _0}}}{{1 + {\theta _h}{\delta _1}}}$，当θ_h·δ₁ < 1时，利用泰勒展开式，得到

故Bias(y_SRSS^p)=$E\left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) -{\mu _Y}$，由于${\mu _Y} = \sum\limits_{h = 1}^L {{W_{h\mu {Y_h}}}} $，故

利用(7)，(8)式容易得到

其中：T_{X_h(i)}=μ_{X_h(i)}－μ_{X_h}，T_{Y_h[i]}=μ_{Y_h[i]}－μ_{Y_h}，T_{X_hY_h(i)}=T_{X_h(i)}T_{Y_h[i]}，i=1，2，…，r_h.

定理2的结论表明，当循环次数m足够大时，y_SRSS^p仍然为总体均值μ_Y的近似无偏估计量.

3. 改进比率估计量的有效性

均方误差是衡量估计量有效性的重要标准，下面比较分层随机抽样下估计量y_RS³与分层排序集抽样下估计量y_SRSS^p的均方误差.

定理3 如果各层样本容量相同，即n_h=mr_h时，分层随机抽样和分层排序集抽样下，总体均值的两种比率估计量y_RS³与y_SRSS^p满足关系：MSE(y_SRSS^p)≤MSE(y_RS³).

证令${\omega _{{X_{h(i)}}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}$，${\omega _{{Y_{h[i]}}}} = \frac{{{T_{{Y_{h\left[i \right]}}}}}}{{{\mu _{{Y_h}}}}}$，因为T_{X_hY_h(i)}=T_{X_h(i)}·T_{Y_h[i]}，从而$\frac{{{T_{{X_h}{Y_{h(i)}}}}}}{{{\mu _{{X_h}}}\mu {Y_h}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}\frac{{{T_{{Y_{h[i]}}}}}}{{{\mu _{{Y_h}}}}}$=ω_{X_h(i)}·ω_{Y_h[i]}，i=1，2，…，r_h.故

当n_h=mr_h时，利用式(4)容易得到

由于$\sum\limits_{h = 1}^L {W_h^2} \frac{{\mu _{{Y_h}}^2}}{{mr_h^2}}\sum\limits_{i = 1}^{{r_h}} {{{\left( {{\omega _{{Y_{hi}}[i]}} -{\theta _h}{\omega _{{X_{h(i)}}}}} \right)}^2}} 0$，从而MSE(y_SRSS^p)≤MSE(y_RS³).

定理3表明，利用排序集样本代替随机样本的分别比率估计有效地降低了估计的均方误差，也即基于分层排序集样本的分别比率估计效率要高于分层随机抽样下的估计效率.

4. 随机模拟与算例分析

假定分层随机抽样和分层排序集抽样方法在每一层中样本容量和抽样比均相同，为了便于比较，只需研究一层的抽样估计结果.选取研究总体为二维正态分布N(μ_X，μ_Y，σ_X²，σ_Y²，ρ)，相关系数分3种情形ρ=0.80，ρ=0.90，ρ=0.99分别讨论，不妨令μ_X=2，μ_Y=4，σ_X=σ_Y=1.首先基于matlab软件分别生成5 000个二维随机数，样本容量n分别取为30，60，90，进行排序集抽样时r_h=3，循环次数m=10，20，30，采用随机抽样和排序集抽样两种抽样方法进行比较，利用R软件进行100次的统计模拟，均方误差计算公式为$\mathit{MSE}(\hat \mu ) = \frac{1}{l}\sum\limits_{i = 1}^l {{{\left( {{{\hat \mu }_i}-\mu } \right)}^2}} $，其中：l为模拟次数，μ为参数真值，${\hat \mu _i}$为第i次估计值.具体计算结果如表 1所示.

由表 1的计算结果容易看出，对于正态分布，随机抽样下利用辅助变量的变异系数和偏度系数改进估计量的效果并不显著，而以排序集样本代替随机抽样后的分别比率估计均方误差明显下降，说明估计精度的提高主要是抽样设计阶段充分利用辅助信息的结果.其它总体分布情况可做类似研究.

随机模拟假设总体是正态分布，为了进一步说明结论的可靠性，文章以77棵杨树第11年生长数据为研究对象^[11]，进行实例分析，具体数据见表 2.选取树木胸径为辅助变量，树木高度为研究变量，基于3种方法估计树木高度的总体均值.样本容量分别设定为15，30，60.由于排序集抽样n_h=mr_h，考虑到实际应用中，排序集容量过大容易造成误差，故选取r_h=3，循环次数m分别为5，10，20.为了提高计算可信度，利用R软件重复计算100次，得到估计均方误差，计算结果见表 3.

表 3的计算结果表明：第一，无论采用哪一种抽样方法，均方误差都随着样本量的增加不断变小，排序集抽样方法变化更加明显；第二，与分层随机抽样下改进比率估计量相比，基于分层排序集样本和多指标线性组合的改进比率估计的精度进一步提高，特别是估计均方误差明显降低，也进一步说明改进比率估计量的有效性.

5. 结论

分层排序集抽样结合了分层抽样和排序集抽样的优点，基于该抽样方法可以建立多种比率估计形式.文章同时考虑辅助变量变异系数和偏斜系数，以两者的线性组合作为辅助信息，构造了改进的分别比率估计模型，并进一步研究了估计量的偏差和均方误差.最后，借助实际例子做了进一步分析，验证了估计量的有效性.

Table (3) Reference (11)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	杜子芳.抽样技术及其应用[M].北京:清华大学出版社, 2005:133-137. Google Scholar
[2]	KADILAR C, CINGI H. Ratio Estimators in Stratified Random Sampling[J]. Biometrical Journal, 2003, 45(2):218-225. doi: 10.1002/bimj.200390007 CrossRef Google Scholar
[3]	TAILOR R, CHOUHAN S. Ratio Type Estimator of Ratio of Two Population Means in Stratified Random Sampling[J]. Journal of Modern Applied Statistical Methods, 2012, 11(1):279-283. doi: 10.22237/jmasm/1335846300 CrossRef Google Scholar
[4]	YAN Z, TIAN B. Ratio Method to the Mean Estimation Using Coefficient of Skewness of Auxiliary Variable[M]//Information Computing and Applications. Berlin: Springer, 2010. Google Scholar
[5]	SAMAWI H M. Stratified Ranked Set Sample[J]. Pakistan Journal of Statistics, 1996, 12(1):9-16. Google Scholar
[6]	SAMAWI H M, SIAM M I. Ratio Estimation Using Stratified Ranked Set Sample[J]. Metron-International Journal of Statistics, 2003, LXI(1):75-90. Google Scholar
[7]	张建军, 乔松珊.基于分层排序集抽样方法的改进比率估计[J].华中师范大学学报(自然科学版), 2015, 49(6):816-821. doi: 10.3969/j.issn.1000-1190.2015.06.002 CrossRef Google Scholar
[8]	MANDOWARRA V L, MEHTA N M. Modifiedratio Estimators Using Stratified Ranked Set Sampling[J].Hacettepe Journal of Mathematics and Statistics, 2014, 43(3):461-471. Google Scholar
[9]	KHAN L, SHABBIR J, GUPTA S. Unbiased Ratio Estimators of the Mean in Stratified Ranked Set Sampling[J]. Hacettepe Journal of Mathematics and Statistics, 2016, 46(108):1-11. doi: 10.15672/HJMS.201610814857 CrossRef Google Scholar
[10]	MCINTYRE G A. A Method for Unbiased Selective Sampling, Using Ranked Sets[J]. The American Statistician, 2005, 59(3):230-232. doi: 10.1198/000313005X54180 CrossRef Google Scholar
[11]	ZHAO W, HOU W, LITTELL R C, et al. Structured Antedependence Models for Functional Mapping of Multiple Longitudinal Traits[J]. Statistical Applications in Genetics and Molecular Biology, 2005, 4(1):1-29. Google Scholar

Message Board

Modified Separate Ratio Estimators of Population Mean and its Application

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors