Message Board

Dear readers, authors and reviewers,you can add a message on this page. We will reply to you as soon as possible!

2019 Volume 44 Issue 5
Article Contents

Song-shan QIAO, Jian-jun ZHANG. Modified Separate Ratio Estimators of Population Mean and its Application[J]. Journal of Southwest China Normal University(Natural Science Edition), 2019, 44(5): 34-40. doi: 10.13718/j.cnki.xsxb.2019.05.007
Citation: Song-shan QIAO, Jian-jun ZHANG. Modified Separate Ratio Estimators of Population Mean and its Application[J]. Journal of Southwest China Normal University(Natural Science Edition), 2019, 44(5): 34-40. doi: 10.13718/j.cnki.xsxb.2019.05.007

Modified Separate Ratio Estimators of Population Mean and its Application

More Information
  • Received Date: 12/08/2017
    Available Online: 20/05/2019
  • MSC: O212.1

  • Auxiliary information can be used in sampling design and estimation design. In this paper, with ranked set samples instead of the random samples in stratified sampling, we have proposed the new separate ratio estimators of population mean based on linear Combination of Multiple Indexes of Auxiliary Variable. We have obtained the bias and mean squared error of the proposed estimators and compared the estimated accuracy of new separate ratio estimators with traditional separate ratio estimators. The results are supported by stochastic simulation and numerical example.
  • 加载中
  • [1] 杜子芳.抽样技术及其应用[M].北京:清华大学出版社, 2005:133-137.

    Google Scholar

    [2] KADILAR C, CINGI H. Ratio Estimators in Stratified Random Sampling[J]. Biometrical Journal, 2003, 45(2):218-225. doi: 10.1002/bimj.200390007

    CrossRef Google Scholar

    [3] TAILOR R, CHOUHAN S. Ratio Type Estimator of Ratio of Two Population Means in Stratified Random Sampling[J]. Journal of Modern Applied Statistical Methods, 2012, 11(1):279-283. doi: 10.22237/jmasm/1335846300

    CrossRef Google Scholar

    [4] YAN Z, TIAN B. Ratio Method to the Mean Estimation Using Coefficient of Skewness of Auxiliary Variable[M]//Information Computing and Applications. Berlin: Springer, 2010.

    Google Scholar

    [5] SAMAWI H M. Stratified Ranked Set Sample[J]. Pakistan Journal of Statistics, 1996, 12(1):9-16.

    Google Scholar

    [6] SAMAWI H M, SIAM M I. Ratio Estimation Using Stratified Ranked Set Sample[J]. Metron-International Journal of Statistics, 2003, LXI(1):75-90.

    Google Scholar

    [7] 张建军, 乔松珊.基于分层排序集抽样方法的改进比率估计[J].华中师范大学学报(自然科学版), 2015, 49(6):816-821. doi: 10.3969/j.issn.1000-1190.2015.06.002

    CrossRef Google Scholar

    [8] MANDOWARRA V L, MEHTA N M. Modifiedratio Estimators Using Stratified Ranked Set Sampling[J].Hacettepe Journal of Mathematics and Statistics, 2014, 43(3):461-471.

    Google Scholar

    [9] KHAN L, SHABBIR J, GUPTA S. Unbiased Ratio Estimators of the Mean in Stratified Ranked Set Sampling[J]. Hacettepe Journal of Mathematics and Statistics, 2016, 46(108):1-11. doi: 10.15672/HJMS.201610814857

    CrossRef Google Scholar

    [10] MCINTYRE G A. A Method for Unbiased Selective Sampling, Using Ranked Sets[J]. The American Statistician, 2005, 59(3):230-232. doi: 10.1198/000313005X54180

    CrossRef Google Scholar

    [11] ZHAO W, HOU W, LITTELL R C, et al. Structured Antedependence Models for Functional Mapping of Multiple Longitudinal Traits[J]. Statistical Applications in Genetics and Molecular Biology, 2005, 4(1):1-29.

    Google Scholar

  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Tables(3)

Article Metrics

Article views(1474) PDF downloads(95) Cited by(0)

Access History

Other Articles By Authors

Modified Separate Ratio Estimators of Population Mean and its Application

Abstract: Auxiliary information can be used in sampling design and estimation design. In this paper, with ranked set samples instead of the random samples in stratified sampling, we have proposed the new separate ratio estimators of population mean based on linear Combination of Multiple Indexes of Auxiliary Variable. We have obtained the bias and mean squared error of the proposed estimators and compared the estimated accuracy of new separate ratio estimators with traditional separate ratio estimators. The results are supported by stochastic simulation and numerical example.

  • 辅助信息可以提高参数估计的精度,具体来说,利用辅助信息可以在抽样设计阶段改进抽样方法,获得更高代表性的样本.在估计量设计阶段,应用辅助变量可以改进估计方法.为了提高估计精度,可以在两个阶段充分使用辅助信息,这些信息可以是相同的,也可以考虑把多种信息结合起来.分层比率估计便是抽样设计和估计方法的一种结合.设U为由L层组成的研究总体,各层单元数记为N1N2,…,NL,并且$N = \sum\limits_{h = 1}^L {{N_h}} $Y为研究变量,X为辅助变量,yhxh为两变量在第h层的样本均值,yRS为变量Y总体均值的分别比率估计,则当辅助变量在第h层的总体均值μXh已知时,${\bar y_{RS}} = \sum\limits_{h = 1}^L {{W_h}} \frac{{{{\bar y}_h}}}{{{{\bar x}_h}}}{\mu _{Xh}}$,其中${W_h} = \frac{{{N_h}}}{N}$为第h层的层权,h=1,2,…,L[1].

    除均值外,如果还有辅助变量的其它信息能够利用,这些信息也可以用来提高分别比率估计的精度[2-4].在进行总体均值的比率估计时,以上的研究结果采用的都是分层随机抽样,而各层中样本的获取还可以利用排序集抽样方法进行,称为分层排序集抽样(SRSS)[5-9].

    研究发现,辅助变量多个信息的结合可以一定程度上提高估计效率,而且基于分层排序集样本的分别比率估计的改进目前少见报道.鉴于此,为了进一步提高总体均值的估计精度,本文利用辅助变量的多个指标信息,基于分层排序集样本讨论了一种改进的分别比率估计量.

1.   分层排序集抽样及相关结论
  • 排序集抽样方法最初由McIntyre在估计牧草产量时提出[10],采用方法为:1次抽取r2个样本,随机地划分为r组,对每组样本进行排序,从第i组抽取秩为i的样本单元并具体测量,记为X(i)i=1,2,…,r,类似过程可重复进行.分层排序集抽样的特点是各层采用排序集抽样方式,而非随机抽样,具体过程为:1次从二维总体的第h层随机抽取容量为rh2的独立样本,随机划分为rh组,接着按照排序集抽样方式,依据辅助变量X对各层进行排序抽样,得到样本量为rh的分层排序集样本,h=1,2,…,L.若r=r1+r2+…+rh,重复上述过程m次,得到容量为mr的分层排序集样本,记为(Xh(1)kYh[1]k),(Xh(2)kYh[2]k),…,(Xh(rh)kYh[rh]k),k=1,2,…,m,其中Xh(i)k为变量X在第h层秩为i的次序统计量,Yh[i]k为伴随变量,i=1,2,…,rh.基于分层排序集样本,变量XY在第h层的样本均值为${\bar X_{h\left( {{r_h}} \right)}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{X_{h(i)k}}} } $${\bar Y_{h\left[{{r_h}} \right]}} = \frac{1}{{{n_h}}}\sum\limits_{k = 1}^m {\sum\limits_{i = 1}^{{r_h}} {{Y_{h[i]k}}} } $,其中nh=mrhh=1,2,…,L.设μXhμYhσXhσYh为总体在第h层的均值与标准差,并且${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $.那么当μXh已知时,总体均值μY的分别比率估计量为:

    另外,根据文献[6]的研究,容易得到引理1、引理2的结论.

    引理1  分层排序集抽样下,比率估计量ySRSS的近似均方误差为

    其中:ρXhYh为变量XY在第h层的相关系数,TXh(i)=μXh(i)μXhTYh[i]=μYh[i]μYhμYh[i]=E(Yh[i]),μXh(i)=E(Xh(i)),${R_h} = \frac{{{\mu _{{Y_h}}}}}{{{\mu _{{X_h}}}}}$${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{{h_L}[i]}}}}$.

    引理2  分层排序集抽样下,样本均值Xh(rh)Yh[rh]的估计方差与协方差为

    其中:μYh[i]=E(Yh[i]),μXh(i)=E(Xh(i)),TXhYh(i)=(μXh(i)μXh)(μYh[i]μYh).

2.   分别比率估计的改进方法及性质
  • 在进行比率估计时,通常采用的是单一的辅助信息,为了进一步提高估计精度,一些学者在分层随机抽样下,尝试利用辅助变量多种信息的结合,记βh为变量X在第h层的峰度系数,CXh为变异系数,则当这些系数已知时,可以得到相应的改进分别比率估计形式[2-4]

    相应估计量的均方误差为:

    其中:μXhμYhσXhσYh为第h层的均值与标准差;${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$ρXhYh为相关系数;${\lambda _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {C_{{X_h}}}}}$${\eta _h} = \frac{{{\mu _{{X_h}}}}}{{{\mu _{{X_h}}} + {\beta _h}}}$${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}\mu {x_h}}} + {\beta _h}}}$.

    为了在抽样设计阶段进一步提高估计效率,文章受到上述比率估计改进方法的启发,尝试在分层排序集抽样下,将辅助变量变异系数和偏斜系数的线性组合做为辅助信息,重点研究如下的改进分别比率估计量:

    其中:Xh(rh)Yh[rh]为排序集抽样下第h层的样本均值;μXhμYh为总体在第h层的均值;CXhβh为第h层变异系数和偏斜系数;总体均值${\mu _X} = \sum\limits_{h = 1}^L {{W_{h\mu {X_h}}}} $h=1,2,…,L.其它改进形式可类似讨论.

    为了比较估计量ySRSSp与估计量yRS3的估计效果,首先需要分析基于分层排序集样本的改进比率估计的估计无偏性和均方误差.令Yh[rh]=μYh(1+δ0),Xh(rh)=μXh(1+δ1),根据次序统计量的密度函数,容易验证E(Xh(rh))=μXhE(Yh[rh])=μYh,则E(δ0)=0,E(δ1)=0,从而$E\left( {\delta _0^2} \right) = D\left( {{\delta _0}} \right) = \frac{{D\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}} \right)}}{{\mu _{{Y_h}}^2}}$,利用引理2中的结论,容易得到

    同理

    其中${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$.

    $E\left( {{\delta _1}{\delta _0}} \right) = \frac{1}{{{\mu _{{X_h}}}{\mu _{{Y_h}}}}}{\mathop{\rm cov}} \left( {{{\bar X}_{h\left( {{r_h}} \right)}}, {{\bar Y}_{h\left[{{r_h}} \right]}}} \right)$,由引理2得到

    其中:${C_{{X_h}}} = \frac{{{\sigma _{{X_h}}}}}{{{\mu _{{X_h}}}}}$${C_{{Y_h}}} = \frac{{{\sigma _{{Y_h}}}}}{{{\mu _{{Y_h}}}}}$${T_{{X_h}{Y_{h(i)}}}} = \left( {{\mu _{{X_{h(i)}}}}- {\mu _{{X_h}}}} \right)\left( {{\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}} \right)$.

    定理1  当θh·δ1 < 1时,分层排序集抽样下,总体均值μY的改进比率估计量ySRSSP均方误差为:

    其中:${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$${T_{{X_{h(i)}}}} = {\mu _{{X_{h(i)}}}}-{\mu _{{X_h}}}$${T_{{Y_{h[i]}}}} = {\mu _{{Y_{h[i]}}}} -{\mu _{{Y_h}}}$${T_{{X_h}{Y_{h(i)}}}} = {T_{{X_{h(i)}}}} \cdot {T_{{Y_{h\left[i \right]}}}}$.

      MSE(ySRSSp)=${\mathop{MSE}\nolimits} \left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = \sum\limits_{h = 1}^L {W_h^2} MSE\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right)$

    由于${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\bar Y_{hc{r_h}}}\left( {\frac{1}{{1 + \frac{{{C_{{X_h}}}\left( {{{\bar X}_{h\left( {{r_h}} \right)}} -{\mu _{{X_h}}}} \right)}}{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}}}} \right)$

    其中${\theta _h} = \frac{{{C_{{X_h}}}{\mu _{{X_h}}}}}{{{C_{{X_h}{\mu _{{X_h}}}}} + {\beta _h}}}$,又因为${\bar Y_{{h_{\rm{L}}}[{r_h}]}} = {\mu _{{Y_h}}}\left( {1 + {\delta _0}} \right)$,从而

    θh·δ1 < 1时,$\frac{1}{{1 + {\theta _h}{\delta _1}}} = 1-{\theta _h}{\delta _1} + \theta _h^2\delta _1^2 + O\left( {{\theta _h}{\delta _1}} \right)$,故

    从而,$\mathit{MSE}\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) = E{\left( {{{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} -{\mu _{{Y_h}}}} \right)^2} \approx \mu _{{Y_h}}^2E{\left( {{\delta _0} -{\theta _h}{\delta _1}} \right)^2}$

    将(6),(7),(8)式代入(11)中,得到

    定理2  在一阶泰勒近似下,分别比率估计量ySRSSP的估计偏差为

    其中:TXh(i)=μXh(i)μXhTYh[i]=μYh[i]μYhTXhYh(i)=TXh(i)TYh[i]i=1,2,…,rh.

      根据定义ySRSSp=$\sum\limits_{h = 1}^L {{W_h}} {\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}$,由定理1中(10)式可知,${\bar Y_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}} = {\mu _{{Y_h}}}\frac{{1 + {\delta _0}}}{{1 + {\theta _h}{\delta _1}}}$,当θh·δ1 < 1时,利用泰勒展开式,得到

    Bias(ySRSSp)=$E\left( {\sum\limits_{h = 1}^L {{W_h}} {{\bar Y}_{h\left[{{r_h}} \right]}}\frac{{{C_{{X_h}}}{\mu _{{X_h}}} + {\beta _h}}}{{{C_{{X_h}}}{{\bar X}_{h\left( {{r_h}} \right)}} + {\beta _h}}}} \right) -{\mu _Y}$,由于${\mu _Y} = \sum\limits_{h = 1}^L {{W_{h\mu {Y_h}}}} $,故

    利用(7),(8)式容易得到

    其中:TXh(i)=μXh(i)μXhTYh[i]=μYh[i]μYhTXhYh(i)=TXh(i)TYh[i]i=1,2,…,rh.

    定理2的结论表明,当循环次数m足够大时,ySRSSp仍然为总体均值μY的近似无偏估计量.

3.   改进比率估计量的有效性
  • 均方误差是衡量估计量有效性的重要标准,下面比较分层随机抽样下估计量yRS3与分层排序集抽样下估计量ySRSSp的均方误差.

    定理3  如果各层样本容量相同,即nh=mrh时,分层随机抽样和分层排序集抽样下,总体均值的两种比率估计量yRS3ySRSSp满足关系:MSE(ySRSSp)≤MSE(yRS3).

      令${\omega _{{X_{h(i)}}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}$${\omega _{{Y_{h[i]}}}} = \frac{{{T_{{Y_{h\left[i \right]}}}}}}{{{\mu _{{Y_h}}}}}$,因为TXhYh(i)=TXh(i)·TYh[i],从而$\frac{{{T_{{X_h}{Y_{h(i)}}}}}}{{{\mu _{{X_h}}}\mu {Y_h}}} = \frac{{{T_{{X_{h(i)}}}}}}{{{\mu _{{X_h}}}}}\frac{{{T_{{Y_{h[i]}}}}}}{{{\mu _{{Y_h}}}}}$=ωXh(i)·ωYh[i]i=1,2,…,rh.故

    nh=mrh时,利用式(4)容易得到

    由于$\sum\limits_{h = 1}^L {W_h^2} \frac{{\mu _{{Y_h}}^2}}{{mr_h^2}}\sum\limits_{i = 1}^{{r_h}} {{{\left( {{\omega _{{Y_{hi}}[i]}} -{\theta _h}{\omega _{{X_{h(i)}}}}} \right)}^2}} 0$,从而MSE(ySRSSp)≤MSE(yRS3).

    定理3表明,利用排序集样本代替随机样本的分别比率估计有效地降低了估计的均方误差,也即基于分层排序集样本的分别比率估计效率要高于分层随机抽样下的估计效率.

4.   随机模拟与算例分析
  • 假定分层随机抽样和分层排序集抽样方法在每一层中样本容量和抽样比均相同,为了便于比较,只需研究一层的抽样估计结果.选取研究总体为二维正态分布N(μXμYσX2σY2ρ),相关系数分3种情形ρ=0.80,ρ=0.90,ρ=0.99分别讨论,不妨令μX=2,μY=4,σX=σY=1.首先基于matlab软件分别生成5 000个二维随机数,样本容量n分别取为30,60,90,进行排序集抽样时rh=3,循环次数m=10,20,30,采用随机抽样和排序集抽样两种抽样方法进行比较,利用R软件进行100次的统计模拟,均方误差计算公式为$\mathit{MSE}(\hat \mu ) = \frac{1}{l}\sum\limits_{i = 1}^l {{{\left( {{{\hat \mu }_i}-\mu } \right)}^2}} $,其中:l为模拟次数,μ为参数真值,${\hat \mu _i}$为第i次估计值.具体计算结果如表 1所示.

    表 1的计算结果容易看出,对于正态分布,随机抽样下利用辅助变量的变异系数和偏度系数改进估计量的效果并不显著,而以排序集样本代替随机抽样后的分别比率估计均方误差明显下降,说明估计精度的提高主要是抽样设计阶段充分利用辅助信息的结果.其它总体分布情况可做类似研究.

    随机模拟假设总体是正态分布,为了进一步说明结论的可靠性,文章以77棵杨树第11年生长数据为研究对象[11],进行实例分析,具体数据见表 2.选取树木胸径为辅助变量,树木高度为研究变量,基于3种方法估计树木高度的总体均值.样本容量分别设定为15,30,60.由于排序集抽样nh=mrh,考虑到实际应用中,排序集容量过大容易造成误差,故选取rh=3,循环次数m分别为5,10,20.为了提高计算可信度,利用R软件重复计算100次,得到估计均方误差,计算结果见表 3.

    表 3的计算结果表明:第一,无论采用哪一种抽样方法,均方误差都随着样本量的增加不断变小,排序集抽样方法变化更加明显;第二,与分层随机抽样下改进比率估计量相比,基于分层排序集样本和多指标线性组合的改进比率估计的精度进一步提高,特别是估计均方误差明显降低,也进一步说明改进比率估计量的有效性.

5.   结论
  • 分层排序集抽样结合了分层抽样和排序集抽样的优点,基于该抽样方法可以建立多种比率估计形式.文章同时考虑辅助变量变异系数和偏斜系数,以两者的线性组合作为辅助信息,构造了改进的分别比率估计模型,并进一步研究了估计量的偏差和均方误差.最后,借助实际例子做了进一步分析,验证了估计量的有效性.

Table (3) Reference (11)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return