01抽样调查方法简介

抽样调查方法简介


§1.简介

        调查的设计:收集数据的方式,提问框架,数据处理方法,样本设计

        总体(population)\rightarrow目标总体(target population)\rightarrow调查总体(survey population)

        抽样:概率机制(probability mechanism)

                \rightarrow抽样估计量(survey estimator)

                \rightarrow抽样框(sampling frame):样本中元素的列表


§2.简单随机抽样

        简单随机抽样(Simple Random Sampling,SRS)

        简单,基础,未被广泛使用

        样本量为n,总体中所有元素个数为N,自然地n<N

        要求:任何包含n个元素的集合在总体的N个元素中具有相同抽取概率


        根据是否放回分为两类:

        有放回的简单随机抽样(Simple Random Sampling with Replacement)

        无放回的简单随机抽样(Simple Random Sampling without Replacement)

        其中无放回得到的估计量更加精确,下面讨论之。


        对于无放回SRS:

        总体均值\overline{Y}=\frac{1}{N}\sum_{i=1}^NY_i,总体方差S^2=\frac{1}{N-1}\sum_{i=1}^N(Y_i-\overline{Y})^2

        样本均值\overline{y}=\frac{1}{n}\sum_{i=1}^ny_i,样本方差s^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2

        一个由无放回SRS得到的样本均值\overline{y}_0,其方差V(\overline{y}_0)=\frac{N-n}{N-1}\frac{\sigma^2}{n}=\frac{N-n}{N}\frac{S^2}{n}

        FPC项F=\frac{N-n}{N-1}说明了无放回SRS更加精确。

        特别地,对于0-1抽样,S^2=\frac{NPQ}{N-1},s^2=\frac{n\overline{p}_0\overline{q}_0}{n-1},V(\overline{p}_0)=(1-f)\frac{NPQ}{n(N-1)}

    其中1-F=\frac{n-1}{N-1}\approx \frac{n}{N}=f为抽样比率


§3.系统抽样

        系统抽样(Systematic Sampling)

        简化抽样过程\rightarrow等概率抽样(Euqal Probability Selection Methods,EPSEM)

        要求:抽取一个随即起点后,每k个元素进行抽取,则名单在目标变量上接近随机


例3.1:总体容量1872,样本容量250,抽样比率250/1872,抽样间距7.488,三种处理方式

        ①四舍五入;②环形抽样并保留整数位;

        ③取1000到7488之间的四位随机数作为起点,小数点前移三位,等比率间隔抽样,并保留整数位


§4.分层抽样

        分层抽样(Proportionate Sampling)

        总体中的一些元素信息是已知的,从而借此提高样本设计质量和样本估计量质量

        要求:根据额外信息来将总体分为子总体(subpopulation)或者层(strata)


        根据抽样比率(sampling fraction)分为两类:

        按比例分层(proportionate stratification)

        非比例分层(disproportionate stratification)


        用下角标h来表示对应的层,有N=\sum N_h,n=\sum n_h,W_h=\frac{N_h}{N},w_h=\frac{n_h}{n}

        \overline{y}_{st}=\sum W_h\overline{y}_h,\quad V(\overline{y}_{st})=\sum W_h^2V(\overline{y}_h)

        在每一层中使用SRS,则V(\overline{y}_{st})=\frac{1}{n_h}\sum W_h^2(1-f_h)S_h^2

    1.按比例分层

        有W_h=w_h,则\overline{y}_{st}=\frac{1}{n}\sum_{h,i}y_{hi},\quad V(\overline{y}_{st})=\frac{(1-f)}{n}\sum W_h^2S_h^2=\frac{1-f}{n}S_W^2

        方差分解:S^2=S_W^2+\sum W_h^2(\overline{Y_h}-\overline{Y})^2,第二项为分层样本均值的异质性

        设计效应:D(z)=V(z)/V(z_0),则D(\overline{y})=S_W^2/S^2\leq1

        分层方式体现了一部分的总体信息,从而获得了小于1的设计效应

    2.非比例分层

        在给定的资源下实现样本估计量精度的最优化,关注研究领域,实现层间比较

        要求:使分层抽样中的抽样比率与该层中元素的标准偏差成正比,并且与每加入来自该层的一个原色所需要成本的平方根成反比,即f_h\propto S_h/\sqrt{c_h}

        此外,也可使用内曼配置(Neyman allocation):f_h\propto S_h

        注意:不同目标的最优配置可能相互冲突

    3.层的选择

        条件:

        ①每层占总体的比例,即W_h已知

        ②每层中各自抽取样本的方式可以实现


§5.整群抽样和多阶抽样

        整群抽样(cluster sampling):所抽取的群中的所有元素都被包含在样本中

        两阶段抽样(two-stage sampling):从每一个选取的群中抽取部分元素作为样本

        多阶抽样(multi-stage sampling):首先选取一些大的群,然后在其中抽取一些较小的群,如此进行知道最后的元素是从最后一阶段的群中抽取出来的

        注意:分层抽样强调同一层中元素的同质性,多阶段抽样强调同一群中被选取元素的代表性,且当同一群中元素异质性较强时,整群抽样更有优势

        整群抽样会损失一些精度,但比较经济


例5.1:整体中有A个群,所有的群有相同的规模大小B,简单随机抽取其中a个群,样本容量aB

        抽样比率f=n/N=aB/AB=a/A

        均值\begin{align*}\overline{Y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{Y}=\frac{1}{N}\sum_{\alpha=1}^A\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{A}\sum_{\alpha=1}^A\overline{Y}_\alpha\\\overline{y}_\alpha&=\frac{1}{B}\sum_{\beta=1}^BY_{\alpha\beta},\quad\overline{y}_c=\frac{1}{n}\sum_{\alpha=1}^a\sum_{\beta=1}^BY_{\alpha\beta}=\frac{1}{a}\sum_{\alpha=1}^a\overline{y}_\alpha\end{align*}

        方差\begin{align*}V(\overline{y}_c)&=(1-\frac{a}{A})\frac{S_a^2}{a},\quad where\quad S_a^2=\frac{1}{A-1}\sum_{\alpha=1}^A(\overline{Y}_\alpha-\overline{Y})^2\\v(\overline{y}_c)&=(1-\frac{a}{A})\frac{s_a^2}{a},\quad where\quad s_a^2=\frac{1}{a-1}\sum_{\alpha=1}^a(\overline{y}_\alpha-\overline{y}_c)^2\end{align*}

     ①设计效应:D^2(\overline{y}_c)=\frac{S_a^2/a}{S^2/aB}=\frac{BS_a^2}{S^2}

        当总体种群的个数A比较大时,S_a^2相当于SRS抽样中B个元素均值的方差,即S^2/B,此时D^2(\overline{y}_c)\approx1

        如果所选取的群具有较高的内部同质性,那么群间具有更强的异质性,此时D^2(\overline{y}_c)>1

    ②设计效应:D^2(\overline{y}_c)=1+(B-1)\rho

        其中\rho是层内的相关系数,以衡量群内部的同质性程度

        一般而言,0<\rho<0.15,从而D^2(\overline{y}_c)>1

        \rho绝对不会比-1/(B-1)更小,而负号的\rho表示整群抽样比SRS更加精确;\rho最大取值为1,对应于每个群中所有元素都具有相同取值的情形


例5.1:考虑一个两阶段抽样,通过SRS从A个群的总体中抽取出a个群来,然后在抽取到的每个群中,通过SRS从B个元素中抽取出b个单位

        均值\overline{y}_\alpha=\frac{1}{b}\sum_{\beta=1}^by_{\alpha\beta},\quad \overline{y}_{ts}=\frac{1}{n}\sum_{\alpha=1}^a\sum_{\beta=1}^by_{\alpha\beta}=\frac{1}{a}\sum_{\alpha=1}^a\overline{y}_\alpha

        方差V(\overline{y}_{st})=(1-\frac{a}{A})\frac{S_a^2}{a}+(1-\frac{b}{B})\frac{S_b^2}{ab}

    其中,S_a^2=\frac{1}{A-1}\sum_{\alpha=1}^A(\overline{Y}_\alpha-\overline{Y})^2,\quad S_b^2=\frac{1}{A(B-1)}\sum_{\alpha=1}^A\sum_{\beta=1}^B(Y_{\alpha\beta}-\overline{Y}_\alpha)^2

        如果a=A,那么第一项为零,相当于分层抽样

        如果b=B,那么第二项为零,相当于整群抽样

        方差v(\overline{y}_{ts})=(1-\frac{a}{A})\frac{s_a^2}{a}+\frac{a}{A}(1-\frac{b}{B})\frac{s_b^2}{ab}

    其中,s_a^2=\frac{1}{a-1}\sum_{\alpha=1}^a(\overline{y}_\alpha-\overline{y})^2,\quad s_b^2=\frac{1}{a(b-1)}\sum_{\alpha=1}^a\sum_{\beta=1}^b(y_{\alpha\beta}-\overline{y}_\alpha)^2

    ①当第一阶段的抽样比率a/A非常小时,第二项趋近于零,此时v(\overline{y}_{ts})\approx \frac{s_a^2}{a}

    ②末级群抽样(Ultimate Clusters,UCs)

        在每一个群,用SRS每次抽取b个元素,得到B/b个UCs

        先用SRS抽取出a个群来,再在每个群中用SRS抽取出一个UC

        进一步地,从AB/b个UCs种用SRS抽取出a个UC,作为近似

        给定a/A非常小,从一个群中抽取两个UCs的几率非常小

        有v(\overline{y}_{ts})=(1-\frac{ab}{AB})\frac{s_a^2}{a}\approx \frac{s_a^2}{a},\quad D^2(\overline{y}_{ts})=1+(b-1)\rho

        对于一个固定的总样本量n=ab\rho>0,子样本量(即UC规模)越小,被抽取的群的数量越多,从而样本均值更加精确;然而,群之间的样本越分散,抽样调查的成本也就越高

        设定调查成本的结构:C=aC_a+nc

    其中,C为总成本,C_a为每个群的成本,c为每个元素的成本

        得最优子样本量:b_{opt}=\sqrt{\frac{(1-\rho)C_a}{\rho c}}

        在其他条件不变的情况下,如果群内的同质性\rho越高,每个元素的成本就越高,群的成本就越低,那么样本就应该在群之间更加分散,即取一个较小的b


Tips:

    ①在实践中,当有所需的分层信息时,多阶段抽样使用的都是分层抽样,而系统抽样也常常被用到

    ②分层抽样在抽取群的时候,比抽取元素的时候更加重要,因为它在抽取群的时候能够带来更高的精度

    ③对多阶段抽样中的第一阶段的群进行分层,或称初级抽样单位(Primary Sampling Units,PSUs),从而尽可能多地进行PSU,然后从每一层中选取一个PSU,同时单个PSU无法估计层内部的方差

        折叠层法(collapsed strata):将一对相似的层合并,获得更大的层

        配对选取(paired selection design):将一对相似的层打散,在每个中间层进行初级选取,在每个层中得到两个PSU


§6.按规模大小成比例的概率抽样

        在上一节中,我们假设群的规模是相等的,然而这一假设在实践中很难满足

        用B_\alpha表示群\alpha中元素的个数,\alpha=\{1,2,..,A\}

        选择方程(selection equation):P(\alpha\beta)=P(\alpha)P(\beta|\alpha)

    ①将A个群,按规模分为a个层,并在每个层中抽取一个元素

    ②成比例抽样(Probability Proportional to Size,PPS)

        两阶段抽样:P(\alpha\beta)=f=\frac{n}{N}=\frac{aB_\alpha}{\sum B_\alpha}\frac{b}{B_\alpha}=\frac{ab}{\sum B_\alpha}

    其中,a个初级抽样单位PSUs使用PPS抽样,从每个PSU中再抽取b个元素

        三阶段抽样:P(\alpha\beta\gamma)=f=\frac{n}{N}=\frac{aB_\alpha}{\sum B_\alpha}\frac{bB_{\alpha\beta}}{B_\alpha}\frac{c}{B_{\alpha\beta}}=\frac{abc}{\sum B_\alpha}

    其中,由PPS得到a个PSUs,从每个PSU中再抽取b个二阶段单位(Second Stage Units,SSUs),最后在每个SSU中抽取c个元素

        抽取PSU与SSU的过程也可以采用系统抽样

    ③末级群抽样\rightarrow类似于PPS

        在每个PSU中,形成B_\alpha/b个UCs,共N/b个UCs,再用SRS获得a个UCs

        此时与PPS近似等价,但会从同一个PSU中抽取多个UCs且概率很小

        由于PPS是EPSEM的,得\overline{y}_p=\frac{1}{n}\sum_{\alpha,\beta}y_{\alpha\beta}

        又末级群抽样近似,得v(\overline{y}_p)=\frac{s_a^2}{a},\quad D^2(\overline{y}_p)=1+(b-1)\rho


        按估计规模大小成比例的概率抽样(PPES)

        实际规模大小未知,记\hat{B}_\alpha=M_\alpha为估计的规模

        则P(\alpha\beta)=f=\frac{n}{N}=\frac{aM_\alpha}{\sum M_\alpha}\frac{b}{M_\alpha}=\frac{ab}{\sum M_\alpha}

        由于M_\alpha并非完全准确,期望的样本量会有一些变化,总样本量称为随机变量

        样本总量x,比率均值(ratio mean)r=\frac{y}{x}

        x的变化系数\frac{se(x)}{n}<0.1时,误差可忽略

        有v(r)\approx [v(y)+r^2v(x)-2rc(x,y)]/x^2,\quad r-\mathbb{E}r=[y-x\mathbb{E}r]/x

    其中,c(x,y)xy的样本协方差


例6.1:考虑一个EPSEM的分层多阶段抽样

        y_{h\alpha}=\sum_\beta y_{h\alpha\beta},其中x_{h\alpha}为层h中PSU的样本量

        y_h=\sum_\alpha y_{h\alpha},其中x_h为层h中的总样本量

        使用有放回的近似,得\begin{align*}v(y)&=\sum_h a_hs_{yh}^2,\quad s_{yh}^2=\frac{1}{a_h-1}\sum_{\alpha}[y_{h\alpha}-y_h/a_h]^2\\v(x)&=\sum_h a_hs_{xh}^2,\quad s_{xh}^2=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h]^2\\c(x,y)&=\sum_h a_hs_{xyh},\quad s_{xyh}=\frac{1}{a_h-1}\sum_{\alpha}[x_{h\alpha}-x_h/a_h][y_{h\alpha}-y_h/a_h]\end{align*}


§7.其他概率抽样设计

    1.二象抽样(two phase sampling)

        亦称双重抽样(double sampling)

        在第一期(first phase)搜集一些信息项,然后在第二期(second phase)从初期样本的子样本获得更多的信息项

        人们对于一个调查中的不同估计值精确度的需求是难以调和的,这就意味着我们需要不同的样本规模

        第一期的样本可以提供第二期抽样时分层的信息,并意味着两期的成本可能存在很大差异,因而在第一期进行较为松弛的筛选

        可扩展至多象抽样(multi-phase sampling)

    2.重复抽样(replicated sampling)

        亦称贯穿抽样(inter-penetrating sampling)

        总体由一系列重复抽取的子样本构成,每一个子样本都是使用相同的抽样方法得到的,每一个子样本都能够提供独立的、可比的对总体参数的估计

        用于研究变量的非抽样误差(non-sampling errors),比如由不同访问员和编程者得到的结果变动,以及辅助计算变量的标准误

    3.面板设计(panel sampling)

        截面(cross-section)        时间序列(time-series)

        总变化(gross change):元素级别的变化

        净变化(net change):加总层面的变化

        面板研究(panel survey)或纵贯研究(longitudinal survey)

        人们需要在不同时点对相同的个体进行访问:

        ①被调查者的迁移;②总体的构成发生变化;③反复采访对采访者产生负面影响

        解决方法:面板轮换(panel rotation)ABC\rightarrow BCD\rightarrow CDE\rightarrow DEF


§8.抽样框

        不仅提供了一个识别和定位总体中元素的方式,而且经常包含很多额外的可以用来分层或者聚类的方式

        理想的抽样框,需要将总体中的每一个元素,有且只有一次地列出来,并且不包含其他排列

        基什(Kish)提出了对潜在抽样狂问题和解决方案的四重分类:

    1.缺失元素(missing elements)

        总体中的某些元素未被包含在抽样框内,有两种情况:

    ①抽样框是不够的(inadequate)

        即该抽样框目标不是包含总体,刻意为之

    ②抽样框是不完整的(incomplete)

        即该抽样框未包含本该包含的元素,无意为之

        解决方法:

    ①通过定义,将缺失元素排除在抽样调查的总体之外

    ②寻找补充性的抽样框来覆盖缺失元素

    ③寻求一个包含某种形式的链接程序(linking procedure)的方案

        将名单当作循环的(circular),缺失元素作为连接点,置于首元素之前和尾元素之后

    2.群(cluster)

        某些列举是对元素组而言的,而非元素本身

        如我们希望对个人或者住户进行抽样,然而抽样框是住所

        解决方法:

    ①将被抽取的群中所有元素包含进去

    ②从全部群中进行抽样,同时以防应答污染(contamination of response)

        考虑基什表选择法(the Kish selection grid)

    3.空白或者外来元素(foreign elements)

        某些列举并不与抽样调查的总体中的元素相关

        用“空白”(blanks)简称空白与外来元素

        解决方法:帅选访问(screening interviews)

        在抽到blanks时将其忽略,使得样本量小于我们选择的数量

    4.重复列举(duplicate listing)

        一些总体中的元素不止一次被列举

        当抽样框由数个列表组成时,一些元素可能会在多余一个列表中出现

        解决方法:

    ①在总的抽样框内将重复列举去掉

    ②独特识别(unique identification):即将每一个元素与其中一个列举,以一种清晰定义的方式联系起来,然后将该元素的其他列举置为blanks

    ③接受所有的选择,在分析中使用甲醛的方式来调整元素不同的选择概率

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。