第二章抽样调查基本理论

第二章抽样调查基本理论第二章抽样调查基本理论第二章抽样调查基本理论

第一节总体和样本

通常指所调查研究对象的全体。在抽样调查中，总体是指能从中抽取样本的综合体。

一．总体一．总体一．总体一．总体

由于实际存在的总体与人们抽样时所认识的总体可能不一致，所总体有以下两种概念。

第二章抽样调查基本理论

社会经济现象总体，一般都为有限总体，但有时总体单位数太大，几乎等同于无限总体，如居民日常生活用品总体。

也称目标总体，即所需要研究说明的全部单位集合体。即不论人们认识与否，所有符合规定的单位合在一起，构成全及总体。在抽样调查中，全及总体是抽样推断的目标。例：居民收入情况调查：

无限全及总体有限全及总体

全及总体全及总体全及总体全及总体


也称作业总体。即被人们所掌握了的，能按某一标志排列或给以编号的全体单位的集合体，是抽取样本的依据。显然，它一定是有限总体，它在范围上比全及总体受到较多的限制

被抽样总体被抽样总体被抽样总体被抽样总体

如果二者总体单位相同，则二者是一致的，由于样本来自被抽样总体，因而抽样推断结论只适用于被抽样总体。为此，我们希望被抽样总体尽量接近全及总体，被抽样总体的单位数常用 N表示。再看《作家文摘》之例：


设总体中个总体单位某项标志的标志值分别设总体中个总体单位某项标志的标志值分别为，其中具有某种属性的有个为，其中具有某种属性的有个单位，不具有某种属性的有个单位，则单位，不具有某种属性的有个单位，则

设总体中个总体单位某项标志的标志值分别设总体中个总体单位某项标志的标志值分别为，其中具有某种属性的有个为，其中具有某种属性的有个单位，不具有某种属性的有个单位，则单位，不具有某种属性的有个单位，则

N

NXXX ,, 21

0N1N

⒈ ⒈ 总体平均数（又叫总体均值）：总体平均数（又叫总体均值）：

m

ii

m

iii

N

ii

f

fXX

N

XX

1

11 或

根据总体各个单位的标志值或标志根据总体各个单位的标志值或标志特征所计算的反映总特征所计算的反映总体某种属性的体某种属性的综合指标。综合指标。

总体参数总体参数总体参数总体参数

《统计学》第六章抽样推断


m

iiim

ii

N

ii fXX

fXX

N 1

2

1

1

2 11 或

⒉ ⒉ 总体单位标志值的标准差：总体单位标志值的标准差：

⒊ ⒊ 总体单位标志值的方差总体单位标志值的方差：：

m

iiim

ii

N

ii fXX

fXX

N 1

2

1

2

1

22 11 或



PN

NQ

N

NP 1, 01

⒋ ⒋ 总体成数：总体成数：

⒌ ⒌ 总体是非标志的标准差：总体是非标志的标准差：

PQPPP 1

⒍ ⒍ 总体是非标志的方差：总体是非标志的方差：

PQPPP 12

有最大值时，当 PQP 5.0


第二章抽样调查基本理论二．样本二．样本二．样本二．样本

也称子样，指从被抽样总体中抽取的那部分个体的组合。是总体的缩影，是总体的代表。抽样调查的目的，是用样本推断总体。

总体：研究的对象

样本中的单位数，称为样本容量。

样本：观察的对象


抽样比 ,一般用 f 表示 : 样本是随机的 ,不是唯一的 .在一定的和抽样方法下 ,一个总体所有可能的样本组合的数目 ,称为样本个数 ,用 m 表示 .

Nn / nf

N


设样本中个样本单位某项标志的标志值设样本中个样本单位某项标志的标志值分别为，其中具有和不具有某分别为，其中具有和不具有某种属性的样本单位数目分别为和个，则种属性的样本单位数目分别为和个，则

设样本中个样本单位某项标志的标志值设样本中个样本单位某项标志的标志值分别为，其中具有和不具有某分别为，其中具有和不具有某种属性的样本单位数目分别为和个，则种属性的样本单位数目分别为和个，则

nnxxx ,, 21

0n1n

⒈ ⒈ 样本平均数（又叫样本均值）：样本平均数（又叫样本均值）：

m

ii

m

iii

n

ii

f

fxx

n

xx

1

11 或

指根据样本各个单位的标志值或指根据样本各个单位的标志值或标志特征计算的综合指标，标志特征计算的综合指标，它是它是随机变量。随机变量。

样本统计量样本统计量样本统计量样本统计量



⒉ ⒉ 样本单位标志值的标准差：样本单位标志值的标准差：

⒊ ⒊ 样本单位标志值的方差：样本单位标志值的方差：

m

iiim

ii

n

ii fxx

fsxx

ns

1

2

1

1

2

1

1

1

1或

m

iiim

ii

n

ii fxx

fsxx

ns

1

2

1

2

1

22

1

1

1

1或

为自由度

为的无偏估计2

为的无偏估计


pn

nq

n

np 1, 01

⒋ ⒋ 样本成数：样本成数：

⒌ ⒌ 样本单位是非标志的标准差：样本单位是非标志的标准差：

pqn

npp

n

nsp 1

11

⒍ ⒍ 样本单位是非标志的方差：样本单位是非标志的方差：

pqn

npp

n

nsp 1

11

2

为的无偏估计

2P

为的无偏估计

P



在这里，分母之所以为，是因为它有这么多自由度。“自由度”？

1n2S

如果我们只想对样本进行描述，那么均方差 MSD 就是对分布形状的一个很好的度量。不过如果我们想更进一步地通过样本对总体进行统计推断的话，那么样本方差则更合适。我们只以直观上来表达。

对自由度的简单解释：


假定只有 1个观测，我们仍然可以计算均值，但却无法考虑分布的形状。

习惯上称信息的个数为“自由度”，因此我们可以将上面的议论归纳为：

例如我们以足球运动员中随机抽取了一名队员，他的身高为 179 ㎝，那么我们可以用它来估计队员的身高。但对队员身高分布的形状就不可能有什么印象，是 174—184？ 176—182？只有 n-1＞ 1 ，我们才能得到关于方差的信息。也就是说，对于方差，我们实际上只有 n-1 个信息，这就是计算方差时所用的那个除数


“一个自由度补充均值所使用，余下的（ n-

1）个自由度留给了方差。”


有时，一个抽样单位包含多个调查单位。如进行居民身体状况调查中，以居民家庭为抽样单位，居民个人为调查单位，

三、单位三、单位三、单位三、单位抽样单位：据以作为抽样用的中介单位。调查单位：进行观察或取数的单位。

有时，则可能是一个调查单位包含多个抽样单位。例如，调查某企业，职工家庭情况，以职工为抽样单位，家庭则为调查单位，可能省两位或多位职工属于同一家庭。

二者有时是同一的


指对某一具体调查而言可能被抽取的最小的单位，一般不能再分，它通常就是调查单位，也是低一级的抽样单位，可以自然形成，也可以人为规定。

由基本单位所组成，也称上一级单位，由于组合单位还可以再组合，因而就有一级单位，二级单位……之分，直至基本单位。

基本单位：基本单位：基本单位：基本单位：

组合单位：组合单位：组合单位：组合单位：


如：要去全国进行城镇居民家计调查，可分几步进行，先抽若干省，抽中的省再抽若干城镇，抽中的城镇再抽若干街道或居委会→居民家庭。省→ 城镇→ 街道（居委会） →家庭 ↑ ↑ ↑ ↑一级单位二级三级基本单位 ↑ 最低一级的抽样单位　　二者的划分是相对的。

通常组合单位只作为抽样单位。


编制抽样单位的目录，即总体全部抽样单位的一览表。抽样框的范围与被抽样总体一致 .

四、抽样框四、抽样框四、抽样框四、抽样框

但由于抽样单位可大可小，往往根据需要而确定，因此，抽样框中的单位不一定是被抽样总体中的基本单位。抽样框一般有以下几种形式。


　以名单一览表形式列出总体所有单位，如职工名单，村庄名单。

　即按自然地理区域划分并排列如一片土地划分为若干地块单位并编号，一片森林划分为若干区域并编号。

①名单抽样框

②区域抽样框


　假定产品数量与时间成正比。则例如： 24 小时中，每隔 1小时抽 5分钟的产品。

　即按时间顺序排列抽样单位。如在流水线生产的产品质检抽样调查中，把一天时间划分为许多抽样时间单位并按先后顺序排列。

　在实践中，抽样框的编制有时是比较困难的。主要问题在于难以把全及总体的所有单位都包括在内。如要编制我国著名作家的名单抽样框。歌星的收入情况，青少年的吸烟状况。

③时间表抽样框


一、重复抽样与不重复抽样一、重复抽样与不重复抽样一、重复抽样与不重复抽样一、重复抽样与不重复抽样

③各单位每次被抽中的概率为。 N/1

第二节抽样方法

特点：（一）重复抽样：有放回抽样。

①每个单位、都有数次被抽中的可能性

②N始终不变，各次抽样相互独立。


③每一次抽样的概率不同。　　　　　　 …　　　N

1

1

1

N 1

1

nN

（二）不重复抽样：无放回抽样。特点：

相当于一次性同时从总体中的抽取 n个单位。

①只有一次被抽中的机会。

②总体单位数 N逐次减少，各次抽样之间不是

相互独立的。


但是，每个单位总的被抽中的概率仍然是相同的，都为１／Ｎ。例如，从３０ →３，其中的一个单位：第 1次被抽中： 1/30

第 2 次被抽中： 1/29 第 3 次被抽中： 1/28

30

1

130

1

30

130

30

1

230

1

130

230

30

130

即每个单位总的被抽中的即为：

1 2 1 1

1 1

N N

N N N n N


　　总体中每一个单位，不论大小，均赋予相同的被抽中的概率。通常为概率抽样。如某县 50个乡镇→ 10个进行学龄前儿童数量调查。每个乡镇都有 1/50的可能性被抽中。

二、等概率抽样与非等概率抽样二、等概率抽样与非等概率抽样二、等概率抽样与非等概率抽样二、等概率抽样与非等概率抽样

　　总体中的单位依其辅标志的大小不同而赋予不同的被抽中概率。如上例，各乡镇被抽中的概率依各乡镇人口数占全县人口总数的比重而定。当各抽样单位之间大小相差较大时，非概率抽样是必要的，有利于提高抽样效果。但非概率抽样的过程小抽样估计方法要复杂、困难得多。

等概率抽样

非等概率抽样


　抽取样本单位的过程分成若干阶段完成。即先从一级单位的抽样植中抽取若干一级单位，再从抽中的一级单位中抽取若干二级单（此时，一级单位成了由二级单位构成的总体）……直到抽取所要调查的基本单位。

三、单一阶段抽样和多阶段抽样三、单一阶段抽样和多阶段抽样三、单一阶段抽样和多阶段抽样三、单一阶段抽样和多阶段抽样

直接从总体抽样框中抽取调查单位。

单一阶段抽样

多阶段抽样


　　例如全国城镇居民家计调查中。全国→省→城镇→街道（居委会）→居民户。为四阶段抽样。

　　当总体过于分散，难以直接抽取调查单位的情况下适用，但一般控制在三阶段以内，过多则给抽样推断带来困难。


　也称调查误差。由于观察、测量、登记、计算上的差错或被调查者提供虚假资料而引起的误差。非抽样调查所特有，所有调查都可能存在。且调查范围越大，单位数越多，可能性越大。与测量工具的精确性（亩产），测量技术，责任心，合作态度有关。

第三节抽样误差以样本→总体是有误差的，如何计算和控制抽样误差是抽样理论研究的核心问题。一、误差的来源一、误差的来源一、误差的来源一、误差的来源

总的说来，抽样调查中的误差来源有两类：（一）登记性误差


是由非随机因素造成样本代表性不足而产生的误差。例如：有意选择了较为（差）的单位，调查表设计不当（误解），抽样值与目标总体不一致，样本限于总体中易取到的部分、无回答或回答不完整。

这种误差也属于思想、作风和技术问题。在代表性误差中应尽量避免。系统性误差与登记性误差合在一起称为偏差。

（二）代表性误差。（二）代表性误差。（二）代表性误差。（二）代表性误差。1 ．系统性的代表性误差：简称系统性误差


在随机抽样下，由于偶然性因素引起的样本结构不能完全代表总体结构而产生的误差。是不可避免的，但可以估计和控制（特点之一）。 n 增加，则 V （ x）↓，当 n=N 时 V （ x） =0代表性误差有正有负，对于所有可能的样本而言。 0

2．偶然性的代表性误差（偶然性误差） ——抽样误差


各种误差之间的关系各种误差之间的关系各种误差之间的关系各种误差之间的关系

抽样中的总误差

代表性误差

登记性误差

偶然性误差

系统性误差偏差

抽样误差

总误差 2=抽样误差 2+ 偏差2

偏差

抽样误差

总误差


在统计学中讲过，样本统计量的数学期望等于总体参数，如 22

1,, nSPpXx

∴在抽样推断过程中，我们通常以不存在偏差为前提，即认为抽样调查中只存在抽样误差。

但这里必须有个条件：偏差 =0，事实上，我们也很难从总误差中区分偏差和抽样误差各占多少，因为偏差只能通过各种途径加以控制而难以计算。


是指样本统计量与总体参数之间的绝对离差。如，，。例如 .2,4,6,8。，从中抽 2,4,8，则，若抽 2,4,8，则，

Xx Pp 22 s5x 33.5x

33.0533.5

67.4x33.0567.4

二、抽样误差的几种形式二、抽样误差的几种形式二、抽样误差的几种形式二、抽样误差的几种形式（一）实际抽样误差

需要指出的是，在抽样调查中，由于总体参数未知，因而任何一次抽样的实际抽样误差是不可知的。


是反映抽样误差大小一般水平的指标。平时讲的抽样误差，指的就是抽样标准误差。

（一）抽样标准误（差）（一）抽样标准误（差）（一）抽样标准误（差）（一）抽样标准误（差）

具体来讲，抽样标准误差是抽样平均数或成数的标准差。它反映了与的平均误差程度。计算公式：

为所有可能样本的个数mm

Ppp

m

xxx i

2

2

)()(

)()(

)( pxi )( pX


实际上，在概率论与数理统计理论基础上建立起的抽样理论与方法，分别在各种具体抽样组织方式中，解决了抽样标准误差的计算和估计问题，通常用和分别表示平均数和成数的抽样平均误差。在纯随机抽样条件下，有：

)(x )( p

需要说明的是，从理论上讲，对于固定的总体和样本容量，在相同的抽样方法下，抽样标准误差是一个唯一确定的值。但从实践来看，由上述公式计算抽样标准误差是不现实或不可能的。实际情况往往是要由样本的有关资料来估计，因而以这个定义上来说，抽样标准误差又是一个随机变量，随样本不同而有不同估计值。


不重复抽样

重复抽样

)1

(

)(2

2

N

nN

n

nx

不重复抽样

重复抽样

)1

()1(

)1(

)(

N

nN

n

PP

n

PP

P


这里的又称为不重复抽样的修正系数。当

较小时，这个系数可近似表示为。

1N

nN

Nn

fN

n 11


1 ．总体内部的差异程度 )(

2．样本容量往往成为决定性因素。因为不能改变，

理论上，但 n↑，调查费用也↑，产生登记性误差的可能性↑。∴无控制地增大 n是不可取的。况且样本容量过大也失去了抽样标准误差的意义。

)(n

n 0)(, xNn

影响抽样标准误差的大小主要有以下几个方面。

3．抽样方法


5．估计总体参数的方法简单估计比率估计回归估计

4．抽样组织形式

选择好的估计方法，几乎可以在不增加工作量的情况下，提高估计的精度。


之所以规定抽样标准误差，是因为每次抽样调查都有一定的精度要求，如果样本统计量误差过大，那么抽样推断结果就毫无意义。如粮食平均亩产一般每年递增 5%（实际），如果抽样推断的误差率 >5%，那么这样的抽样调查就毫无价值。

（三）抽样极限误差（三）抽样极限误差（三）抽样极限误差（三）抽样极限误差以样本统计量估计总体参数时所允许的最大误差范围。即在一次抽样推断时，样本统计量可允许取的最高值或最低值与总体参数之差的绝对值。


它表示所允许的样本统计量在以总体参数为中心的某一范围内变动，变动区间为：

设抽样极限误差，则有展开：

为

ˆ

[ , ]


然而，我们抽样调查或推断的目的是以某已知的样本统计量的值去估计未知的总体系数，而不是去判断样本统计量的值是否落在某一规定的范围。所以，我们希望的是总体参数在以为中心的某一区间范围。对上述不等式变形：

具体到和，则应有x p

xXx xx XxX

pPp pp PpP

ˆˆ


pp pPp

例如，我们根据样本测得某产品不合格率为8%，如果为 2%，则总体产品的不合格率在[6%， 10%]之间，如果为 1%，则 [7%， 9%]

由此可知，对于所估计的是至关重要的。

即：

xx xXx


若以来表示与对比的倍数，则有：t

t)ˆ(

( )ˆ( ),( )

x

p

t xt

t p

我们知道，是唯一的，而是变化的，它往往根据实际需要加以确定。如果说是是一把尺子，那么则是以这把尺子来衡量的任一物体的长度，可长可短。

)ˆ( )ˆ(

其中称为抽样概率度。

即：

t

第二章抽样调查基本理论抽样估计的置信度抽样估计的置信度抽样估计的置信度抽样估计的置信度抽样指标和总体指标的误差不超过一定范围的概率大小，我们将它称之为概率保证程度，也叫抽样估计的置信度，一般用 F(t) 表示。即：

置信度置信度

)()( tFXxPx

tt 值与相应的概率保证程度存在一一对应关，值与相应的概率保证程度存在一一对应关，常用常用 tt 值及相应的概率保证程度为：值及相应的概率保证程度为：　　

tt 值　概率保证程值　概率保证程度度　　　　 1.00 0.6827 1.00 0.6827 1.96 0.95001.96 0.9500 2.00 0.95452.00 0.9545 3.00 0.99733.00 0.9973

1在大样本

下


68.27%

95.45%

99.73%

抽样极限误差抽样极限误差抽样极限误差抽样极限误差

),(~ 2 nXNx X x

x

2x

3x

2x

x

3 x



　　以样本统计量为中心，以抽样平均误差为距离单位，可以构造一个区间，并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大，则概率保证程度越高。

区间估计原理区间估计原理区间估计原理区间估计原理



0.6827 　落在　　　　落在　　　范围内的概率范围内的概率为为 68.27%68.27%

xx X

X

样本抽样分布曲线

原总体分布曲线



区间估计原理区间估计原理区间估计原理区间估计原理0.9545

　落在　　　　落在　　　范围内的概率范围内的概率为为 95.45%95.45%

xx 2X

X

样本抽样分布曲线

原总体分布曲线




0.9973　落在　　　范围内的概率为 99.73%

X xx 3

X

样本抽样分布曲线样本抽样分布曲线

总体分布曲线总体分布曲线



若以抽样极限误差（）除以总体参数的估计量，所得结果为抽样误差率，而用 100%减去抽样误差率，则称为抽样推断精度，用表示。

1

cP

cP


[例 ] 从某市抽 500 户居民进行收入调查，得出该 500 户的人均年收入为 4800元，抽样标准误为 50元。若以 95.45%的概率保证，则抽样误差率和抽样精度为：

%8.214800

502ˆ)(

ˆ

xt

%92.97%18.21 cP

4900,470010048005024800 元元

估计区间为


若以 99.73%的概率保证 , 则估计区间为：

%87.964800

5031

cP

4950,165015048005034800


区间估计的准确性和可靠性是互相矛盾的，对于一个样本，提高了估计的准确性，必然会降低估计的可靠性；反之自然。在抽样中，应在二者之间均衡选择。

因为估计的区间越大 ,则估计把握程度越大 .但是否可以无限制地扩大估计区间 , 从而提高估计的把握程度 ?这是不行的 ,因为随意估计区间的扩大 ,虽然把握程度提高了 ,但估计的准确性或精度者降低了。例如：学生身高：

2, 95.45%, 1.68,1.74t

5, 99.999%, 1.5,2.0t


抽样估计的基本思想，就是利用科学的方法，用所抽取的样本指标去估计总体指标。抽样调查中常用的估计量有。根据数理统计的要求，一个优良的估计量，应当具有以下几方面的性质：

SSpx ,,, 2

第四节抽样估计方法

一、估计量及其性质。一、估计量及其性质。一、估计量及其性质。一、估计量及其性质。


问题：

　　第一，我们为什么以这一个而不是那一个统计量来估计某个总体参数？　　　　　　　　　　　　

估计量的优良标准估计量的优良标准估计量的优良标准估计量的优良标准

　　第二，如果有两个以上的统计量可以用来估计某个总体参数，其估计结果是否一致？是否一个统计量要优于另一个？

o

e

m

m

x

估计值的优良标准：　　　　　　无偏性、有效性、一致性



因为估计量是随机变量，对于不同的样本观察值，它有不同的估计值，我们希望它在总体参数真值附近徘徊，即希望它的数学期望等于总体参数的真值。这就是无偏性的意义。

11 ．无偏性。．无偏性。11 ．无偏性。．无偏性。

[定义 1]设为总体未知参数的估计量，如果：

则称为的无偏估计量。 )ˆ(


尽管每一次抽样估计可能是有偏差的，但是，就全部可能样本的平均而言，这种估计是设有偏误的。

应当注意，估计量具有无偏性，并不是指每次抽样估计的结果都设有偏差。事实上，由于抽样随机性的影响，抽样估计是不可能做到这一点的。

估计量的无偏性的直观意义是：

可见，估计量的无偏性是就估计的中心来考虑的。但我们知道，对于一个估计量而言，其离散程度的大小，对于其估计的质量，也有很大影响。


在一般情况下，一个总体参数的无偏估计量可以有许多个，那么如何选择一个更优良的无偏估计量呢？自然应该用这些无偏估计量方差的大小来衡量。

22 ．有效性。．有效性。 —— ——最小方差性最小方差性22 ．有效性。．有效性。 —— ——最小方差性最小方差性

假如用抽样平均数和另一变量 A来估计，虽然二者都是无偏估计量，但的方差较小，则是有效的估计量（的性质）。另外， P是一种特殊的平均数，也满足有效性标准量方差的大小来衡量。

x

x x


221

2 ˆˆ

[定义 2]设和为总体未知参数的无

偏

估计量，即

2 1

则称比更有效。1 2

若有

可见，估计量的无偏性是就估计的中心是否有偏差而言的，而估计有效性是就估计量的离散程度而言。人们希望专兼顾偏差性与离散性这两方面因素的各种来建立考察估计量优良性质的标准。

21ˆˆ


[定义 3]对于任意小的正数，如果当时，估计量依概率收敛于总体参数，即有

则称为的一致估计量。

0n

1ˆ

nnPlin

用抽样指标估计总体指标时，当样本容量增加时，由此计算出的抽样指标越来越接近于总体指标，则该估计量称为一致估计量。

33 ．一致性。．一致性。33 ．一致性。．一致性。


所以，和都是的一致估计量。 2nS 2

由切贝雪夫大数定律容易得到

1

xPlinn

值得注意的是，虽然不是的无偏估计量，但都是一致估计量，因为

2nS 2

222 1

n

nlinSlinnn


前面提到的无偏性和有效性为小样本性质，即分别对样本容量没有要求（如也可满足无偏性）。而一致性则是估计量的大样本性质（渐近性质）。如果估计量是一致的，则一个足够大的样几乎可以肯定地得到一个准确的估计，但对于小样本而言一致性是没有意义的。

2,n

除了上述 3个性质外，优良的估计量还具有充分性与完备性等性质。。充分性：估计量是否充分利用了样本带来的信息。完备性：一个充分无偏估计量在什么条件是唯一的。


学生　Ａ　Ｂ　Ｃ　Ｄ　Ｅ　Ｆ　Ｇ

成绩 30 40 50 60 70 80 90

有效性有效性有效性有效性

按随机原则抽选出４名学生，并计算平均分数和中位分数。

样本均值 45 47.5 50 52.5 55 57.5 60

出现次数 1 1 2 3 4 4 5

样本均值 62.5 65 67.5 70 72.5 75

出现次数 4 4 3 2 1 1

样本中位数 45 50 55 60 65 70 75

出现次数 4 3 8 5 8 3 4



-1

0

1

2

3

4

5

6

7

8

9

45 50 55 60 65 70 75

有效性有效性有效性有效性中位数的抽样分布

平均数的抽样分布

emx

emExE

)()(



无偏性无偏性无偏性无偏性

0

1

2

3

4

5

6

7

100 200 300 400

1252

125)( 21 nSE

2( ) 62.5nE S

有偏

无偏



一致性一致性一致性一致性

学生　Ａ　Ｂ　Ｃ　Ｄ　Ｅ　Ｆ　Ｇ

成绩 30 40 50 60 70 80 90 按随机原则抽选出 5名学

生，并计算平均分数。

样　本均　值样　本均　值

ABCDE

ABCDF

ABCDG

ABCEF

ABCEG

ABCFG

ABDEF

ABDEG

ABDFG

ABEFGACDEF

50

52

54

54

56

58

56

58

60

62

58

ACDEG

ACDFG

ACEFG

ADEFG

BCDEF

BCDEG

BCDFG

BCEFG

BDEFG

CDEFG

60

62

64

66

60

62

64

66

68

70

样本均值 50 52 54 56 58 60

出现次数 1 1 2 2 3 3

样本均值 62 64 66 68 70

出现次数 3 2 2 1 1

0

1

2

3

4

5

6n=4 时的抽样分布

xn=5 时

的抽样分布x



为　的无偏、有效、一致估计量；为　的无偏、有效、一致估计量；为　的无偏、有效、一致估计量。

x X

1nS p P

数理统计证明：数理统计证明：

抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准



1 ．用样本方差（ S2）来估计理论依据：样本方差是总体方差的无偏、一致、有效估计量。

二总体方差的估计二总体方差的估计二总体方差的估计二总体方差的估计区间估计，往往需要总体方差的资料，这里可能出现这两种情况，一种是没有总体方差或的资料，另一种是有几个不同总体方差或的资料。这时，应怎样取得资料来作为估计值呢？（一）无总体方差资料时

但要注意的是，样本方差（ S2）也要在抽样之后才能得到，而有时我们在抽样之前，就要总体方差资料来确定和控制抽样误差，怎么办？？


有时为了简便地得到资料，也可请有经验的专家进行估计，或用预估计的样本资料来计算。

2．用预计的资料。〈专家估计〉

例如，在农产量抽样调查中，有时需要对各单位的产量先作预估以便于排队，在这种情况下，也可以用这些预估资料来计算总体方差。


如果经过分析，认为总体内部的结构情况与过去某一时期相似，并且拥有这一时期的总体方差或样本方差资料。

3．用过去的历史资料

既无历史资料，又需专调查之前估计，可以在大规模抽样之前组织一项小规模试验性调查，计算样本方差，据此估计总体方差。

4．小规模试抽样


但应当注意，对于成数指标，方差最大并不是指方差中的 P最大，而是整个最大。

一般应遵循最大方差原则，即选择方差最大的资料作为我们的估计值。因为只有这样，才能保证足够的概率把握程度。

)1( PP

（二）存在几个不同的总体方差资料时（如过去有几个不同的历史资料）

第二章抽样调查基本理论2(1 )Q P P P P

容易证明当时，有极大值 0.5×0.5=0.25

5.0P Q

令：

因此，对于成数指标来说，“方差最大”原则即送用成数最按近 0.5的或方差最接近 0.25的。例如产品各格率检查，历史资料曾有 99%，97%， 95%三种情况，则 0.95 最接近 0.5，按其计算的方差最大为。

0.95× 0.05=0.0475


例：国家决策部门想了解居民对房改政策的支持率。如果要求以 95.45%的保证程度 ,估计的比例与真实比例之差不超过 1%，求 n(重复抽样 )解： P未知，取

5.0P

)( pt

10000)1(

2%1

nn

PP

即应取容量为 10000的样本才能达到要求。


Documents

第二章 抽样调查基本理论

第二章抽样调查基本理论