110
第第第第第第 第第第 第第第第 第第第 第第第第第第第第第 第第第 第第第第 第第第 第第第第

第一节 抽样推断概述

  • Upload
    rangle

  • View
    74

  • Download
    0

Embed Size (px)

DESCRIPTION

第五章 抽样推断. 第一节 抽样推断概述. 第二节 随机抽样的概率分布. 第三节 参数估计. 第四节 抽样设计. 重要概念: 抽样推断,全及指标,抽样指标,抽样误差,抽样平均误差,极限误差,概率度,简单随机抽样,类型抽样,等距抽样,整群抽样。. 重点内容: 抽样平均误差的计算,总体平均数和成数的区间估计,样本容量的确定。. 总统选举结果民意调查. 1936 年,罗斯福和兰登在美国进行总统竞选,当时有一家著名杂志社 《 文学摘要 》 进行了一次民意调查预测,预测结果是:. - PowerPoint PPT Presentation

Citation preview

Page 1: 第一节  抽样推断概述

第一节 抽样推断概述

第三节 参数估计

第二节 随机抽样的概率分布

第四节 抽样设计

第五章 抽样推断

Page 2: 第一节  抽样推断概述

重要概念:重要概念: 抽样推断,全及指标,抽样指标,抽样误差,抽样平均误差,极限误差,概率度,简单随机抽样,类型抽样,等距抽样,整群抽样。

重点内容:重点内容: 抽样平均误差的计算,总体平均数和成数的区间估计,样本容量的确定。

Page 3: 第一节  抽样推断概述

总统选举结果民意调查 1936 年,罗斯福和兰登在美国进行总统竞选,当时有一家著名杂志社《文学摘要》进行了一次民意调查预测,预测结果是:

兰登( 57 %) 胜 罗斯福( 43 %)

这些预测是根据有约 240 万人参加的问卷调查作出的,样本数已足够多了,但不幸的是,竞选结果是:

罗斯福( 62 %) 胜 兰登( 38%)

Page 4: 第一节  抽样推断概述

罗斯福以一边倒的优势当选为总统,此后不久,《文学摘要》杂志社就垮了。

《文学摘要》预测误差幅度之大令人吃惊,这是重要民意测验所出现过的最大的误差,成为西方统计教学中的一个经典案例。

这么大的误差是怎么得来的呢?

1 .调查中共印制问卷 1000 万份,回收 240 万份。

2 .采用邮寄问卷的形式,寄信地址来源于电话公司。

我们来看一下其民意调查过程:

Page 5: 第一节  抽样推断概述

当时的社会经济背景是: 1936 年的美国只有1 / 4 的人装了电话。

1 .样本的选择不是随机的,是有偏的。装了电话与未装电话的人是富人与穷人两个不同的群体,投票倾向明显不同,大多数穷人支持罗斯福。

预测失败的原因:

2 .问卷的回收率偏低。回收的与未回收的问卷填写人也有不同的投票倾向。更加扩大的误差。

Page 6: 第一节  抽样推断概述

第一节 抽样推断概述第一节 抽样推断概述

指样本单位的抽取不受主指样本单位的抽取不受主观因素及其他系统性因素观因素及其他系统性因素的影响,每个总体单位都的影响,每个总体单位都

有均等的被抽中机会有均等的被抽中机会

抽样推断抽样推断抽样推断抽样推断

按照按照随机原则随机原则 从全部研究对象中抽取一从全部研究对象中抽取一部分单位进行调查,并以调查结果对总部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方计与推断,从而认识总体的一种统计方法。法。

Page 7: 第一节  抽样推断概述

统计推断

全及总体指标:全及总体指标:参数(未知量)

样本总体指标:样本总体指标:统计量(已知量)

抽样推断抽样推断抽样推断抽样推断

Page 8: 第一节  抽样推断概述

随机原则的实现随机原则的实现随机原则的实现随机原则的实现

抽签法抽签法是将总体中每个单位的是将总体中每个单位的编号编号写在外形完全写在外形完全一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单位。位。

随机数表法随机数表法 将总体中每个单位将总体中每个单位编上号码编上号码,然后使,然后使用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单位。位。

计算机模拟法计算机模拟法是将随机数字编制为程序存储在是将随机数字编制为程序存储在计算计算机机中,需要时将总体中各单位编上号中,需要时将总体中各单位编上号码,启用码,启用随机数字发生器随机数字发生器输出随机数输出随机数字,然后从总体中找到相应总体单位字,然后从总体中找到相应总体单位形成样本。形成样本。

Page 9: 第一节  抽样推断概述

并非所有的抽样估计都按随机原并非所有的抽样估计都按随机原则抽取样本,也有则抽取样本,也有非随机抽样非随机抽样

总体总体

随机样本随机样本

非随机样本非随机样本

与总体分布与总体分布特征相同特征相同

与总体分布与总体分布特征不同特征不同

Page 10: 第一节  抽样推断概述
Page 11: 第一节  抽样推断概述

按按随机原则随机原则抽取样本单位抽取样本单位以以样本样本的数量特征推断的数量特征推断总体总体的数量特征的数量特征抽样推断产生抽样推断产生抽样误差抽样误差,但抽样误差可,但抽样误差可以事先以事先计算并控制计算并控制

抽样推断的特点抽样推断的特点抽样推断的特点抽样推断的特点

与全面调查相比,抽样调查既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目的。我国在 1994 年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以重点调查、科学核算等综合运用的统计调查方法体系。

Page 12: 第一节  抽样推断概述

  不可能不可能进行全面调查时进行全面调查时  不必要不必要进行全面调查时进行全面调查时  来不及来不及进行全面调查时进行全面调查时 对全面调查资料进行 对全面调查资料进行补充修正补充修正时时

抽样推断的应用抽样推断的应用抽样推断的应用抽样推断的应用

Page 13: 第一节  抽样推断概述

讨论以下情况是否属于概率抽样:

1 、从一个包含有 100 只兔子的实验室大笼子里抓 10 只兔子作试验,研究人员不经任何挑选,抓到哪只算哪只,抓满 10 只为止。

1 、从一个包含有 100 只兔子的实验室大笼子里抓 10 只兔子作试验,研究人员不经任何挑选,抓到哪只算哪只,抓满 10 只为止。

2 、将 100 只兔子编号( 1—100 ),任意列出 10 个不重复的数字( 1—100 的整数),以相应的兔子作为样本。

2 、将 100 只兔子编号( 1—100 ),任意列出 10 个不重复的数字( 1—100 的整数),以相应的兔子作为样本。

3 、从钱包中随便抽出一纸币,凡兔子号码与纸币编号尾数相同(后两位数, 00 为 100 )者即作为抽中的样本。

3 、从钱包中随便抽出一纸币,凡兔子号码与纸币编号尾数相同(后两位数, 00 为 100 )者即作为抽中的样本。

思考与练习 2:

Page 14: 第一节  抽样推断概述

某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄加的调查表进行分析,试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?

某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄加的调查表进行分析,试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?

思考与练习 3:

Page 15: 第一节  抽样推断概述

抽样推断的理论基础抽样推断的理论基础抽样推断的理论基础抽样推断的理论基础

大数定律大数定律

中心极限定律中心极限定律

表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的样本可以近乎 100%的概率,期望样本平均数与总体平均数的绝对离差为任意小。

1)(lim

XxPn

如果变量总体存在有限的平均数和方差,那么不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布,便趋近于正态分布。

Page 16: 第一节  抽样推断概述

抽样推断的基本概念抽样推断的基本概念抽样推断的基本概念抽样推断的基本概念

全及总体全及总体

抽样总体抽样总体

又称总体或母体,是所要认识研究对象的全体,它由具有某种共同性质或特征的单位所组成。常用 N 表示全及总体的单位数目。又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组合。抽样总体的单位数称为样本容量,通常用 n 表示。 1< n< N 。

例如:在 100 万户居民中,随机抽取 1000户居民进行家庭收支情况调查,其中的 100 万户居民就是全及总体,而被抽中的 1000户居民则构成抽样总体。

n≥30称为大样本 ,n < 30称为小样本 .n/N称为抽样比 .

Page 17: 第一节  抽样推断概述

设总体中 个总体单位某项标志的标志值分别设总体中 个总体单位某项标志的标志值分别为 ,其中具有某种属性的有 个为 ,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则单位,不具有某种属性的有 个单位,则

设总体中 个总体单位某项标志的标志值分别设总体中 个总体单位某项标志的标志值分别为 ,其中具有某种属性的有 个为 ,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则单位,不具有某种属性的有 个单位,则

N

NXXX ,, 21

0N1N

⒈ ⒈ 总体平均数(又叫总体均值):总体平均数(又叫总体均值):

m

ii

m

iii

N

ii

f

fXX

N

XX

1

11 或

根据全及总体各个单位的标志值或根据全及总体各个单位的标志值或标志特征所计算的反映总标志特征所计算的反映总体某种属体某种属性的综合指标 ,又称性的综合指标 ,又称总体参数总体参数。。

全及指标全及指标全及指标全及指标

Page 18: 第一节  抽样推断概述

m

iiim

ii

N

ii fXX

fXX

N 1

2

1

1

2 11 或

⒉ ⒉ 总体单位标志值的标准差:总体单位标志值的标准差:

⒊ ⒊ 总体单位标志值的方差总体单位标志值的方差::

m

iiim

ii

N

ii fXX

fXX

N 1

2

1

2

1

22 11 或

Page 19: 第一节  抽样推断概述

PN

NQ

N

NP 1, 01

⒋ ⒋ 总体成数:总体成数:

⒌ ⒌ 总体是非标志的标准差:总体是非标志的标准差:

PQPPP 1

⒍ ⒍ 总体是非标志的方差:总体是非标志的方差:

PQPPP 12

有最大值时,当 PQP 5.0

Page 20: 第一节  抽样推断概述

设样本中 个样本单位某项标志的标志值设样本中 个样本单位某项标志的标志值分别为 ,其中具有和不具有某分别为 ,其中具有和不具有某种属性的样本单位数目分别为 和 个,则种属性的样本单位数目分别为 和 个,则

设样本中 个样本单位某项标志的标志值设样本中 个样本单位某项标志的标志值分别为 ,其中具有和不具有某分别为 ,其中具有和不具有某种属性的样本单位数目分别为 和 个,则种属性的样本单位数目分别为 和 个,则

nnxxx ,, 21

0n1n

⒈ ⒈ 样本平均数(又叫样本均值):样本平均数(又叫样本均值):

m

ii

m

iii

n

ii

f

fxx

n

xx

1

11 或

指根据抽样总体各个单位的标志值指根据抽样总体各个单位的标志值或标志特征计算的综合指标,又被或标志特征计算的综合指标,又被称为称为统计量,统计量,它是它是随机变量。随机变量。

抽样指标抽样指标抽样指标抽样指标

Page 21: 第一节  抽样推断概述

⒉ ⒉ 样本单位标志值的标准差:样本单位标志值的标准差:

⒊ ⒊ 样本单位标志值的方差:样本单位标志值的方差:

m

iiim

ii

n

ii fxx

fsxx

ns

1

2

1

1

2

1

1

1

1或

m

iiim

ii

n

ii fxx

fsxx

ns

1

2

1

2

1

22

1

1

1

1或

为自由度

为 的无偏估计2

为 的无偏估计

Page 22: 第一节  抽样推断概述

pn

nq

n

np 1, 01

⒋ ⒋ 样本成数:样本成数:

⒌ ⒌ 样本单位是非标志的标准差:样本单位是非标志的标准差:

pqn

npp

n

nsp 1

11

⒍ ⒍ 样本单位是非标志的方差:样本单位是非标志的方差:

pqn

npp

n

nsp 1

11

2

为 的无偏估计

2P

为 的无偏估计

P

Page 23: 第一节  抽样推断概述

抽样方法的分类抽样方法的分类抽样方法的分类抽样方法的分类

重复抽样重复抽样从总体 N个单位中随机抽取一个样本容量为 n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样

不重复抽样不重复抽样每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样 .

总体单位数 N不变,同一单位可能多次被抽中。

总体单位数减少 n,同一单位只可能被抽中一次。

根据取样方式不同,可分为:

Page 24: 第一节  抽样推断概述

抽样方法的分类抽样方法的分类抽样方法的分类抽样方法的分类根据对样本的要求不同,可分为:

考虑顺序抽样考虑顺序抽样

不考虑顺序抽样不考虑顺序抽样

考虑各单位的中选顺序。ABC≠CBA

不考虑各单位的中选顺序。ABC= CBA

考虑顺序的重复抽样

不考虑顺序的不重复抽样考虑顺序的不重复抽样

不考虑顺序的重复抽样

综合起来共有四种抽样方法

Page 25: 第一节  抽样推断概述

样本的可能数目样本的可能数目样本的可能数目样本的可能数目

考虑顺序的不重复抽样

不考虑顺序的不重复抽样

考虑顺序的重复抽样

不考虑顺序的重复抽样

)!/(! nNNp nN

nN

nnNC 1

把填湖南风采 35选 7福利彩票号码看作一次抽样,则它属于哪一种抽样?中特等奖的概率是多少?( 0—9选 6呢?)

不考虑顺序的不重复抽样,

nNC

8347680/1/1 735 C

Page 26: 第一节  抽样推断概述

样本的概率分布样本的概率分布样本的概率分布样本的概率分布把某一抽样方法的全部可能的样本指标与其相应的概率排列起来,就得到样本的概率分布。

若将样本指标的取值分别记为 其相应的概率记为 P1 , P2 ,… Pn ,将它们按顺序排列起来,可得如下概率分布表。

,,..., 21 nxxx

x 1x 2x nx……

nP

)(xP …… nP1P 2P

Page 27: 第一节  抽样推断概述

第二节 随机抽样的概率分布

样本统计量 总体未

知参数

样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量

抽样分布抽样分布抽样分布抽样分布 样本统计量所有可能值的样本统计量所有可能值的概率分布概率分布

主要样本

统计量平均数 比率(成数) 方差平均数 比率(成数) 方差

分布的形状及接近总体参数的程度

Page 28: 第一节  抽样推断概述

学生 A B C D E F G

成绩 30 40 50 60 70 80 90 按随机原则抽选出4名学

生,并计算平均分数。

平均数的抽样分布

0

1

2

30 40 50 60 70 80 90

样 本 均 值 样 本 均 值 样 本 均 值

ABCD

ABCE

ABCF

ABCG

ABDE

ABDF

ABDG

ABEF

ABEG

ABFG

ACDE

ACDF

45

47.5

50

52.5

50

52.5

55

55

57.5

60

52.5

55

ACDG

ACEF

ACEG

ACFG

ADEF

ADEG

ADFG

AEFG

BCDE

BCDF

BCDG

BCEF

57.5

57.5

60

62.5

60

62.5

65

67.5

55

57.5

60

60

BCEG

BCFG

BDEF

BDEG

BDFG

BEFG

CDEF

CDEG

CDFG

CEFG

DEFG

62.5

65

62.5

65

67.5

70

65

67.5

70

72.5

75

样本均值 45 47.5 50 52.5 55 57.5 60

出现次数 1 1 2 3 4 4 5

样本均值 62.5 65 67.5 70 72.5 75

出现次数 4 4 3 2 1 1

0

1

2

3

4

5

6

45 50 55 60 65 70 750

1

2

30 40 50 60 70 80 90

二者均值相等

Page 29: 第一节  抽样推断概述

样本均值 45 47.5 50 52.5 55 57.5 60

出现次数 1 1 2 3 4 4 5

离  差 -15 -12.5 -10 -7.5 -5 -2.5 0

样本均值 62.5 65 67.5 70 72.5 75

出现次数 4 4 3 2 1 1

离  差 2.5 5 7.5 10 12.5 15

学生 A B C D E F G

成绩 30 40 50 60 70 80 90离差 -30 -20 -10 0 10 20 30

20

07.71002

1

4

20

17

47

12

2

nN

nNx

07.7x

Page 30: 第一节  抽样推断概述

平均数的抽样分布平均数的抽样分布平均数的抽样分布平均数的抽样分布全部可能样本平均数的均值等于总体均全部可能样本平均数的均值等于总体均值,即:  值,即:  从非正态总体中抽取的样本平均数当从非正态总体中抽取的样本平均数当 nn足够大时其分布接近正态分布。 足够大时其分布接近正态分布。 从正态总体中抽取的样本平均数不论容从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。 量大小其分布均为正态分布。 样本均值的标准差为总体标准差的样本均值的标准差为总体标准差的 n

1

)()( XxXxE

),(~ 2 nXNx

Page 31: 第一节  抽样推断概述

比率的抽样分布比率的抽样分布比率的抽样分布比率的抽样分布

5)1(,5

)1,(~

pnnp

nPPPNp

全部可能样本比率的均值等于总体比率,全部可能样本比率的均值等于总体比率,即:    即:    从非正态总体中抽取的样本比率,当从非正态总体中抽取的样本比率,当 nn足够大时其分布接近正态分布。 足够大时其分布接近正态分布。 从正态总体中抽取的样本比率,不论容从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。量大小其分布均为正态分布。样本比率的标准差为总体标准的  。样本比率的标准差为总体标准的  。

)()( PpPpE

n

1

Page 32: 第一节  抽样推断概述

比率的抽样分布比率的抽样分布比率的抽样分布比率的抽样分布教师 是否博士 A 是 B 是 C 否 D 否 E 否 F 是

具有博士学位的比率: P= 0.5

比率的标准差:  = 0.5

从总体中按重复抽样方法随机抽取4人,计算其比率P和标准差 p

Page 33: 第一节  抽样推断概述

比率的抽样分布样 本 比率 离差 样 本 比率 离差ABCDABCEABCFABDEABDFABEFACDEACDF

0.50.50.750.50.750.750.250.5

000.2500.250.25-0.250

ACEFADEFBCDEBCDFBCEFBDEFCDEF

0.50.50.250.50.50.50.25

00-0.25000-0.25

Pn

pp 5.0

p

5

2

4

5.05.0

1

)1(

1581.015

375.0)( 2

N

nN

n

PP

f

fppp

Page 34: 第一节  抽样推断概述

  全部可能样本比率的均值等于总体比率,即:       从非正态总体中抽取的样本比率当 n足够大时其分布接近正态分布。  从正态总体中抽取的样本比率不论容量大小其分布均为正态分布。   样本比率的标准差为总体标准差的   。n1

)()( PpPpE

比率的抽样分布

5)1(

5

))1(,(~

pn

np

nPPPNp

Page 35: 第一节  抽样推断概述

学生 A B C D

成绩 60 70 80 90

均值 = 75

方差 2= 125

从中按重复抽样方式抽取2人,计算样本的均值 及方差 S 2 。x

方差的抽样分布A60

B70

C80

D90

A

60

60 606000

60 70652550

60 8070

100200

60 9075

225450

B

70

70 60652550

70 707000

70 80752550

70 9080

100200

C

80

80 6070

100200

80 70752550

80 808000

80 90852550

D

90

90 6075

225450

90 7080

100200

90 80852550

90 909000

n

xx

n

xxSn

22 )(

1

)( 22

1

n

xxSn

5.62)(2

2 m

SSE nn

125)(2

121

m

SSE nn

1252

Page 36: 第一节  抽样推断概述

0

1

2

3

4

5

6

7

100 200 300 400

21nS

2nS

Page 37: 第一节  抽样推断概述

X

5

10

样本抽样分布

原总体分布

x

X

Page 38: 第一节  抽样推断概述

抽样误差

167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM

170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM

平均身高 =169.8CM

平均身高 =174.6CM

总平均身高 =168.6CM

Page 39: 第一节  抽样推断概述

第三节 参数估计

也叫抽样估计,就是根据样本指标数值对总体指标数值作出估计或推断。

参数估计参数估计

通常,把用来估计总体特征的样本指标叫估计量或统计量,待估计的总体指标叫总体参数。

特点

1 、它在逻辑上运用归纳推理而不是演绎推理。

2 、在方法上运用不确定的概率估计方法,而不是运用确定的数学分析方法。

3 、抽样估计存在抽样误差。

Page 40: 第一节  抽样推断概述

点估计点估计从总体中抽取一个随机样本,计算与总体参数相应的样本统计量,然后把该统计量视为总体参数的估计值,称为参数的点估计。

简单,具体明确简单,具体明确优点优点

缺点缺点 无法控制误差,仅适用于对推断的准无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况确程度与可靠程度要求不高的情况

Page 41: 第一节  抽样推断概述

的抽样分布x

点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差

Page 42: 第一节  抽样推断概述

问题:

  第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?            

估计值的优良标准

  第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?

o

e

m

m

x

估计值的优良标准:      无偏性、有效性、一致性

Page 43: 第一节  抽样推断概述

抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准

设 为待估计的总体参数, 为样本统设 为待估计的总体参数, 为样本统计量,则 的优良标准为:计量,则 的优良标准为:

若     ,则称 为 的无偏估计量

指样本指标的均值应等于被估指样本指标的均值应等于被估计的总体指标计的总体指标

无偏性无偏性无偏性无偏性

Page 44: 第一节  抽样推断概述

若    ,则称 为比 更有效的估计量

若 越大 越小,则称 为 的一致估计量

作为优良的估计量,除了满足无偏作为优良的估计量,除了满足无偏性的要求外,其方差应比较小性的要求外,其方差应比较小

有效性有效性有效性有效性

指随着样本单位数 的增大,样本指随着样本单位数 的增大,样本估计量将在概率意义下越来越接近估计量将在概率意义下越来越接近于总体真实值于总体真实值

一致性一致性一致性一致性

抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准

1)(lim

Pn

Page 45: 第一节  抽样推断概述

学生 A B C D E F G

成绩 30 40 50 60 70 80 90

有效性有效性有效性有效性

按随机原则抽选出4名学生,并计算平均分数和中位分数。

样本均值 45 47.5 50 52.5 55 57.5 60

出现次数 1 1 2 3 4 4 5

样本均值 62.5 65 67.5 70 72.5 75

出现次数 4 4 3 2 1 1

样本中位数 45 50 55 60 65 70 75

出现次数 4 3 8 5 8 3 4

Page 46: 第一节  抽样推断概述

-1

0

1

2

3

4

5

6

7

8

9

45 50 55 60 65 70 75

有效性有效性有效性有效性 中位数的抽样分布

平均数的抽样分布

emx

emExE

)()(

Page 47: 第一节  抽样推断概述

无偏性无偏性无偏性无偏性

0

1

2

3

4

5

6

7

100 200 300 400

1252

125)( 21 nSE

5.62)( 2 nSE

有偏

无偏

Page 48: 第一节  抽样推断概述

一致性一致性一致性一致性

学生 A B C D E F G

成绩 30 40 50 60 70 80 90 按随机原则抽选出 5名学

生,并计算平均分数。

样 本 均 值 样 本 均 值

ABCDE

ABCDF

ABCDG

ABCEF

ABCEG

ABCFG

ABDEF

ABDEG

ABDFG

ABEFGACDEF

50

52

54

54

56

58

56

58

60

62

58

ACDEG

ACDFG

ACEFG

ADEFG

BCDEF

BCDEG

BCDFG

BCEFG

BDEFG

CDEFG

60

62

64

66

60

62

64

66

68

70

样本均值 50 52 54 56 58 60

出现次数 1 1 2 2 3 3

样本均值 62 64 66 68 70

出现次数 3 2 2 1 1

0

1

2

3

4

5

6n=4 时 的抽样分布

xn=5 时

的抽样分布x

Page 49: 第一节  抽样推断概述

为 的无偏、有效、一致估计量; 为 的无偏、有效、一致估计量; 为 的无偏、有效、一致估计量。

x X

1nS p P

数理统计证明:数理统计证明:

抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准抽样估计量的优良标准

Page 50: 第一节  抽样推断概述

区间估计区间估计 给出一个区间 (置信区间 ) 并推断真正的参数以一定的概率存在于这个区间的方法。

抽样平均抽样平均误差误差

抽样平均抽样平均误差误差

指每一个可能样本的指标值与指每一个可能样本的指标值与总体指标值之间平均离差,即总体指标值之间平均离差,即一系列样本指标的标准差一系列样本指标的标准差

M

iix Xx

M 1

21

式中: 为样本平均数的抽样平均误差; 为式中: 为样本平均数的抽样平均误差; 为可能的样本数目; 为第 个可能样本的平均可能的样本数目; 为第 个可能样本的平均数; 为总体平均数数; 为总体平均数

xi

Xix

M

1

)( 2

n

xxS

注意:不要混淆抽样标准差与样本标准差!

Page 51: 第一节  抽样推断概述

抽样平均误差的计算抽样平均误差的计算抽样平均误差的计算抽样平均误差的计算

nnx

2

N

n

nN

nN

nx 11

22

⒈ ⒈ 样本平均数的抽样平均误差样本平均数的抽样平均误差

当 N≥500 时,有

N

n

N

nN

N

nN

11

重复抽样时:重复抽样时:

不重复抽样时:不重复抽样时:

Page 52: 第一节  抽样推断概述

⒉ ⒉ 样本成数的抽样平均误差样本成数的抽样平均误差

n

PPp

1

N

n

n

PP

N

nN

n

PPp 1

1

1

1

重复抽样时:重复抽样时:

不重复抽样时不重复抽样时::

当 N≥500 时,有

N

n

N

nN

N

nN

11

抽样平均误差的计算公式抽样平均误差的计算公式抽样平均误差的计算公式抽样平均误差的计算公式

Page 53: 第一节  抽样推断概述

关于总体方差的估计方法关于总体方差的估计方法关于总体方差的估计方法关于总体方差的估计方法用过去同类问题全面调查或抽样调查的经用过去同类问题全面调查或抽样调查的经验数据代替;验数据代替;用样本标准差 代替总体标准差 ,用 用样本标准差 代替总体标准差 ,用 代替 。 代替 。

s psP

11

22

f

fxx

n

xx或 pp

n

n

1

1

抽样平均误差的计算公式抽样平均误差的计算公式抽样平均误差的计算公式抽样平均误差的计算公式

Page 54: 第一节  抽样推断概述

影响抽样误差的因素影响抽样误差的因素影响抽样误差的因素影响抽样误差的因素

总体各单位标志值的差异程度(即总体各单位标志值的差异程度(即标准差的大小):标准差的大小): 越大,抽样误差越大,抽样误差越大;越大;样本单位数的多少:样本单位数的多少: 越大,抽样误越大,抽样误差越小;差越小;抽样方法:抽样方法:不重复抽样的抽样误差不重复抽样的抽样误差比重复抽样的抽样误差小;比重复抽样的抽样误差小;抽样组织方式:抽样组织方式:简单随机抽样的误简单随机抽样的误差最大。差最大。

n

Page 55: 第一节  抽样推断概述

抽样极限抽样极限误差误差

抽样极限抽样极限误差误差

指在一定的概率保证程度下,抽指在一定的概率保证程度下,抽样指标与总体指标之间抽样误差样指标与总体指标之间抽样误差的最大可能范围,也称作的最大可能范围,也称作抽样允抽样允许误差。许误差。常用△表示常用△表示。。

pxPpXx 或

ppxxPpPXxX 或即

上式表明,样本平均数(成数)是以总体平均数(成数)为中心,,在相应的区间内变动。

Page 56: 第一节  抽样推断概述

由于总体成数和总体平均数是未知的,它要求靠实测的抽样平均数和抽样成数来估计,因而抽样误差的实际意义是希望总体平均数(成数)落在某个已知的范围内。

抽样极限误差抽样极限误差抽样极限误差抽样极限误差

所以前面的不等式应变换为:ppxx

pPpxXx 或即在一个特定的全及总体中,当抽样方法和样本容量固定时,抽样平均误差是一个定值,因此,抽样极限误差通常以抽样平均误差为标准单位来衡量。即抽样极限误差通常表示为抽样平均误差的多少倍。

tt ppxx // 或即

由于 t值与样本估计值落入允许误差范围内的概率有关,因此, t 也称为概率度。

Page 57: 第一节  抽样推断概述

抽样估计的置信度抽样估计的置信度抽样估计的置信度抽样估计的置信度抽样指标和总体指标的误差不超过一定范围的概率大小,我们将它称之为概率保证程度,也叫抽样估计的置信度,一般用 F(t) 表示。即:

置信度置信度

)()( tFXxPx

tt值与相应的概率保证程度存在一一对应关,值与相应的概率保证程度存在一一对应关,常用常用 tt值及相应的概率保证程度为:值及相应的概率保证程度为:  

tt值  概率保证程值  概率保证程度度     1.00 0.6827 1.00 0.6827 1.96 0.95001.96 0.9500 2.00 0.95452.00 0.9545 3.00 0.99733.00 0.9973

1在大样本

Page 58: 第一节  抽样推断概述

68.27%

95.45%

99.73%

抽样极限误差抽样极限误差抽样极限误差抽样极限误差

),(~ 2 nXNx X x

x

2x

3x

2x

x

3 x

Page 59: 第一节  抽样推断概述

  以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。

区间估计原理区间估计原理区间估计原理区间估计原理

Page 60: 第一节  抽样推断概述

区间估计原理区间估计原理区间估计原理区间估计原理

0.6827  落在    落在   范围内的概率范围内的概率为为 68.27%68.27%

xx X

X

样本抽样分布曲线

原总体分布曲线

Page 61: 第一节  抽样推断概述

区间估计原理区间估计原理区间估计原理区间估计原理0.9545

 落在    落在   范围内的概率范围内的概率为为 95.45%95.45%

xx 2X

X

样本抽样分布曲线

原总体分布曲线

Page 62: 第一节  抽样推断概述

区间估计原理区间估计原理区间估计原理区间估计原理

0.9973 落在   范围内的概率为 99.73%

X xx 3

X

样本抽样分布曲线样本抽样分布曲线

总体分布曲线总体分布曲线

Page 63: 第一节  抽样推断概述

总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计

xx

xx

xxX

xXx

,或

,表表达达式式

表表达达式式

其中, 为极限误差xxZ

Page 64: 第一节  抽样推断概述

步骤步骤步骤步骤

⒈ ⒈ 计算样本平均数 ;计算样本平均数 ;x

1

,1

2

2

2

2

f

fxxs

n

xxs

⒉ ⒉ 搜集总体方差的经验数据 ;或计搜集总体方差的经验数据 ;或计算样本标准差 ,即算样本标准差 ,即

22s

总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计

Page 65: 第一节  抽样推断概述

步步骤骤步步骤骤⒊ ⒊ 计算抽样平均误差计算抽样平均误差::

n

s

nx 或

重复抽样时重复抽样时::

N

n

n

s

N

n

nx 1122

不重复抽样时不重复抽样时::

总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计

Page 66: 第一节  抽样推断概述

步步骤骤步步骤骤

⒋ ⒋ 计算抽样极限误差:计算抽样极限误差:xx

Z

⒌ ⒌ 确定总体平均数的置信区间:确定总体平均数的置信区间:

xx

xx

xxX

xXx

,或

总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计

Page 67: 第一节  抽样推断概述

【例【例 AA 】】某企业生产某种产品的工某企业生产某种产品的工人有人有 10001000 人,某日采用不重复抽人,某日采用不重复抽样从中随机抽取样从中随机抽取 100100 人调查他们的人调查他们的当日产量,要求在当日产量,要求在 95﹪95﹪的概率保的概率保证程度下,证程度下,估计该厂全部工人的日估计该厂全部工人的日平均产量和日总产量。平均产量和日总产量。

总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计总体平均数的区间估计

Page 68: 第一节  抽样推断概述

按 日产量分组(件)

组中值(件)

工人数(人)

110~ 114

114~ 118

118~ 122

122~ 126

126~ 130

130~ 134

134~ 138

138~ 142

112

116

120

124

128

132

136

140

3

7

18

23

21

18

6

4

336

812

2160

2852

2688

2376

816

560

588

700

648

92

84

648

600

784

合计 — 100 12600 4144

x fxf fxx

2

100100 名工人的日产量分组资料名工人的日产量分组资料

Page 69: 第一节  抽样推断概述

解:解:

47.699

4144

1

126100

12600

2

f

fxxs

f

xfx

件614.01000

1001

100

47.6

1

2

2

N

n

n

sx

Page 70: 第一节  抽样推断概述

件203.1614.096.1 xxZ

则该企业工人人均产量 及日总产则该企业工人人均产量 及日总产量 的置信区间为:量 的置信区间为:

XXN

203.11261000203.11261000

,203.1126203.1126

XN

X

即该企业工人人均产量在即该企业工人人均产量在 124.797124.797 至至 127.127.203203件之间,其日总产量在件之间,其日总产量在 124797124797 至至 127127303303件之间,估计的可靠程度为件之间,估计的可靠程度为 95﹪95﹪

Page 71: 第一节  抽样推断概述

总体成数的区间估计总体成数的区间估计总体成数的区间估计总体成数的区间估计

pp

pp

ppP

pPp

,或

,表表达达式式

表表达达式式

其中, 为极限误差pp Z

Page 72: 第一节  抽样推断概述

步步骤骤步步骤骤

⒈ ⒈ 计算样本成数 ;计算样本成数 ;n

np 1

⒉⒉ 搜集总体方差的经验数据搜集总体方差的经验数据 ; ;2p

⒊ ⒊ 计算抽样平均误差:计算抽样平均误差:

1

11

1

1

n

pppp

n

n

nnp

p 或

N

n

n

pp

N

n

np

p 11

11

2

重复抽样重复抽样条件下条件下

不重复抽不重复抽样条件下样条件下

总体成数的区间估计总体成数的区间估计总体成数的区间估计总体成数的区间估计

Page 73: 第一节  抽样推断概述

步步骤骤步步骤骤⒋ ⒋ 计算抽样极限误差:计算抽样极限误差:

pp Z

⒌ ⒌ 确定总体成数的置信区间:确定总体成数的置信区间:

pp

pp

ppP

pPp

,或

总体成数的区间估计总体成数的区间估计总体成数的区间估计总体成数的区间估计

Page 74: 第一节  抽样推断概述

【例【例 BB 】】若例若例 AA 中工人日产量在中工人日产量在 111188 件以上者为完成生产定额任务,件以上者为完成生产定额任务,要求在要求在 95﹪95﹪的概率保证程度下,的概率保证程度下,估计该厂全部工人中完成定额的工估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。人比重及完成定额的工人总数。

总体成数的区间估计总体成数的区间估计总体成数的区间估计总体成数的区间估计

Page 75: 第一节  抽样推断概述

按 日产量分组(件)

组中值(件) 工人数(人)

110~ 114

114~ 118

118~ 122

122~ 126

126~ 130

130~ 134

134~ 138

138~ 142

112

116

120

124

128

132

136

140

3

7

18

23

21

18

6

4

合计 — 100

x f

100100 名工人的日产量分组资料名工人的日产量分组资料

完成定额完成定额的人数的人数

Page 76: 第一节  抽样推断概述

解:解:

0568.0029.096.1

029.0

1000

1001

1100

1.09.01

1

1

,9.0100

90

,96.1,10,90,100,1000

1

01

pp

p

Z

N

n

n

pp

n

np

ZnnnN

己知

Page 77: 第一节  抽样推断概述

则该企业全部工人中完成定额的工人比则该企业全部工人中完成定额的工人比重 及完成定额的工人总数 的置信重 及完成定额的工人总数 的置信区间为:区间为:P NP

0568.09.010000568.09.01000

,0568.09.00568.09.0

NP

P

即该企业工人中完成定额的工人比重在即该企业工人中完成定额的工人比重在0.84320.8432至至 0.95680.9568 之间,完成定额的工之间,完成定额的工人总数在人总数在 843.2843.2至至 956.8956.8人之间,估计人之间,估计的可靠程度为的可靠程度为 95﹪95﹪。。

Page 78: 第一节  抽样推断概述

样本容量的确定样本容量的确定样本容量的确定样本容量的确定影响样本容量的因素影响样本容量的因素

总体各单位标志值的差异程度(即标准总体各单位标志值的差异程度(即标准差的大小):差的大小): 越大,所需样本容量越多越大,所需样本容量越多允许的极限误差△的大小:△允许的极限误差△的大小:△ 越大,所越大,所需样本容量越小;需样本容量越小;推断的可靠程度,即置信度:推断的可靠程度,即置信度:对可靠程对可靠程度要求越高,所需样本容量越大;度要求越高,所需样本容量越大;抽样方法和抽样组织方式:抽样方法和抽样组织方式:重复抽样比重复抽样比不重复抽样所需样本容量要多;类型抽样不重复抽样所需样本容量要多;类型抽样比简单随机抽样所需样本容量多。比简单随机抽样所需样本容量多。

Page 79: 第一节  抽样推断概述

样本容量调查误差调查误差

调查费用调查费用

小样本容量小样本容量节省费用但节省费用但调查误差大调查误差大

大样本容量大样本容量调查精度高调查精度高但费用较大但费用较大

找出在规定误差范围内的最小样本容量

确定样本容量的意义确定样本容量的意义确定样本容量的意义确定样本容量的意义

找出在限定费用范围内的最大样本容量

Page 80: 第一节  抽样推断概述

确确定定方方法法

确确定定方方法法

推断总体平均数所需的样本容量推断总体平均数所需的样本容量推断总体平均数所需的样本容量推断总体平均数所需的样本容量⑴ ⑴ 重复抽样条件下:重复抽样条件下:

,n

ZZxx

2

2

2

22

xx

Zn

通常的做法是先确定置信度,然后限定抽样极限误差。

或 S通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的 S。

计算结果通常向上进位

Page 81: 第一节  抽样推断概述

,12

N

n

nZZ

xx

⑵ ⑵ 不重复抽样条件下:不重复抽样条件下:确确定定方方法法

确确定定方方法法

推断总体平均数所需的样本容量推断总体平均数所需的样本容量推断总体平均数所需的样本容量推断总体平均数所需的样本容量

22

2

222

22

xx N

N

ZN

NZn

Page 82: 第一节  抽样推断概述

【例【例 AA 】某食品厂要检验本月生产】某食品厂要检验本月生产的的 1000010000 袋某产品的重量,根据上袋某产品的重量,根据上月资料,这种产品每袋重量的标准月资料,这种产品每袋重量的标准差为差为 2525 克。要求在克。要求在 95.45﹪95.45﹪的概的概率保证程度下,平均每袋重量的误率保证程度下,平均每袋重量的误差范围不超过差范围不超过 55 克,应抽查多少袋克,应抽查多少袋产品?产品?

Page 83: 第一节  抽样推断概述

则在重复抽样条件下:

克克己知

1005

252

,2,5,25,10000

2

22

2

22

x

x

Zn

ZN

解:解:

袋袋 10001.99

252510000

25210000222

22

222

22

ZN

NZn

x

在不重复抽样下 :

Page 84: 第一节  抽样推断概述

确确定定方方法法

确确定定方方法法

推断总体成数所需的样本容量推断总体成数所需的样本容量推断总体成数所需的样本容量推断总体成数所需的样本容量⑴ ⑴ 重复抽样条件下:重复抽样条件下:

,

1

n

PPZZ pp

22

2 11

PP

PPPPZn

通常的做法是先确定置信度,然后限定抽样极限误差。

计算结果通常向上进位

通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的 ;③取方差的最大值 0.25。

2P

2Ps

Page 85: 第一节  抽样推断概述

,1

1

N

n

n

PPZZ pp

⑵ ⑵ 不重复抽样条件下:不重复抽样条件下:

确确定定方方法法

确确定定方方法法

推断总体成数所需的样本容量推断总体成数所需的样本容量推断总体成数所需的样本容量推断总体成数所需的样本容量

PPN

PNP

PPZN

PPNZn

pp

1

1

1

1222

2

Page 86: 第一节  抽样推断概述

【例【例 BB】】某企业对一批总数为某企业对一批总数为 50005000件件的产品进行质量检查,过去几次同类调的产品进行质量检查,过去几次同类调查所得的产品合格率为查所得的产品合格率为 93﹪93﹪、、 95﹪95﹪、、96﹪96﹪,为了使合格率的允许误差不超过,为了使合格率的允许误差不超过3﹪3﹪,在,在 99.73﹪99.73﹪的概率保证程度下,的概率保证程度下,应抽查多少件产品?应抽查多少件产品?【分析】因为共有三个过去的合格率的【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其资料,为保证推断的把握程度,应选其中方差最大者,即中方差最大者,即 P=93﹪P=93﹪。。

Page 87: 第一节  抽样推断概述

件件

在不重复抽样条件下:

则在重复抽样条件下:

﹪己知

577004.576

0651.0303.05000

0651.035000

1

1

65103.0

0651.031

,0651.01,3,3,5000

22

2

22

2

2

2

2

2

2

PPZN

PPNZn

PPZn

PPZN

p

p

pp 解解

Page 88: 第一节  抽样推断概述

必要样本容量的影响因素必要样本容量的影响因素必要样本容量的影响因素必要样本容量的影响因素总体方差的大小;总体方差的大小;允许误差范围的大小;允许误差范围的大小;概率保证程度;概率保证程度;抽样方法;抽样方法;抽样的组织方式。抽样的组织方式。

总体方差的大小;总体方差的大小;允许误差范围的大小;允许误差范围的大小;概率保证程度;概率保证程度;抽样方法;抽样方法;抽样的组织方式。抽样的组织方式。

重复抽样条件下:重复抽样条件下:

2

2

2

22

xx

Zn

不重复抽样条件下:不重复抽样条件下:

22

2

222

22

xx N

N

ZN

NZn

Page 89: 第一节  抽样推断概述

第四节 抽样设计

抽样方案设计的基本原则抽样方案设计的基本原则抽样方案设计的基本原则抽样方案设计的基本原则

随机原则随机原则随机原则随机原则——抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位

最大抽样效果原最大抽样效果原则则

最大抽样效果原最大抽样效果原则则

抽样误差最小抽样误差最小——在其他条件相同的情况下,选抽样误差最小的方案

费用最少费用最少 ——在其他条件相同的情况下,选费用最少的方案

设计抽样方案时,通常是设计抽样方案时,通常是在误差达到一定要求的条在误差达到一定要求的条件下,选择费用最少的方案件下,选择费用最少的方案

Page 90: 第一节  抽样推断概述

简单随机抽样简单随机抽样简单随机抽样简单随机抽样对总体未作任何处理的情况下,然后按随机对总体未作任何处理的情况下,然后按随机原则直接从总体中抽出若干单位构成样本原则直接从总体中抽出若干单位构成样本

抽样平均误差的计算公式见书: P243

抽取样本的具体方法:

抽签法抽签法是将总体中每个单位的编号写在外形完全是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单选,签上的号码所对应的单位就是样本单位。位。

随机数表法随机数表法 将总体中每个单位编上号码,然后使将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单用随机数表,查出所要抽取的调查单位。位。

Page 91: 第一节  抽样推断概述

应用应用 仅适用于规模不大、内部各单位仅适用于规模不大、内部各单位标志值差异较小的总体标志值差异较小的总体

简单随机抽样的特点简单随机抽样的特点简单随机抽样的特点简单随机抽样的特点1 、直接从总体中抽取所要调查的单位,无须分组、分类、排队等处理;

2 、必须事先对总体中的所有单位进行编码和编号;3 、抽取样本时不借助有关标志的辅助信息

4 、当总体各单位村志值之间差异很大时,采用此方法不能保证样本的代表性。

Page 92: 第一节  抽样推断概述

先将总体全部单位按某一标志分类,然后从先将总体全部单位按某一标志分类,然后从各类型中按随机原则抽取样本单位组成样本。各类型中按随机原则抽取样本单位组成样本。

总体N

样本n

等额抽取

等比例抽取

最优抽取

2N 2N

kN kN

1N 1N 1n1n

2n2n

knkn

··· ···

类型抽样类型抽样类型抽样类型抽样

实质上是分组法与随机原则的结合。

例如,在居民生活水平调查中,先按职业分类,然后每种职业分别随机抽取部分居民进行调查。

Page 93: 第一节  抽样推断概述

类型抽样的优点:类型抽样的优点:类型抽样的优点:类型抽样的优点:能提高样本的代表性;能提高样本的代表性;能降低抽样误差;能降低抽样误差;组织起来较为方便;组织起来较为方便;

能提高样本的代表性;能提高样本的代表性;能降低抽样误差;能降低抽样误差;组织起来较为方便;组织起来较为方便;

类型抽样分组的基本原则:类型抽样分组的基本原则:

尽量缩小各组内标志值之间的差异,增大组间各标志值之间的差异。

Page 94: 第一节  抽样推断概述

样本在各组间的分配方法:样本在各组间的分配方法:样本在各组间的分配方法:样本在各组间的分配方法:等额分配法:每组抽取的单位数一样。

等比例分配法:按各组单位的比例分配样本单位。

最佳分配法:按各组的方差大小分配样本单位。方差大的组分配较多的样本单位。

经济分配法:按各组的方差大小分配样本单位,同时考虑各组抽样调查的费用。

实际工作中比较常用的是等比例分配法。实际工作中比较常用的是等比例分配法。

Page 95: 第一节  抽样推断概述

类型抽样的抽样平均误差类型抽样的抽样平均误差类型抽样的抽样平均误差类型抽样的抽样平均误差一、抽样平均数一、抽样平均数

)1(2

2

N

n

n

n

ix

ix

不重复抽样情况下

重复抽样情况下

二、抽样成数二、抽样成数

)1()1(

)1(

N

n

n

pp

n

pp

iip

iip

不重复抽样情况下

重复抽样情况下

Page 96: 第一节  抽样推断概述

【例】某市有【例】某市有 250250 家商店,分大中小三类,现从中家商店,分大中小三类,现从中等比例抽出等比例抽出 5050 家进行销售额调查,所得资料如下家进行销售额调查,所得资料如下

分层各层商店数 Ni

层权Wi

各层抽取数 ni

各层销售额样本均值 ( 万元 )

样本方差 ( 万元 )

大型商店中型商店小型商店

25

75

150

0.1

0.3

0.6

5

15

30

1700

800

120

2800

6985

10850

合计 250 1.0 50 __ __

ix2iS

以 95.45%的概率保证程度估计该市所有商店的平均销售额。

Page 97: 第一节  抽样推断概述

根据题意知: N=250 , W1=0.1 , W2=0.3 ,W3=0.6 , f1=f2=f3=0.2 , 1-а=95.45%, t=2

)(482

1206.08003.070011.0

万元 ii xWx

总体均值的点估计值为:

抽样标准误差为:

)(92.11

)30

108506.0

15

69853.0

5

28001.0(8.0

]/)1([)1(

222

222

万元

nSfWN

n

n iiii

x

总体均值的区间估计为:482±2*11.9=[485.16万元, 505.84万元 ]

解:

Page 98: 第一节  抽样推断概述

首先将总体各单位按某一标志排队,然后按首先将总体各单位按某一标志排队,然后按固定的顺序和间隔抽取样本单位。又称固定的顺序和间隔抽取样本单位。又称机械机械抽样抽样或或系统抽样系统抽样。。

等距抽样等距抽样等距抽样等距抽样

等距抽样是不重复抽样,适合于对单位数不多且能进行排序的总体抽样。按无关标按无关标

志排队志排队按无关标按无关标

志排队志排队

按有关标按有关标志排队志排队

按有关标按有关标志排队志排队

总体单位的排列顺序和所研究的标志数值大小是无关的。如调查居民生活水平时,按姓氏笔划排队。

总体单位的排列顺序和所研究的标志数值大小有密切关系。如居民收入调查,按银行存款高低排序。

Page 99: 第一节  抽样推断概述

根据样本抽选的方法不同,可分为:

随机起点等距抽样随机起点等距抽样随机起点等距抽样随机起点等距抽样

半距起点等距抽样半距起点等距抽样半距起点等距抽样半距起点等距抽样

对称起点等距抽样对称起点等距抽样对称起点等距抽样对称起点等距抽样

······(总体单位按某一标志排序)

······(总体单位按某一标志排序)

······(总体单位按某一标志排序)

Page 100: 第一节  抽样推断概述

按无关标志排队的等距抽样,可按不重复抽样按无关标志排队的等距抽样,可按不重复抽样下的下的简单随机抽样简单随机抽样来计算;来计算;

按有关标志排队的等距抽样,可按按有关标志排队的等距抽样,可按类型抽样类型抽样来来计算。计算。

按无关标志排队的等距抽样,可按不重复抽样按无关标志排队的等距抽样,可按不重复抽样下的下的简单随机抽样简单随机抽样来计算;来计算;

按有关标志排队的等距抽样,可按按有关标志排队的等距抽样,可按类型抽样类型抽样来来计算。计算。

等距抽样的抽样平均误差等距抽样的抽样平均误差等距抽样的抽样平均误差等距抽样的抽样平均误差

等距抽样的抽样平均误差估计比较复杂。等距抽样的抽样平均误差估计比较复杂。一般按以下方法近似计算。一般按以下方法近似计算。

Page 101: 第一节  抽样推断概述

将总体全部单位分为若干将总体全部单位分为若干“群”“群”,然后以群,然后以群作为抽样单位,从总体中抽取若干群作为样作为抽样单位,从总体中抽取若干群作为样本,并对中选群的所有单位进行全面调查。本,并对中选群的所有单位进行全面调查。

例:总体群数例:总体群数 R=16 R=16 样本群数样本群数 r=4r=4

hlpd nnnnn

ABC

D

EF

G H I

JK

L

MN

OP

I

H

P

D

样本容量

简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差简单、方便,能节省人力、物力、财简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差力和时间,但其样本代表性可能较差

整群抽样整群抽样整群抽样整群抽样

Page 102: 第一节  抽样推断概述

整群抽样的抽样平均误差整群抽样的抽样平均误差整群抽样的抽样平均误差整群抽样的抽样平均误差1 、抽样平均数的平均误差

2 、抽样成数的平均误差

)1

(2

R

rR

rp

p

)1

(2

R

rR

rx

x

Page 103: 第一节  抽样推断概述

例:对灯泡质量进行抽样检查,每隔 5小时,抽出 6 分种产品进行全面检测,共抽取 25批,测得平均照明时间为 935小时,样本标准差为 50小时,试以 68.27% 的概率保证程度估计全部灯泡的平均照明时间。解:由题意知:

)(90.9)1750

25750(

25

50)

1(

22

小时

R

rR

rx

x

750256

605

935,1,6827.01,25

R

xtr 小时

抽样标准误差为:

全部灯泡的平均照明时间的区间估计为:

935±9.90小时

Page 104: 第一节  抽样推断概述

先通过抽取若干级中间组全单位,最后再来先通过抽取若干级中间组全单位,最后再来抽取基本调查单位的抽样组织形式。抽取基本调查单位的抽样组织形式。

例:在某省例:在某省 100100 多万农户抽取多万农户抽取 10001000 户调户调查农户生产性投资情况。查农户生产性投资情况。

第一阶段:从该省所有县中抽取第一阶段:从该省所有县中抽取 55 个县个县第二阶段:从被抽中的第二阶段:从被抽中的 55 个县中各抽个县中各抽 44 个乡个乡

第三阶段:从被抽中的第三阶段:从被抽中的 2020 个乡中各抽个乡中各抽 55 个村个村 第四阶段:从被抽中的第四阶段:从被抽中的 100100 个村中各抽个村中各抽 1010户户

样本样本 n=100×10=1000(n=100×10=1000( 户户 ))

多阶段抽样多阶段抽样多阶段抽样多阶段抽样

Page 105: 第一节  抽样推断概述

多阶段抽样多阶段抽样多阶段抽样多阶段抽样多阶段抽样的适用范围多阶段抽样的适用范围多阶段抽样具有整群抽样的优点,同时还可用于:

1 、当抽样调查的面积很广或者总体范围太大无法直接抽取样本时;2 、可以相对地节约人力物力;

3 、对那些基本单位数多且分散的总体,可使抽样工作大大简化。

Page 106: 第一节  抽样推断概述

调查对象的性质特点调查对象的性质特点对调查对象的了解程度(抽样框对调查对象的了解程度(抽样框的特点)的特点)抽样误差的大小抽样误差的大小人力、财力和物力等条件的限制人力、财力和物力等条件的限制

调查对象的性质特点调查对象的性质特点对调查对象的了解程度(抽样框对调查对象的了解程度(抽样框的特点)的特点)抽样误差的大小抽样误差的大小人力、财力和物力等条件的限制人力、财力和物力等条件的限制

在实际工作中,选择适当的抽样组在实际工作中,选择适当的抽样组织方式主要应考虑:织方式主要应考虑:

如何确定抽样组织方式如何确定抽样组织方式如何确定抽样组织方式如何确定抽样组织方式

Page 107: 第一节  抽样推断概述

1.抽样误差是抽样调查中无法避免的误差。( )2. 抽样误差的产生是由于破坏了随机原则所造成的。

( )3. 重复抽样条件下的抽样平均误差总是大于不重复

抽样条件下的抽样平均误差。( )4. 在其他条件不变的情况下,抽样平均误差要减少

为原来的 1/3 ,则样本容量必须增大到 9倍。( )5. 当总体单位数很大但分布不均匀时,不宜采用抽

样调查方法。( )

Page 108: 第一节  抽样推断概述

6. 遵循随机原则抽样,可以使样本与总体同分布,进而提高样本的代表性。( )

7. 抽样调查所遵循的基本原则是可靠性原则。( )8. 样本指标是一个客观存在的常数。( )9. 全面调查只有登记性误差而没有代表性误差,抽样

调查只有代表性误差而没有登记性误差。( )10. 抽样平均误差就是抽样平均数的标准差。( )

Page 109: 第一节  抽样推断概述

1 、某地区粮食播种面积共 5000亩,按不重复抽样方法随机抽取了 100亩进行实测。调查结果,平均亩产为 450公斤,亩产量的标准差为 52公斤。试以 95% 的置信度估计该地区粮食平均亩产量的区间。

2 、某地对上年栽种一批树苗共 3000株进行了抽样调查,随机抽查的 200株树苗中有 170株成活。试以 95.45% 的概率估计该批树苗的成活率的置信区间和成活总数的置信区间。

Page 110: 第一节  抽样推断概述

3 、检验某食品厂本月生产的 10000袋产品的重量,根据上月资料,这种产品每袋重量的标准差为 25

克。要求在 95.45% 的概率保证程度下,平均每袋重量的误差范围不超过 5克,应抽查多少袋产品?