第三节 二项分布 (binominal...

Preview:

Citation preview

1.任何随机事件A的概率都是在0与1之间的正数,即:

0 ≤P(A)≤1 2.不可能事件的概率等于零,即 :

P(A)= 0 3.必然事件的概率等于1,即:

P(A)= 1

(一)概率的公理系统

(二)概率的加法定理

若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件。 两互不相容事件和的概率,等于这两个事件概率之和,即

)()()( BPAPBAP +=+

)()()()( 2121 nn APAPAPAAAP +++=++

(三)概率的乘法定理

若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件。 两个互相独立事件同时出现的概率,等于这两个事件概率的乘积,即

)()()( BPAPABP ⋅=)()()()( 2121 nn APAPAPAAAP ⋅⋅⋅=⋅⋅

例:某一学生从5个试题中任意抽取一题,进行口试。如果抽到每一题的概率为1/5,则抽到试题1或试题2的概率是多少? 如果前一个学生把抽过的试题还回后,后一个学生再抽,则4个学生都抽到试题1的概率是多少?

该学生抽到试题1或者试题2为不相容事件:

52

51

51)()()( =+=+=+ BPAPBAP

( )6251

51

51

51

51

4321 =×××=⋅⋅⋅ AAAAP

四个学生均抽到试题1为独立事件:

例:一个口袋装有6只球,其中4只白球、2只红球,从袋中取球两次。

考虑两次取球方式 (a)放回抽样,第一次取一只球,观察其颜色后放回,搅匀后再取一球。 (b)不放回抽样,第一次取一球不放回袋中,第二次从剩余的球中再取一球。

请问这两种情况下取到一只白球和一只红球的概率。

放回取样

第一次取到白球,第二次取到红球:

92

62

64)()()( =×=⋅= BPAPABP

第一次取到红球,第二次取到白球:

92

64

62)()()( =×=⋅= APBPBAP

取到一只白球和一只红球的概率:

94

92

92)()( =+=+= BAPABPP

不放回取样

第一次取到白球,第二次取到红球:

154

52

64)()()( =×=⋅= BPAPABP

第一次取到红球,第二次取到白球:

154

54

62)()()( =×=⋅= APBPBAP

取到一只白球和一只红球的概率:

158

154

154)()( =+=+= BAPABPP

问题:小明的班上有26名同学,至少有一位同学与小明的生日相同的概率?(一年按365天计算)

25名同学与小明的生日均不相同的概率为:

9337.0)365364( 25 ==不同P

至少一位同学与小明的生日相同的概率为:

0663.09337.011 ==−= -不同同 PP

对立事件

nnP

3651-365364365 )(

不同

+⋅⋅⋅=

n 20 23 30 40 50 64 100

p 0.411 0.507 0.706 0.891 0.97 0.997 1

2636512365364365 )6-( +⋅⋅⋅

=

0.4018=

5982.01 == 不同同 - PP

问题:26人的班上,至少两人生日相同的概率为多少?

0 1000 2000 30000

0.2

0.4

0.6

0.8

1

0 50 100 150 2000

0.2

0.4

0.6

0.8

1

“与小明生日相同的概率”与

“班级人数”的关系

“至少两人生日相同的概率”与“班级人数”的

关系

人数

概率

人数

概率

小明好友有6人, (1)有人与小明出生月份相同的概率为多少?(2)至少2人出生月份相同的概率为多少?

0.352812

11-(不同同 ==−= 5)11 PP

9606.0)1612(11 =+−×××

=−=6不同同

12

1112-

PP

(1)

(2)

演示者
演示文稿备注
当好友数大于12时?

二项分布是离散型随机变量的概率分布,又称贝努里分布。

二项分布也是心理与教育统计中常用的一种基本随机变量分布。

二项式定理 二项试验 二项分布 二项分布的性质 二项分布的应用

(一)排列与组合

(二)二项式定理

从甲、乙、丙3名同学中选出2名参加某天

的一项活动,其中1名学生参加上午的活动,1名参加下午的活动,有多少种不同的方法?

从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?

定义:从n个不同的元素中,任取m个(m≤n)元素,按一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。

(1)当m<n,所得排列称为选排列,记作: 。

(2)当m=n时,所得排列称为全排列,记作: 。

!( 1)( 2) ( 1)( )!

mn

nP n n n n mn m

= − − ⋅⋅⋅ − + =−

mnP

nP!nP n=

(1)用1到9这9个数字,可以组成多少个

没有重复数字的三位数?

(2)有5本不同的书,从中选3本送给3名同学,每人各1本,共有多少种不同的选法?

从甲、乙、丙3名同学中选出2名参加某天的一项活动,有多少种不同的选法?

定义:从n个不同元素中,任取m个(m≤n)元素,不管顺序,并成一组,称为从n个不同元素中取出m个元素的一个组合,记作 。 m

nC

!!( )!

mm nn

m

P nCP m n m

= =−

平面内有10个点,以其中每2个点为端点的线段共有多少条?

2 2 2

0 2 1 2 22 2 2

3 3 2 2 3

0 3 1 2 2 2 3 33 3 3 3

0 1 1 2 2 2

1 1

( ) 2

( ) 3 3

( )n n n nn n n

r n r r n n n nn n n

a b a ab bC a C ab C b

a b a a b ab bC a C a b C ab C b

p q C p q C p q C p qC p q C pq C q

− −

− − −

+ = + +

= + +

+ = + + +

= + + +

+ = + + + ⋅⋅⋅

+ + ⋅⋅⋅ + +

nnn

nnn

nn

nn

n qCqpCqpCpCqp ++++=+ −−− 1111110 ...)(0)( qp + 1

1 1 1 2 1

1 3 3 1 1 4 6 4 1

1 5 1 0 10 5 1 1 6 15 20 15 6 1

1)( qp +2)( qp +3)( qp +4)( qp +5)( qp +6)( qp +

杨辉三角形

(1)右边的多项式叫做 的二项展开式,它一共有n+1项。

(2) (r=0,1,2,…,n)叫做二项式系数。 (3)p按降幂排列,指数从n逐渐减1直到0;q按

升幂排列,指数从0逐渐增1直到n。 (4) (5)当项数为奇数时(二项式的指数n为偶数)

,中间一项的系数最大;当项数为偶数时(二项式的指数n为奇数),中间两项的系数相等且最大。

rnC

;m n mn nC C −= ∴ 由两端起等距项的系数相等。

( )np q+

二项试验又称为贝努里试验,它必须满足以下几个条件: 任何一次试验恰好有两个结果,成功与失败。

A 与A 共有n次试验,并且n是预先给定的任一正数。 每次试验各自独立,各次试验之间无相互影

响。 某种结果出现的概率在任何一次试验中都是

固定的。

是否为二项试验? (1)投掷硬币试验 (2)一个口袋装有6只球,其中4只白球、2只

红球,从袋中取球两次。 (a)放回抽样,第一次取一只球,观察其

颜色后放回,搅匀后再取一球。 (b)不放回抽样,第一次取一球不放回袋

中,第二次从剩余的球中再取一球。

重复进行n次二项试验,“成功”的次数可以从0到n不等。不同的“成功”次数所对应的概率也可能是不一样的。我们把重复进行n次二项试验后不同“成功”次数的概率分布,称为二项分布。

具体定义如下:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q,(q=1-p),则对于某事件出现X次(0,1,2,…,n)的概率分布为:

也即次数X服从二项分布,记作:X~b(x,n,p)

( ) ( , , ) x x n xnP X x b x n p C p q −= = =

可以说二项分布是用n次方的二项展开式来

表达在n次二项试验中成功次数(x=0,1,…,n)的概率分布。二项展开式的通式就是二项分布函数,运用这一函数就可以直接求出成功事件恰好出现x次的概率。

某学院男女生人数比例为 3:7,随机从该学院学生中有放回的抽取 10 人。请问:抽取的 10 人中,男生可能的人数是多少,这些人数出现的概率各是多少?

首先,这是一个“二项独立试验问题”:

(1)每次抽取只有两种可能的结果,即男生和女生(非男生);

(2)男生和女生的抽中概率确定,分别为 0.3 和(1-0.3)= 0.7;

(3)抽取次数确定 n=10;

(4)每次抽取都是独立的,与其它次抽取无关。

某学院男女生人数比例为 3:7,随机从该学院学生中抽取 10 人。请问:抽取的 10 人中,男生可能的人数是多少,这些人数出现的概率各是多少?

根据二项分布规律,我们知道:

第一,10 次抽取出来的男生人数可能为:0 1 2 3 4 5 6 7 8 9 10;

第二,可以计算样本中每一种可能的男生人数的概率:

样本中男生为 5 人的概率: P(X=5)= C10

5×0.35×(1-0.3)10-5=10.29% 样本中男生为 3 人的概率: P(X=3)= C10

3×0.33×(1-0.3)10-3=26.68% 样本中男生为 10 人的概率: P(X=10)= C10

10×0.310×(1-0.3)10-10=0.00059%

例 10个硬币投掷一次,或1个硬币投掷10次,问5次正面向上的概率是多少?

5105510 )5.0()5.0()5.0,10,5( −⋅= Cb

解:根据题意,n=10,p=q=0.5,X=5

5105 )5.0()5.0()!510(!5

!10 −⋅−

=

24609.0=

xxxCxb −= 400400 )98.0()02.0()02.0,400,(

•某人进行射击练习,如果每次射击击中的命中率为0.02,独立射击400次,试求至少击中两次的概率。

解:击中的次数为x,其对应概率为:

)1()0(1 =−=−= xPxPP399400 )98.0)(02.0(400)98.0(1 −−=

9972.0=

一个口袋装有6只球,其中4只白球、2只红球,从袋中取球两次。

放回抽样,第一次取一只球,观察其颜色后放回,搅匀后再取一球。

求取到一只白球与一只红球的概率。

94

31

322)

62()

64()

64,2,1( 111

2 =××== Cb

解:实验次数n=2,取到白球的次数x=1,白球的概率p=4/6,红球的概率q=2/6.

0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

• (一) 二项分布是离散型分布,概率直方图是阶跃式。因为X为不连续变量,用概率条图表示更为合适。

1个硬币投掷5次,正面向上0,1,2,3,4,5次的概率分别为:

03125.0)5.0()5.0()5.0,5,0( 05025 == −Cb

15625.0)5.0()5.0()5.0,5,1( 15115 == −Cb

3125.0)5.0()5.0()5.0,5,2( 25225 == −Cb

3125.0)5.0()5.0()5.0,5,3( 35335 == −Cb

15625.0)5.0()5.0()5.0,5,4( 45445 == −Cb

03125.0)5.0()5.0()5.0,5,5( 45555 == −Cb

0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

-5 0 5 10 15 20 250

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

5次 10次 20次

-5 0 5 10 15 20 25 30 35 40 450

0.02

0.04

0.06

0.08

0.1

0.12

0.14

40次 -10 0 10 20 30 40 50 60 70 80 900

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

-20 0 20 40 60 80 100 120 140 160 1800

0.01

0.02

0.03

0.04

0.05

0.06

0.07

80次 160次

当p=q时,图形是对称的。 当n趋近于无穷大时,二项分布趋近于正态分布。

p=q=0.5

0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

p=0.8,q=0.2 (p+q)n

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

-5 0 5 10 15 20 250

0.05

0.1

0.15

0.2

0.25

-5 0 5 10 15 20 25 30 35 40 450

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

-10 0 10 20 30 40 50 60 70 80 900

0.02

0.04

0.06

0.08

0.1

0.12

当p>q时,二项分布成正偏态,p<q,二项分布为负偏态。 当n很大,偏态逐渐降低,最终趋近于正态。 当p<q时,且np≥5;或者当p>q时,且nq≥5.这时二项分布为正态分布的近似形。

5次 10次 20次

40次 80次 -20 0 20 40 60 80 100 120 140 160 1800

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

160次

0 1 2 … n (q)x n n-1 n-2 … 0 (p)x

(一)二项分布是离散型分布,概率直方图是跃阶式。因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象。

1、当p=q=0.5时,二项分布图形左右对称。

2、当p≠q时,直方图呈偏态,p<q与p>q的偏斜方向相反。P值偏离0.5越远,图形偏斜程度越大。p>q时,正偏态;p<q时,负偏态。

3、如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。当p<q且np≥5或p>q且nq ≥ 5,这时,二项分布就可以当作一个正态分布的近似图形,二项分布的概率可用正态分布的概率作为近似值。

如果二项分布满足当p<q且np≥5或p>q且nq≥5时,二项分布接近正态分布。这时,二项分布的X变量(即成功的次数)具有如下性质: ,即X变量为的正态分布。

其中n为独立试验的次数,p为成功事件的概率,q=1-p。它们的含义是指在二项试验中,成功次数的平均数 ,成功次数的离散程度

npqnp == σµ ,

np=µnpq=σ

-20 0 20 40 60 80 100 120 140 160 1800

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

• 求p=0.2,q=0.8,n=160次的二项分布的平均值和标准差。

322.0160 =×== npµ

06.58.02.0160

=××=

= npqσ

解:np=0.2×160=32>5,该二项分布接近正态分布。

二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。

所谓机遇问题,是指在实验或调查中,实验结果可能是由于猜测而造成的。

如果猜对的概率非常大,达到95%或99%,我们就认为他不是猜测的,可能真会。

在教育中主要用来判断试验结果的机遇性与真实性的界限。

原理:”小概率事件在一次试验中几乎不可能发生”。 “小概率事件”:概率不超过0.05的事件当做“小概

率事件”。

• 例如,一个学生凭猜测做10个是非题,平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢?

做对题数 概率 累加概率

0 0.000977 0.000977

1 0.009766 0.010742

2 0.043945 0.054688

3 0.11719 0.17188

4 0.20508 0.37695

5 0.24609 0.62305

6 0.20508 0.82813

7 0.11719 0.94531

8 0.043945 0.98926

9 0.009766 0.99902

10 0.000977 1

做对8道题的累加概率达到0.989,8道题以上即可认为是真会做。

•例如,一个学生凭猜测做10个四选一的选择题,什么情况下可以说他是真会而不是猜测呢?

做对题数 概率 累加概率

0 0.056314 0.056314 1 0.18771 0.24403 2 0.28157 0.52559 3 0.25028 0.77588 4 0.146 0.92187 5 0.058399 0.98027 6 0.016222 0.99649 7 0.00309 0.99958 8 0.000386 0.99997 9 2.86E-05 1 10 9.54E-07 1

做对5道题以上即可认为是真会做。

例6-6:某测验中有10道正误选择题,试分

析学生的掌握情况或猜测的可能性。

① 条件分析

21,10: === qpn已知

5,: == npqp满足

52110 =×== npµ 58.1

21

2110 =××== npqσ

根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为μ+1.645σ=5+1.645×1.58=7.6≈8。它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8,9,10道题的概率只有5%。

因此可以推论说,答对8题以上者不是凭猜测,表明答题者真的会答。但做此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8道题,9道题或10道题。

③计算概率并解释

某测验有30个正误题,试问学生要做对多少题,

才属掌握了所学的内容。

152130,

21

=×=== npqp

74.221

2130,15 =××==∴ σµ

2074.2645.115 ≈×+=k

•设有两套题目,第一套是10个正误判断题,第二

套为10个选择题(每题4个备选答案中只有一个正

确),试比较两套试题的优劣(假设学生答对了8题)。

55.24110

43

41

=×=

==

np

qp

1)条件分析

2)正误题的概率

( ) 00039.01048576

40543

41

!810!8!10 28

8 ==

×

×

−=P

4)解释

( ) 044.01024

4521

21

!810!8!10 28

8 ==

×

×

−=P

3)选择题的概率

统计游戏

• 小时候经常看到有这样的游戏,在一块倾斜的板上有n排钉子,在钉子的下方有n+1个格子,对应的奖励。自侧方弹出一个玻璃球,任其自由下落,在下落的过程中让小球碰到钉子时,会改变下落方向。每碰装一次时,玻璃球向两边下落的可能性相等。一块钱可以玩5次,中间对应的奖励很小,两侧对应的奖励可能有5元、10元。

Galton钉板概率模型

请问每个格子内的概率是多少?

0.5 0.5 1

0.25 0.5 0.25

1 0.5 0.5

0.25 0.5 0.25 0.125 0.375 0.375 0.125

0.0625 0.25 0.375 0.25 0.0625 ……

xnxxn qpCpnxb −=),,(

xnxxnCnxb −= )5.0()5.0()5.0,,(

样本分布指样本统计量的分布,在科学研究中,一般是通过一个样本进行分析,只有知道了样本统计量的分布规律,才能依据样本对总体进行推论。

在谈及样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布。

样本的取样方法应该用随机抽样的方法。

研究总体与从中抽取的样本之间关系的研究

可从两方面着手:

(1)抽样分布:从总体到样本 ,这就是研究

抽样分布(sampling distribution)的问题,统计量

的概率分布称为抽样分布;

(2)统计推断: 从样本到总体,这就是统

计推断(statistical inference)问题。

统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。

我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量, 也有其概率分布。我们把统计量的概率分布称为抽样分布。

由总体随机抽样(random sampling)的方法可分为有重复抽样和不重复抽样两种。

重复抽样:指每次抽出一个个体后,这个个体应返回原总体;

不重复抽样:指每次抽出的个体不返回原总体。

对于无限总体,返回与否都可保证各个体被抽到的机会相等。

对于有限总体,就应该采取重复抽样,否则各个体被抽到的机会就不相等。

导言

一、抽样的目的 运用样本推断总体

试验测定所得 样本数据; 试验目的 获得总体信息

因此要研究 ①样本与总体关系

②如何通过对样本数据的分析获得总体信息

总体 μ ……

1x2x3x

kx

导言

总体 μ ……

1x2x3x

kx

二、样本平均数及其分布:

iX

iX

许多 Si 形成样本标准差抽样分布。

许多 形成样本平均数抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。

和一个标准差Si 。 每一个样本有一个样本平均数

样本平均数

抽样分布 iX

样本平均数分布

151 164 153 157 161 182 178 175 172 175

151 164 153

164 161 182

157 161 172

……

156

平均值

169

163

原始数据的分布

140 145 150 155 160 165 170 175 180 185 1900

0.01

0.02

0.03

0.04

0.05

0.06

0.07

样本平均数分布图示

140 145 150 155 160 165 170 175 180 185 1900

0.02

0.04

0.06

0.08

0.1

0.12

0.14

n=2 n=3

n=4 n=5 n=6

随机抽样1000次

1. 总体分布为正态,方差已知,样本平均数的分布为正态分布。

µµ =X

nX

σσ =

Xµ 平均数分布的平均数; 平均数分布的标准差,一般称为标准误,可用SE表示。

2. 总体分布为非正态,方差已知,这时当样本足够大时,样本平均数的分布为渐近正态分布。

µµ =X

nX

σσ =

中心极限定理 中心极限定理:设从均值为μ、方差为σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。(棣.莫弗) 它包括以下三方面的内容: • 1、当总体呈正态分布时,从总体中抽取容量为n

的一切可能样本的平均数的分布也呈正态分布;不论总体呈什么分布形态,当样本容量足够大时,样本平均数的分布也渐近正态分布。

• 2、从总体中抽取的全部样本平均数的平均数等于总体平均数。

• 3、从总体中抽取的全部样本平均数的标准差等于总体标准差除以样本容量的算术平方根。

样本平均数分布的样本观测值与总体参数之间的关系

样本平均数的平均数与母总体的平均数相同,

样本平均数的标准误与母总体的标准差成正比,而与样本容量n成反比。

nσσ

nσσ

μμ

X

X

X

=

=

=

22

nX

σσ =

样本标准差和方差分布

151 164 153 157 161 182 178 175 172 175

151 164 153

164 161 182

157 161 172

……

7

11.36

7.77

标准差

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

标准差分布图示

n=2 n=3

n=4 n=5 n=6

随机抽样1000次的标准差

• 自正态分布的总体中抽取容量为n的样本,当样本量足够大时(n>30),样本方差及标准差分布趋近于正态分布。

• 近似的表示如下:

σ=sX

ns 2σσ =

22 σ=sX

例、某品种葡萄总体,果穗长μ=30cm,σ=10.8cm, 随机抽50

个果穗,所得样本平均数与μ相差不超过3cm的概率是多少?

解:已知U=

查附表1得 P (U -0.28σ≤y< U +0.28σ) =0.11026*2=0.22

以上做法对不对?

不对!

分析:已知μ、σ,求 |x-μ|≦3cm的概率,求样本平均数的

信息,算U值须用 标准误 ,上面的解答错用σ

=x -μ

σ

±3= 0.28

10.8

正确做法:

从样本均数分布规律入手→ 样本均数分布 解: U= 查附表1得 P (U -1.96σ≤y< U +1.96σ) =1-0.05=0.95

xμ =μ, x

σσ =

n

xσ = 53.150

8.10=

x

x

x -μ 3= =1.961.53σ

若题目改为某葡萄品种总体,果穗长μ=30cm,

σ=10.8cm,假定其服从正态分布,若从其中抽取50个穗,

问50 穗中,长度与μ相差不超过3cm的果穗共有多少穗?

解:U=

P=0.22=22%

50×0.22=11(穂)

x -μ= 0.28

σ

例、某枇杷单果重μ=30g, σ=9.6g, 今从中抽取50个

分析:已知总体分布μ=30,σ=9.6, 问

解:

的概率是多少?

≤x 29g的概率P?

样本中

果,其平均单果重 ≤x 29g

查附表1得|U|对应的P值0.268,所以平均单果重小于等于

29g的概率为0.5-0.268= 0.232。

1.3576===−

506.9

nX

σσ

-0.7366==−

=−

=−

3435.13029

X

XUσ

µ

若将是题目改成:某枇杷品种平均单果重μ=30g,σ=9.6g,

假定其服从正态分布,问单果重小于29g的概率是多少?

解:U=

P(29<X<30)=0.0418

∴P(X≤29)=0.5-0.0418=0.4582

x -μ 29 - 30 1= = = 0.104

σ 9.6 9.6

• 总体平均数已知,总体标准差未知时,样本平均数的分布?

• 以样本标准差S代替σ所得到的统计量 记为t

• 由于采用S来代替σ,使得t 变量不再服从标准正态分布,而是服从t 分布

1−−

=ns

Xt µ

1−−

=ns

Xt µ

nXX

s)(∑ −

=

t值的计算公式:

为n个抽样样本的标准差

df=n-1为自由度,或用 表示

——样本容量;

ν

nµ ——总体均值;

• 统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的自变量的个数,称为该统计量的自由度。 统计学上的自由度包括两方面的内容:

• 首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。

• 在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。

• 例如,有一个有4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后, 第四个数据只能是9,否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之,任何统计量的自由度υ=n-k(k为限制条件的个数)。

自由度

151 164 153 157 161 182 178 175 172 175

151 164 153

164 161 182

157 161 172

……

00.71 =s

3=n

8.166=µ

假设总体均值已知

1563

1531641511 =

++=X

18.213/78.166156

1/1

11 −=

−−

=−

−=

nsXt µ

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

(一)t分布的特点

n=2 df=1

n=5 df=4

n=10 df=9

n=1000 df=999

n能否等于1? 图6-10

t分布的特点

• 1. 平均值为0; • 2. 以平均值0左右对称; • 3. 变量取值在-∞~+∞; • 4.当样本量趋于∞时,t分布为正态分布,

方差为1; • 5. 当n-1>30时,t分布接近正态分布,方差

大于1,随着n-1的增大而方差趋于1.

(二)t分布表的使用

t值

p

845.22/01.0 =t

845.2005.0 =t

αttPαttP α(n)(n)α 2}{}{2

=>=> 或

习题21

(三)样本平均数的分布

• 1. 总体分布为正态,方差未知时,样本平均数的分布为t分布。

ns

nss n

X1

1−=

−=

nx

nXX

s ∑∑ =−

=22)(

11)( 22

1 −−

−= ∑∑

− nx

nXX

sn

其中:

平均数分布的标准差为:

• 2. 当总体为非正态分布,其方差由未知时,若满足n>30这一条件,样本平均数的分布近似为t分布。

ns

nss n

X1

1−=

−=

复习 1. 总体分布为正态,方差已知,样本平均数的分布为正态分布。

2. 总体分布为正态,方差未知时,样本平均数的分布为t分布。

X

iXZσ

µ−=

ns

X

ns

Xtn

ii

1

1−

−=

−=

µµ

nX

σσ =

µµ =X

ns

nss n

X1

1−=

−=

nXX

s ∑ −=

2)(1

)( 2

1 −−

= ∑− n

XXsn

总结

• (1)总体分布为正态,总体方差σ2已知,样本平均数的分布为正态分布。

• (2)总体分布非正态,但总体方差σ2已知,这时当样本足够大时(n>30),其样本平均数的分布为正态分布。

• (3)总体分布为正态,总体方差σ2未知,样本平均数的分布为t分布。

• (4)总体分布非正态,总体方差σ2未知,若满足n>30,其样本平均数的分布为t分布。

nσ/μXz −

=

n/sμXt

n 1−

−=

卡方分布 χ2分布是统计分析中应用较多的一种抽样分布。 从一个服从正态分布的总体中,每次随机抽取随机变量:

nXXX 11211 ,,,

nXXX 22221 ,,,

nXXX 33231 ,,,

22211211

,,,n

XXX ∑ 21i

X22222221

,,,n

XXX

22233231

,,,n

XXX

∑ 22 i

X

∑ 23i

X

nXXX 11211 ,,,

nXXX 22221 ,,,

nXXX 33231 ,,,

σµ−

=XZ

nZZZ 11211 ,,,

nZZZ 22221 ,,,

nZZZ 33231 ,,,

22211211

,,,n

ZZZ

22222221

,,,n

ZZZ

22233231

,,,n

ZZZ

∑ 21i

Z

∑ 22 i

Z

∑ 23i

Z

由 得 :

(一)卡方分布的计算:

2

222 )(

σµ

χ ∑∑−

==X

Zi

总体为正态分布,已知总体平均数。

总体为正态分布,总体平均数未知,可用样本平均数代替。

方差S2分布实质是卡方分布

df=n

2

2

2

22 )(

σσχ nsXX

=−

= ∑ df=n-1

(二)卡方分布的特点

0 5 10 15 20 25 30 35 400

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

df=4

df=10

df=20

• 1. χ2分布是一个正偏态分布,df越小,越偏斜,df→ ∞时,卡方分布趋近于正态分布。

• 2. χ2值都是正值。 • 3. χ2分布的和也是χ2分布,其自由度为各个

卡方分布自由度之和。

• 4. 如果df>2,这时卡方分布

• 5. χ2分布为连续型分布,但有些离散型分布也近似χ2分布。

df=2χµ平均数:

df222 =χ

σ方差:

(三)x2分布表

df x2大于表内所列x2值的概率

0.995 …… 0.5 0.25 0.1 0.05 0.025 0.01 0.005

1 0.00004 …… 0.455 1.32 2.71 3.84 5.02 6.63 7.88

2 0.01 …… 1.39 2.77 4.61 5.99 7.38 9.21 10.6 ……

60 35.5 …… 59.3 67 74.4 79.1 83.3 88.4 92

3.832025.0 =χ

P

F分布

11,σµ

设有两个正态分布的总体,其平均值与方差分别为:

22 ,σµ

121 ,,, nXXX

21χ

221 ,,, nXXX

22χ

222

121

dfdfF

χχ

=

总体1: 总体2:

11 ndf = 22 ndf =

2

21

2

22 )1()(

σσχ −−

=−

= ∑ nsnXX当µ1, µ2未知时,由于:

22

21

21

21

222

212

121

211

2

1

2

1

)1()1()1()1(

σσ

σσ

− =−−

−−=

n

n

n

n

ss

nsnnsn

F

当从同一个总体中进行抽样时, 22

21 σσ =

21

21

2

1

−=n

n

ss

F

11 −n

12 −n

分子的自由度为

分母的自由度为

(一)F分布的特点

0 1 2 3 4 5 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

df1=5,df2=5

df1=5,df2=10

df1=5,df2=20

df1=5,df2=1000

df1=5,df2=5

df1=10,df2=5

df1=20,df2=5

• 1.F分布形态是一个正偏态分布,它的分布曲线随分子、分母的自由度不同而不同。

• 2. F总为正值。 • 3. 当分子的自由度为1,分母的自由度为任

意值时,F值与分母自由度相同概率的t值(双侧概率)的平方相等。

分子自由度为1时,分母自由度为20时: 10.8,35.4 )20,1(01.0)20,1(05.0 == FF

自由度为20时: 35.4,086.2 205.005.0 == tt

10.8,845.2 201.001.0 == tt

(二)F分布表

F值

附表4 单侧检验

P 28.4)6,6(05.0 =F26.8)6,7(01.0 =F

• 附表3双侧检验:

2/αF2/1 α−F

α−1 α/2 α/2

2/)2/1(

1

αα F

F =−

• F 值是基于两个总体中分别抽取的样本基础上,其目的是通过检验两个样本是否存在差异,从而推断两个总体之间是否存在差异,换句话说,即两个样本是否来自同一总体的问题。

• 因此,在进行假设检验时,我们往往先假定两个样本是来自同一总体,利用反证法的思想进行检验。

1.简单随机抽样方法抽取样本,如果要使得抽样标准误降低50%,则样本容量需扩大的倍数为() A.2 B. 4 C. 5 D. 8 2.关于t分布与标准正态分布两者之间的关系,正确的表述是() A. T分布的均值大于标准正态分布的均值。 B. 标准正态分布的标准差大于t分布的标准差。 C.两者的标准差、均值都相同。 D.随着自由度增大,t分布接近于标准正态分布。

1.B 2.D

3.A 4 B 5c 6 B 7 A B

一个骰子掷一次,六点向上的概率是( ) A.1/4 B. 1/2 C.1/6 D. 1/3 设A,B为两个独立事件,则P(A*B)为( ) A. P(A) B. P(B) C. P(A)*P(B) D. P(A)+P(B) 关于标准正态分布曲线,下列表述不正确的是( ) A. 与X轴所围成区域的面积为1 B. 平均数为1,标准差为0 C. 在Z=0点达到最大值 D. Z=±1两点为拐点 统计学中最常见,应用最广的一种分布是( ) A. 概率分布 B. t分布 C. 正态分布 D. F分布

在一次试验中,若事件B的发生不受事件A发生的影响,则称A、B两事件为( ) A.不影响事件 B.相容事件 C.不相容事件 D.独立事件 从一副洗好的牌(52张)中抽一张牌,是梅花的概率为( ) A. 1/52 B. 1/4 C. 1/10 D. 1/13 从一个平均数为25,标准差为14的正态总体中随机抽取一个n=17的样本,样本平均数抽样分布的标准差是( ) A. 25 B. 10 C. 3.5 D. 2.8 两个骰子掷一次,点数相同的概率是( ) A. 1/4 B. 1/2 C. 1/6 D. 1/36 在正态总体中随机抽取样本,若总体方差σ2已知,则样本平均数的分布为( ) A. t分布 B. F分布 C. 正态分布 D. χ2分布

关于t分布,下列表述不正确的是( ) A.是随着n的大小而变化的一簇曲线 B.是对称的分布 C.自由度越大,t分布与标准正态分布差别越小 D.在自由度较小时,t分布是偏态分布 一份试卷有100道五选一的单项选择题,若考生凭猜测作答,问平均能猜对多少道 ( ) A.20 B.75 C.50 D.25

• 一个单项选择有48道题,每题有四个被选项,用a=0.05单侧检验标准,至少应对多少题 成绩显 著优于单凭猜测 a、16题 b、17题 c、18题 d、19题

• 解决“通过实际调查与观测所得的一批数据,其次数分布是否服从理论上所假定的某一概率分布”的问题,一般采用( ) A.Z检验 B.t检验 C.χ2检验 D.F检验

• 分布曲线和样本容量无关的分布是( )

• A.正态分布 B.F分布 • C.t分布 D.χ2分布

1.下面描述的现象是随机现象的是()。 A.股市在休息日的变化情况 B.花粉随溪水流动时,沿溪水流动方向的轨迹 C.小明某次语文期中考试的成绩 D.导体通电时发热 【答案】C 【解析】随机现象是指在一定条件下,事先不能断言会出现哪种结果的现象。小明的某次语文考试成绩不能断言会出现什么结果,因此为随机现象。 2.某学校对其200名高三应届生做摸底测试,根据成绩推算这200名学生能上重点线的概率为0.8,能上清华大学分数线的概率为0.03,从该学生团体随机抽取一名学生,该生能上重点并考上清华大学的概率是多少?() A.0.8×O.03 B.O.O3 C.(1/200)×0.03 D.(1/200)×0.8×0.03 【答案】B 【解析】当且仅当B A时,P(AB)=P(A)。题中上重点线上清华大学分数线,所以P(上重点线的概率上清华大学分数线的概率)=P(上清华大学分数线的概率)=0.03。

3.某生下定决心考公务员,打算拼搏3次。3次都不行则不再言考,问该考生如愿的机会有多大? (假定公务员录取率在未来10年内都稳定在1:50)() 【答案】D 【解析】由题可知,公务员录取率在未来10年内都稳定在1:50,因此第一次考上的概率为1/50,第一次未考上第二次考上的概率为49/50×1/50,前两次未考上第三次考上的概率为49/50×49/50×1/50,该生考试3次,这3次是相互独立的,用加法定率,所以答案为1/50+49/50×1/50+49/50×49/50×1/50。 4.在某随机样本中有10名被试,现需从中选择一人做实验A,若每人被选机会均等,选择被试l或被试2的概率是多少?() A.1/10+1/10 B.(1/10)×(9/10)+(9/10)×(1/10) C.1/10+1/10一(1/10)×(1/10) D.1/10+1/10一(9/10)X(9/10) 【答案】A 【解析】因为每人被选机会均等,从10人中选一个,所以被选中概率为1/10,又因为选择被试l或被试2为两个相互独立的事件,因此用加法定理,答案为1/10+1/10。

8.正态分布X~N(μ,σ2)中,下面说法错误的是()。 A.均值μ决定曲线的形状 B.标准差σ决定曲线的形状 C.偏度决定曲线的偏离对称程度 D.峰度决定曲线的陡峭程度 【答案】A 【解析】正态分布x~N(μ,σ2)是由均值μ和标准差σ唯一决定的分布。均值μ决定曲线的位置;标准差σ决定曲线的形状.σ愈大,曲线愈“矮胖”,σ愈小,曲线愈“高瘦”。 9.下面有关正态曲线的描述,错误的是()。 A.正态曲线位于x轴上方 B.曲线最终与x轴相交 C.整条曲线呈现“中间高,两边低”的形状 D.正态曲线与x轴所围成的区域的面积为1 【答案】B 【解析】正态曲线位于x轴的上方,以直线x=μ为对称轴,μ为正态分布的均值,它向左向右对称地无限伸延,且以x轴为渐近线。

10.设随机变量X~N(0,1),y=2X+1,则Y服从()。 A.N(1,4) B.N(0,1) C.N(1,1) D.N(1,2) 11.根据正态分布的性质,我们可以得到其实际应用:()。 A.计算标准分数 B.确定录取分数线 C.确定某一分数界限内的考生人数 D.由Z分数或P值的中任一值,求得另一值