46
3 3 第第第第第 第第第第第 第第第 第第第 2010 2010 第第 第第

第 3 章 統計的推定

  • Upload
    palila

  • View
    52

  • Download
    0

Embed Size (px)

DESCRIPTION

第 3 章 統計的推定. 統計学  2010 年度. Ⅰ  標本分布 a)  母集団と標本 1)  標本調査の利点 2)  標本調査における誤差 b)  標本平均の標本分布 c)  標本分散の標本分布 Ⅱ  点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ  区間推定 a)  母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b)  母比率の区間推定 標本比率の標本分布 母比率の区間推定 c)  標本数の決定 母平均の区間推定における標本数の決定 - PowerPoint PPT Presentation

Citation preview

Page 1: 第 3 章  統計的推定

第第 33 章章 統計的推定 統計的推定

統計学 統計学  20102010 年度年度

Page 2: 第 3 章  統計的推定

Ⅰ 標本分布a)  母集団と標本

1)  標本調査の利点2)  標本調査における誤差

b)  標本平均の標本分布c)  標本分散の標本分布

Ⅱ 点推定a) 点推定b) 統計量の特性

1) 不偏性2) その他の統計量特性

Ⅲ 区間推定a)  母平均の区間推定

1) 中心極限定理2) 信頼区間3) 母分散が既知の場合の区間推定4) 母分散が未知の場合の区間推定

b)  母比率の区間推定1) 標本比率の標本分布2) 母比率の区間推定

c)  標本数の決定1) 母平均の区間推定における標本数の決定2) 母比率の区間推定における標本数の決定

Page 3: 第 3 章  統計的推定

ⅠⅠ 標本分布 標本分布

• ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。

a)  母集団と標本

×

××

×

×

××

×

××

母集団(個体数N )

標本(個体数n )

Page 4: 第 3 章  統計的推定

• 標本調査の例として次のようなものが挙げられる。

労働力調査(完全失業率はこの調査の結果求められる)

 ⇒ 全国の 15 歳以上 ( 約 1 億 1 千万人 ) の母集団から、約 10 万人を標本として選ぶ調査

内閣支持率調査などの世論調査 ⇒ 全国の有権者 (20 歳以上の日本国民 )( 約 1 億

人 ) の母集団から、約 1000 人 ( 新聞社のおこなう内閣支持率調査の場合 )

  その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。

Page 5: 第 3 章  統計的推定

1) 標本調査の利点

  標本調査をおこなうメリットとして、次のようなことが挙げられる。

• 費用・時間の削減→  調査票を配布回収する調査では、調査票の印刷費、集計

にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。

• 得られる情報の増加、精度の向上→  調査には調査員が使われることが多いが、ベテランの調

査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。

• 全数調査が不可能な場合にも調査可能→  ガラスの耐久性についての品質管理を調査するなどの場

合、全数調査をおこなうことは不可能である。

Page 6: 第 3 章  統計的推定

2) 標本調査における誤差

  標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の 2 つの種類のものが組み合わさったものである。

1. 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる    統計理論によりコントロール不可能2. 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの    統計理論によりコントロール可能

• 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題

Page 7: 第 3 章  統計的推定

      ×

   ×       ×

      ×     ×

   ×     ×

      ×

   ×

  ×    

母集団(有権者 1 億人)

標本 1 (朝日 1054人)  71%

   ×

  ×    

  ×

   ×       ×

  ×      ×

   ×    

標本 2 (読売 1087人)  75%

標本 3 (毎日 1014人)  77%

標本 4 (日経 857人)  75%

標本 5 (共同 1032人)  72%

2009 年 9 月 18 日付の朝刊各紙に掲載された鳩山内閣支持率を見ると、異なった結果になっている。

同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。

これが、標本の偏りである。

<鳩山内閣発足直後の支持率の例>

Page 8: 第 3 章  統計的推定

b) 標本平均の標本分布

• 標本調査をおこなう場合、通常は 1 つの標本についての特性値(標本平均や標本平均など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。

• しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。

×  ×  

母集団(大きさ N) 標本(大きさ n) 

 

標本平均  x  

 

 

標本平均  x  

 

 

標本平均  x  

 

母平均 μ  

× ×  

×  

× ×  

× ×  

× × ×  

×   ×  

×      ×  

Page 9: 第 3 章  統計的推定

• 500 人受講している科目の採点に、 25 人だけ採点して全体の平均点を推定しようとするとき、 25 人の組み合わせ全て(その数は 1.04×1042通りという天文学的数字になる!)から標本平均が計算でき、その分布を考えることができる。

• 一般に N 個の母集団から n 個の標本を選ぶ組み合わせの数は NCn とあらわすことができる。

個ずつ分母も分子もn1)1(

)1()1(

1)1()(1)1(

1)1()()1()1(

1)1()(1)1(

1)1(

)!(!

!

nn

nNNN

nNnNnn

nNnNnNNN

nNnNnn

NN

nNn

NCnN

Page 10: 第 3 章  統計的推定

<簡単な例>中国地方 5県の乗用車保有台数( 2010 年 4 月末現在、軽自動車除く)は次のようになっている。

これを 10 万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと

となる。母平均、母分散は

T S O H Y2 2 7 9 5

6.75

0164995

)55()59()57()52()52(

55

59722

222222

鳥取 島根 岡山 広島 山口184958 216744 651448 863016 474582

(単位 : 台 )

出典: 中国運輸局『管内保有車両数』

Page 11: 第 3 章  統計的推定

• この 5県を母集団とし、その中から 2県を選んで標本とすると、選び方は 5C2= 10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。

T,S 2,2 2T,O 2,7 4.5T,H 2,9 5.5T,Y 2,5 3.5S,O 2,7 4.5S,H 2,9 5.5S,Y 2,5 3.5O,H 7,9 8O,Y 7,5 6H,Y 9,5 7

パターン x標本平均の標本分布

0

0.5

1

1.5

2

2.5

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8

標本平均

度数

Page 12: 第 3 章  統計的推定

• 次に標本平均の平均と分散について考えよう。

  標本平均の度数分布表から、次のように計算できる。

  ※ 度数分布表からの平均の計算は、(度数 ×階級値)の総和を度数の合計で割れば良い

fi( )度数2 1 2 4

3.5 2 7 24.54.5 2 9 40.55.5 2 11 60.56 1 6 367 1 7 498 1 8 64

計 50 278.5

xii xf

2ii xf

85.2510

5.278))(()(

510

50)(

222

xEf

xfxV

f

xfxE

i

ii

i

ii

10

Page 13: 第 3 章  統計的推定

  なお、この分散の式は計算式であり、次のようにして求めたものである。

22

22

22

2

))((

))(()(2

))(()(2

))(()(

xEf

xf

f

xEnxnExf

f

xEnxfxExf

f

xExfxV

i

ii

i

ii

i

iiii

i

ii

※ 分散については、{度数 × (階級値-平均) 2}の総和を度数の合計で割ったものとなる

Page 14: 第 3 章  統計的推定

• 標本平均の平均、分散と、母平均、母分散の関係として

  が成り立つ。分散に関しては

 である。この例では、

  ※全国規模の統計調査などを考えた場合、母集団の大きさ N は非常に大きいので、   は 1 に近くなり、     とみなせる。

  視聴率調査の場合、関東地区 1580 万世帯から 600 世帯を選ぶので

nN

nNxV

2

1)(

2)(

)(

xV

xE

85.22

6.7

4

3

2

6.7

15

25)(

xV

1

N

nN

nxV

2

)(

1999962.0115800000

60015800000

1≒

N

nN

Page 15: 第 3 章  統計的推定

• 次に 10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。

c)  標本分散の標本分布

s2

T,S 2,2 0T,O 2,7 6.25T,H 2,9 12.25T,Y 2,5 2.25S,O 2,7 6.25S,H 2,9 12.25S,Y 2,5 2.25O,H 7,9 1O,Y 7,5 1H,Y 9,5 4

パターン 標本分散の標本分布

0

0.5

1

1.5

2

2.5

0

0.75 1.5

2.25 3

3.75 4.5

5.25 6

6.75 7.5

8.25 9

9.75

10.5

11.3 12

Page 16: 第 3 章  統計的推定

• 標本分散の平均について考えると、  標本平均の度数分布表から、次のように計算できる。

  となる。標本分散の平均と母分散の関係は次のようになっている。

75.410

5.47)(

22

i

ii

f

sfsE

s2 fi fis2

0 1 01 2 2

2.25 2 4.54 1 4

6.25 2 12.512.25 2 24.5

計 47.5

22 1

1)E(

n

n

N

Ns

Page 17: 第 3 章  統計的推定

a) 点推定 母集団(個体数  N)

標本(個体数  n)

× ×

×

× ×

× ×

× × ×

× ×

母数 θ 標本統計量t

推論

母平均 μ母分散 σ2

標本平均 x標本分散s2

標本から計算された 1つの数値によって、母集団の数値を推定することを点推定という。たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。

ただし、一般に t≠θ である。

ⅡⅡ 点推定 点推定

Page 18: 第 3 章  統計的推定

• 点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。

• まず、 E(t)=θ となることである。• このような性質を不偏性といい、「 t は θ の不偏推定

量である」という。

(例1) 標本平均  は       となるので、母平均 μ の不偏推定量である。

(例2) 標本メディアン me は、母集団メディアンMe の不偏推定量とはならない。

b)  統計量の特性  1)  不偏性

x )(xE

Page 19: 第 3 章  統計的推定

(例 3 ) 標本分散 s2 は、      となり母分散σ2 の不偏推定量とはならない。

 しかし、           であった。母集団の

個体数が十分大きいとき、      とみなせるの

で、

 と変形できる。

• 一般に E(t)=θ+ 偏りと表すことができ、「偏り =0」となる推定量のことを不偏推定量という。

22 )E( s

22 1

1)E(

n

n

N

Ns

11

NN

nnn

ns

22222 1

11

)E(

偏り

Page 20: 第 3 章  統計的推定

ところで、母分散の不偏推定量は存在しないのであろうか?

        の両辺に   をかけると

 となって、不偏推定量となる。 標本分散 s2 は

 であったので、これに   をかけると、

 となる。これを標本不偏分散という。

22 1)E(

n

ns

1nn

22 )1

E( s

n

n

n

xx

n

xxxxxxs

n

ii

n

1

222

22

12

)()()()(

1nn

1

)(

1

)()()(ˆ 1

222

22

12

n

xx

n

xxxxxxs

n

ii

n

※ 統計学の書籍によっては、最初の分散の定義から、 n-1 で割ったものを用いているものもある。

Page 21: 第 3 章  統計的推定

• 一致性 - 標本数を大きくしたときに、 t が θ に近づく。( 母数 θ から離れた標本統計量 t が出現する可能性は低くなる )

• 効率性 - 不偏推定量が t1, t2 の 2 つあったとする。このとき、分散の小さい推定量の方が母数 θ を推定するのにより効率的 ( 母数 θ の近くの値を取る可能性が高い ) である。

  2)  その他の統計量特性

t1t2

t2 の方が効率的

Page 22: 第 3 章  統計的推定

 ⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。

例: 正規母集団の母平均の推定における標本平均はこれらの基準をすべて満たしている。

 また、推定量の性質としては次のようなものも考えられる。

• 十分性 -  t は標本に含まれるすべての情報を含んでいる。

 ⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操競技の採点などで、最高点と最低点を除いた平均が得点となるが、これは刈り込み平均の 1 種である)などは、標本のすべての情報を含んでいないので、十分性を満たさない。

  ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可能性はある。

Page 23: 第 3 章  統計的推定

• 点推定で母数 θ をピタリと推定することは難しい。そのため、標本統計量t の近くの区間を設定し、その区間内に母数 θ が含まれることを推定する。これを区間推定という。

• たとえば、日本全国全世帯の家計の平均年収を知りたいとき、 1 万世帯を標本として調査し、 500 万円という標本平均を得たとする。この 500 万円±10 万円という区間をとればよいのか、 ±30 万円という区間を取ればよいのかを考えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性に劣る)

Ⅲ Ⅲ  区間推定区間推定

×

××

×

×

××

×

××

母集団(個体数N )

標本(個体数n )

区間推定母平均 μ 標本平均 x

Page 24: 第 3 章  統計的推定

•    の標本分布について、

   

   が成り立っていた。   さらに、母集団の個体数( N )が十分大きいとき、

   が成り立つ

a) 母平均の区間推定1 ) 中心極限定理

x

nN

nNx

x2

1)V(

)E(

nx

2

)V(

• 標本調査をおこなう場合、通常は 1 つの標本についての標本平均がわかるだけであるが、とりうるすべての標本について標本平均を知ることができたなら、その分布を考えることができる。これを標本分布という。

×  ×  

母集団(大きさ N) 標本(大きさ n) 

 

標本平均  x  

 

 

標本平均  x  

 

 

標本平均  x  

 

母平均 μ  

× ×  

×  

× ×  

× ×  

× × ×  

×   ×  

×      ×  

Page 25: 第 3 章  統計的推定

  次に、標本平均   の分布がどのような形になるのか考えてみよう。

  ⅰ) 母集団の分布が正規分布の場合   母集団が平均 μ 、分散 σ2 の正規分布にしたがっているとする。   標本平均  は

   であり、正規分布にしたがう変数の和 ( を n という定数で割ったもの ) となっている。

   したがって、正規分布の再生性†より、  は正規分布にしたがう。

   † 確率変数 X と Y がそれぞれ N(μx,σ2x), N(μy,σ2

y) にしたがうとき、その1次結合 α X+βY は N(αμx+ βμy,α2σ2

x+ β2σ2y )にしたがう。これを正規

分布の再生性という。

x

x

n

x

n

xxxx

n

ii

n

121

x

Page 26: 第 3 章  統計的推定

  ⅱ) 母集団の分布が正規分布ではない場合  母集団の分布が正規分布でない場合でも、標本の個体数 n が大

きいとき、次のような定理によって標本平均  の分布は正規分布となる。

<中心極限定理>  算術平均 μ, 分散 σ2 をもつ母集団からとられた大きさ

n の標本の平均  の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ,   ) に近づく。 

※ 以上ⅰ ), ) ⅱ より、 n が大きい時には母集団の分布にかかわらず、標本平均  の分布は正規分布となり、標準化された変数

の分布は、標準正規分布 N(0, 1) に近づく。

x

n

2

n

xz

x

x

Page 27: 第 3 章  統計的推定

2 ) 信頼区間

  標準正規分布にしたがう変数が、 -1.96 と 1.96 の間の値をとる確

率は 95% である。よって、      は n が大きいときには、

中心極限定理により標準正規分布にしたがうので、

  となる。この式のカッコ内を変形すると

  となり、標本平均  は        の区間内に 95% の確率で含まれる。

n

xz

95.0)96.196.1(P

n

x

nx

n

96.196.1

xn

96.1

Page 28: 第 3 章  統計的推定

                          の分布                   z の分布

また                  のカッコ内は次のようにも変形できる。

x標準化

n

xz

n

96.1n

96.1μ -1.96 1.960

95.0)96.196.1(P

n

x

nx

nx

nx

n

nx

nn

x

96.196.1

96.196.1

96.196.196.196.1

Page 29: 第 3 章  統計的推定

                    と          

         は次のようなことを意味している。n

xn

96.196.1 n

xn

x

96.196.1

n

96.1n

96.1μ

×

nx

96.1

nx

96.1x

××

Page 30: 第 3 章  統計的推定

    を中心に、        という区間を考えると、とりう

る標本のうち 95% がこの区間内に母平均 μ を含む。

• このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。

• この場合、             は μ の信頼係数

95% の信頼区間である。

xn

x

96.1

)96.1,96.1(n

xn

x

Page 31: 第 3 章  統計的推定

3)  母分散が既知の場合の区間推定(例)  20 歳男性の身長を調べるために、 100 人を標本

として選んだところ、標本平均   =170 であった。 σ=8 であるとき、母平均 μ の 95% 信頼区間を求めよ。

(解) μ の 95% 信頼区間は

    となる。

x

)57.171,43.169(

)568.1170,568.1170(

)100

896.1170,

100

896.1170(

)96.1,96.1(

n

xn

x

Page 32: 第 3 章  統計的推定

信頼区間を求める場合、   

       が標準正規分布

にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散 σ2 が分かっているということは、あまり多くない。 (過去の調査において母分散のおおよその値が分かり、それを用いるなどの例外はあるが)

母集団(大きさ N) 標本(大きさ n) 

 

 

 

 

 

 

標本平均  

標本分散 s2 

 

母平均 μ  

母分散 σ 2 

× ×  

×  

× ×  

× ×  

× × ×  

×   ×  

x

4 ) 母分散が未知の場合の区間推定

n

xz

母分散 σ2 がわからないとき、代わりに標本分散 s2 を用いる。

このとき、        が自由度 n-1 のt分布にしたがう。1/

ns

xt

Page 33: 第 3 章  統計的推定

※  t 分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。

t正規分布と分布

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00

normalt1t5t10

※ 標本分散 s2 の代わりに標本不偏分散

    を用いれば、      が自由度 n-1 のt分布にしたがう。

1

)(

1

)()()(ˆ

2222

212

n

xx

n

xxxxxxs in

ns

xt

Page 34: 第 3 章  統計的推定

<自由度について>  自由度とは、自由に値を取ることのできる個体数

のことである。  この場合は、 t 統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。

  なので、 x1, …, xn-1 は自由に値をとることができるが、 xn は

  を満たすように決められ、自由度は n-1 となる。

n

xx

n

xxxxxxs

n

ii

n

1

222

22

12

)()()()(

xn

xi

Page 35: 第 3 章  統計的推定

• 母集団の分散が分からないとき、母平均 μ の 95% 信頼区間は、t分布の 95% 点を t0.95 とあらわすと、

 となる。 t0.95 は t 分布表からその値を求める。

※ より正確には、母集団の分布が正規分布にしたがうとき、        が自由度 n-1 の t 分布にしたがう。

  しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、        は近似的に自由度 n-1 の t 分布にしたがうとみなせる。

  また、 n が十分大きい場合、 t 分布は正規分布に近づくので、

     が正規分布にしたがうと考えることもある。

)1

,1

( 95.095.0

n

stx

n

stx

1/

ns

xt

1/

ns

xt

1/

ns

xt

Page 36: 第 3 章  統計的推定

    の分布                  z の分布

x標準化

n

xz

n

96.1n

96.1μ -1.96 1.960

1

ns

xt

変換

-t0.95

t 0.95

t の分布

(自由度 n-1 の t 分布)

母分散が分からない場合、

       が自由度 n-1の

t 分布にしたがう。

t 統計量の 95% が含まれる区間の境界値である t0.95 の値を、 t 分布表から探し出す。

1

ns

xt

Page 37: 第 3 章  統計的推定

(例)  20 歳女性の身長を調べるために、 10 人を標本として選んだところ、標本平均   =160 であった。 s=9 であるとき、母平均 μ の 95% 信頼区間を求めよ。

(解) 自由度 10-1=9 の t 分布の t0.95=2.262 なので、 μの 95% 信頼区間は

  となる。

x

)79.166,21.153(

)79.6160,79.6160(

)3262.2160,3262.2160(

)110

9262.2160,

110

9262.2160(

)1

,1

( 95.095.0

 

 

n

stx

n

stx

Page 38: 第 3 章  統計的推定

b) 母比率の区間推定   1 ) 標本比率の標本分布

 よって  の標本分布を考えるためには、まず x の標本分布を考えればよい。

 

母集団(大きさ N) 標本(大きさ n) 

 

 

 

 

 

 

標本比率  

 

 

母比率 p 

 

× ×  

×  

× ×  

× ×  

× × ×  

×   ×  

  まず、標本比率  の標本分布を考えよう。

  内閣支持率を例にとると、標本比率  とは、標本 n 人のうちのx 人が「内閣を支持する」と答えた割合であり、    である。

n

xp ˆ

Page 39: 第 3 章  統計的推定

• 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。

  また選ばれた人が 「内閣を支持する」人である確率は、母比率 p に等しい。

  よって、 n 人の標本を選ぶことは、 A か B かという 2 つの結果しか起こらない試行 を n 回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは 2項分布にしたがう。

• 2項分布の期待値は E(x) = np 、分散は V(x) = npq であるので、これを用いて、  の平均、分散を考えてみると、

                       となる。

pn

np

n

xE

n

xEpE

)()()ˆ(

n

pq

n

npq

n

xV

n

xVpV

22

)()()ˆ(

Page 40: 第 3 章  統計的推定

• また、「内閣を支持する」人を 1 、「内閣を支持しな

い」人を 0 と表すことを考える。 n 人の標本の中に

「内閣を支持する」人は x 人含まれるので、このよう

にあらわした場合、     は大きさ n の標本の平均

とみなすことができ、中心極限定理が適用できる。

  よって、  の分布は、平均 p 、分散  の正規分布にしたがう。標準化された変数       は標準正規分布にしたがう。 

n

xp ˆ

n

pqp̂

npq

ppz

ˆ

Page 41: 第 3 章  統計的推定

2 ) 母比率の区間推定

        が標準正規分布にしたがうことから、母比率 p の

   95% 信頼区間は              となる。

(例)  NHK大河ドラマ「龍馬伝」第 20 回( 2010.5.14放送)の視聴率は 20.4%であった。この数値は関東地区の約 1600 万世帯から 600 世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の 95% 信頼区間を求めよう。

(解) p の代わりに   を用いて p の 95% 信頼区間を計算すると

                                   となる。

npq

ppz

ˆ

)96.1ˆ,96.1ˆ(n

pqp

n

pqp

)236.0,172.0(

)032.0204.0,032.0204.0(

)600

796.0204.096.1204.0,

600

796.0204.096.1204.0(

)96.1ˆ,96.1ˆ(

n

pqp

n

pqp

Page 42: 第 3 章  統計的推定

c) 標本数の決定

   NHK大河ドラマ「龍馬伝」第 20 回の視聴率を信頼係数 95% で区間推定すると、 6% 以上の幅ができる。そのため、 1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。

  では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度 ( どの程度のズレまで許容できるか ) を設定し、それに必要な標本数を計算する必要がある。

Page 43: 第 3 章  統計的推定

1)  母平均の推定における標本数の決定

         の許容限度を E とする。     の区間推定を信頼係数 95% でおこなうとき、  の分布

について、

  が成り立つので、

  となればよい。よって

|| x x

96.1||

n

x

En

x 96.1||

nE

nE

En

21.96

1.96

1.96

Page 44: 第 3 章  統計的推定

  となり、

  が必要標本数であることが分かる。  これを求めるために、母標準偏差 σ が必要となるが、標本数を決

定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などから σ2 の推定値を求め、それを利用する。

(例) ある大都市の大学生の 1ヶ月平均生活費を 1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は 8000円であったと見当がつけられているとする。

(解) 信頼係数を 95% とすると、必要標本数は

  となるので、 246 人となる。

21.96

E

n

8624.245)68.15(1000

80001.96 22

n

Page 45: 第 3 章  統計的推定

2)  母比率の推定における標本数の決定

         の許容限度を E とする。   p の区間推定を信頼係数 95% でおこなうとき、  の分布につ

いて、

  が成り立つので、

  となればよい。よって

|ˆ| pp p̂

En

pqpp 96.1|ˆ|

npqE

nE

pq

En

pq

21.96

1.96

1.96

96.1|ˆ|

npq

pp

Page 46: 第 3 章  統計的推定

  となり、

  が必要標本数であることが分かる。  これを求めるために、母比率 p が必要となる。 P について何らかの見当がつくなら、その数値を用いるが、 p について何の情報もない場合には

  を用いる。なぜなら、     のときに、 pq が最大となるからである。

(例) 視聴率調査において、 1% 以内の誤差で推定するために必要な標本数を求めよ。

(解) 信頼係数を 95% とする。また、母比率についてはあらゆる可能性が考えられるので、    とすると、必要標本数は

  となるので、 9604 人となる。

pqE

n2

1.96

96044

1)196(

2

1

2

1

01.0

1.96 22

n

2

1p

2

1qp

2

1p