15
統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。 ② 母集団の個体 ・母集団を構成する 1 1 つのもののこと。母集団は個体の集まりである。 ③ 個体の特性値 ・個体の特性を表す数値のこと(身長や体重など)。特性値は,変量ともいう。 ④ 有限母集団と無限母集団 ・個体の個数が有限の母集団を「有限母集団」,個体の個数が無限の母集団を「無限母集団」 という。 ⑤ 標本(サンプル) ・母集団から取り出した,いくつかの個体の集まりのこと。 ⑥ 標本抽出 ・母集団から標本を取り出すこと。 ⑦ 標本調査 ・母集団の特徴を推測するために,標本抽出を行い,抽出された標本を調べること。 ⑧ 統計的推測 ・標本を用いて母集団の性質を推測すること。 ⑨ 母集団の大きさ(サイズ) ・母集団に含まれる個体の個数のこと。これは,有限母集団に対する用語である。 ⑩ 標本の大きさ(サイズ) ・標本に含まれる個体の個数のこと。 ⑪ 無作為抽出(ランダムサンプリング) ・母集団の各個体を等しい確率で抽出する方法。 ⑫ 無作為標本(ランダムサンプル) ・無作為抽出によって選ばれた標本。 ⑬ 母集団分布 ・個体の特性値 X を確率変数と考えたときの, X の確率分布のこと。 ⑭ 母平均・母分散・母標準偏差 ⑬の確率変数 X の平均 ) ( X E ,分散 ) ( X V ,標準偏差 ) ( X を,それぞれ,母平均, 母分散,母標準偏差という。

11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

1

11. 無作為標本

1. 基本的用語

推測統計における基本的な用語を確認する。

① 母集団

・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

② 母集団の個体

・母集団を構成する 1つ 1つのもののこと。母集団は個体の集まりである。

③ 個体の特性値

・個体の特性を表す数値のこと(身長や体重など)。特性値は,変量ともいう。

④ 有限母集団と無限母集団

・個体の個数が有限の母集団を「有限母集団」,個体の個数が無限の母集団を「無限母集団」

という。

⑤ 標本(サンプル)

・母集団から取り出した,いくつかの個体の集まりのこと。

⑥ 標本抽出

・母集団から標本を取り出すこと。

⑦ 標本調査

・母集団の特徴を推測するために,標本抽出を行い,抽出された標本を調べること。

⑧ 統計的推測

・標本を用いて母集団の性質を推測すること。

⑨ 母集団の大きさ(サイズ)

・母集団に含まれる個体の個数のこと。これは,有限母集団に対する用語である。

⑩ 標本の大きさ(サイズ)

・標本に含まれる個体の個数のこと。

⑪ 無作為抽出(ランダムサンプリング)

・母集団の各個体を等しい確率で抽出する方法。

⑫ 無作為標本(ランダムサンプル)

・無作為抽出によって選ばれた標本。

⑬ 母集団分布

・個体の特性値 X を確率変数と考えたときの, X の確率分布のこと。

⑭ 母平均・母分散・母標準偏差

・ ⑬の確率変数 X の平均 )( XE ,分散 )( XV ,標準偏差 )( X を,それぞれ,母平均,

母分散,母標準偏差という。

Page 2: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

2

・母平均・母分散・母標準偏差は,X が連続的な場合も含めて,すべての個体の特性値( X

のすべての実現値)の平均・分散・標準偏差であると考えてよい。(有限母集団で X が

離散的な場合,まさにその意味になるが,そうでない場合も,このように理解してよい。)

⑮ 母数

・母集団から定まる定数のこと。母平均,母分散,母標準偏差などは,母数である。統計

的推測では,母数を推測する。

2. 大きさ nの無作為標本の取り出し方

● 大きさ n の無作為標本の取り出し方

母集団から大きさ n の無作為標本を取り出すとは,母集団から n 個の個体を無作為に取

り出すことである。これを「試行」と考える。

試行: 母集団 → n 個の個体 n ,,, 21

n ,,, 21 が,大きさ n の 1つの無作為標本である。

この取り出し方には,以下の 3通りの方法がある。

(A) 同時に取り出す方法

母集団から無作為に n 個の個体を同時に取り出す方法である。

(B) 非復元無作為抽出

非復元で個体を 1個ずつ無作為に取り出し,全部で n 個の個体を取り出す方法であ

る。非復元とは,母集団から取り出した個体は母集団に戻さずに,次の個体を取り出

すことである。

(C) 復元無作為抽出

復元で個体を 1個ずつ無作為に取り出し,全部で n 個の個体を取り出す方法である。

復元とは,母集団から取り出した個体は必ず母集団に戻してから,次の個体を取り出

すことである。

(1) 標本から母集団の特徴を推測するのが統計的推測である。より良い推測を行うためには,

かたよった標本ではなく,母集団をよく反映するような標本を抽出する必要がある。よく言

われるように,標本は「母集団の良い縮図」でなければならない。そのために,無作為抽出

が基本になる。

(2) 無作為抽出にすれば,どの個体の選ばれる確率も等確率になるので,「 n 個の個体を取り

出す」という行為が,確率における「試行」になる。よって,確率論が適用できる。無作為

抽出にしなければ,その行為は試行にはならず,確率計算ができない。

(3) n 個の個体の取り出し方には,3 通りの方法がある。非復元抽出では,個体を取り出すた

Page 3: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

3

びに母集団から個体が減っていくので,毎回の試行は,試行として独立ではない。一方,復

元抽出では,毎回,全く同じ母集団から個体を取り出すことになるので,毎回の試行は互い

に独立である。つまり,独立試行になる。

(4) 現実の標本調査は,「同時に取り出す」である。例えば,100 人の意見を調べるために,

10 人を選んでアンケート調査をする。この 10 人は,同時に取り出された人たちである。た

だし,以下の(A)や(B)は数学的に面倒なので,(C)の方法を考えていく。推測統計では(C)を考

える。

■ 例

母集団は 3枚のカードからなり,以下の図のように,カードには数字が書かれている。この

とき,大きさ 2の無作為標本は,取り出し方によって,以下のようになる。

(A) 試行:無作為に 2枚のカードを同時に取り出す

① 大きさ 2の無作為標本は右の通り

② 標本の個数:

③ 各標本が選ばれる確率:1/3

④ 標本は「組み合わせ」

(B) 試行:大きさ 2の標本の非復元無作為抽出

① 大きさ 2の無作為標本は右の通り

② 標本の個数:

③ 各標本が選ばれる確率:1/6

④ 標本は「順列」

(C) 試行:大きさ 2の標本の復元無作為抽出

① 大きさ 2の無作為標本は右の通り

② 標本の個数:

③ 各標本が選ばれる確率:1/9

④ 標本は「重複順列」

1 大きさ 2 の標本(2枚のカード)

標本抽出

母集団

2 3

323 =C

623 =

933 =

大きさ 2の

無作為標本

標本が選ば

れる確率

1/3

1/3

1/3

}2,1{

}3,1{

}3,2{

大きさ 2の

無作為標本

標本が選ば

れる確率

大きさ 2の

無作為標本

標本が選ば

れる確率

1/6 1/6

1/6 1/6

1/6 1/6

)2,1( )3,2(

)3,1( )1,3(

)1,2( )2,3(

大きさ 2の

無作為標本

標本が選ば

れる確率

大きさ 2の

無作為標本

標本が選ば

れる確率

1/9 1/9

1/9 1/9

1/9 1/9

1/9

1/9

1/9

)1,1( )1,3(

)2,1( )2,3(

)3,1( )3,3(

)1,2(

)2,2(

)3,2(

Page 4: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

4

3. 大きさ nの標本変量

● 標本変量の定義

(1) 母集団の個体の特性値を で表す。この母集団に対して,次の試行T を考える。

試行T :大きさ の標本の復元無作為抽出

(2) 大きさ の標本 に対して, 番目に取り出した個体 の特性値を

で表すと,標本から特性値の組が定まる。

→ 特性値の組

(3) 各 は,試行T の結果に対して値をとる変数になるので,確率変数になる。

(4) この確率変数の組 を,大きさ nの標本変量と呼ぶ。

(5) 試行T の標本空間は,の n個の直積

であり,T の標本点(大きさ の無作為標本)とは,この直積の要素のことである。

(6) 母集団の大きさが N のときは,大きさ nの無作為標本の個数は

nNNNN =

● 標本変量の性質

大きさ nの標本変量 について,以下が成り立つ。

(1) 確率変数 nXXX ,,, 21 は独立である。

(2) nXXX ,,, 21 のいずれの確率分布も, X の確率分布(母集団分布)に等しい。

(3) (母平均)

(4) (母分散)

● 標本変量に関する注意

テキストでは,標本変量 を「大きさ n の無作為標本」と呼んでい

るが,以下では,標本変量と呼ぶことにする。

(1) 上記のすべては自明である。前述したように,復元無作為抽出は独立試行であるから,

nXXX ,,, 21

が独立になることは,自明である。また,これらの確率分布が母集団分布に一致することも

自明である。確率分布が等しいので,

)()()()( 21 XEXEXEXE n ====

X

n

n ),,,( 21 n i i

iX

),,,( 21 n ),,,( 21 nXXX

iX

),,,( 21 nXXX

n

),,,( 21 nXXX

)()()()( 21 XEXEXEXE n ====

)()()()( 21 XVXVXVXV n ====

),,,( 21 nXXX

Page 5: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

5

)()()()( 21 XVXVXVXV n ====

となることも自明である(以下の例題を参照)。

(2) 試行T は,「大きさ の標本の復元無作為抽出」であるが,これは,の n 個の直積から 1

つの要素を無作為に抽出する試行と同じである。

母集団 大きさ n の標本の復元無作為抽出

),,,( 21 n

),,,( 21 n

大きさ n の無作為標本

大きさ n の無作為標本

の n 個の直積1つの要素の無作為抽出

),,,( 21 nXXX (n 個の独立な確率変数)

大きさ n の標本変量上と下は同じ試行

(3) 統計学の解説書によっては,母集団は,個体の集まりではなく,個体の特性値の集まりを

指している場合も多い。例えば,1000 人の学生の身長が調査対象の場合,1000 人の学生で

はなく,1000個の身長の数値の集まりを母集団とする。さらに,選ばれた 10人の学生では

なく,選ばれた 10人の身長の集まりを標本と呼ぶ。これは,身長という特性値を決めれば,

関心があるのは身長のデータのみだからである。

このような考え方では,標本は,母集団から抽出された特性値 ix の集まり

),,,( 21 nxxx

を意味する。

(4) また,無作為標本という用語は,厳密には次のように定義される。確率変数

nXXX ,,, 21 が独立であり,すべての iX が同じ確率分布に従っているとき,

nXXX ,,, 21 を「大きさ nの無作為標本」という。テキストは,この本来の定義に従っ

て説明しているが,抽象的であるので,ここでは nXXX ,,, 21 を標本変量と呼び,実際

に選ばれた個体の集まりを無作為標本と呼ぶことにする。

■ 例題1

母集団を,次の数字の集まりとする。また,その数字を X で表す。

}6,5,4,3,2,1{=

この母集団に対して,次の試行を行う。

試行T :大きさ nの標本の復元無作為抽出

さらに,この試行から定まる大きさ n の標本変量を ),,,( 21 nXXX とする。

(1) X の確率分布を求めよ。

n

Page 6: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

6

(2) nXXX ,,, 21 は独立であることを示せ。

(3) のいずれの確率分布も, の確率分布(母集団分布)に等しいことを

示せ。

(4) 次が成立することを示せ。

)()()()( 21 XEXEXEXE n ====

)()()()( 21 XVXVXVXV n ====

(解説)

母集団 }6,5,4,3,2,1{= から 1個の個体を無作為に選ぶという試行と,1個のサ

イコロを 1回投げるという試行は同じである。

さらに,から,復元で個体を 1個ずつ無作為に取り出し,全部で n 個取り出すという試行

T は,1個のサイコロを n 回投げるという試行と同じである。

よって,サイコロ投げで表現すれば,標本変量 ),,,( 21 nXXX における iX とは

1個のサイコロを n 回投げたときの, i 回目に出た目の数

のことである。

従って, nXXX ,,, 21 が独立であること, iX の確率分布が次のようになることは自明

である。さらに,これは X の確率分布(母集団分布)と一致する。

iX 1 2 3 4 5 6 計 X 1 2 3 4 5 6 計

P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 P 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1 / 6 1

確率分布が等しいので,(4)の等式も自明になる。

■ 例題2

3枚のカードからなる母集団があり,数字 1のカードは 1枚,数字 2のカードは 2枚とする。

カードの数字を とし,この母集団に対して,

試行 :大きさ 2の標本の復元無作為抽出

を考え,大きさ 2の標本変量を とする。

(1) 1X の確率分布, 2X の確率分布, X の確率分布を求めよ。

(2) 大きさ 2の無作為標本をすべて求めよ。

nXXX ,,, 21 X

X

T

),( 21 XX

1

試行 T :大きさ 2 の標本の復元無作為抽出母集団

2 2 ),( 21

カードの数字=X

),( 21 XX

大きさ 2 の標本 大きさ 2 の標本変量

枚目のカードの数字11 =X

枚目のカードの数字22 =X

Page 7: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

7

(解説)

復元無作為抽出であるから, 1X の確率分布も, 2X の確率分布も, X の確率分布(母集団

分布)に等しいので,次のようになる。

1 2 計 1 2 計 1 2 計

1 / 3 2 / 3 1 1 / 3 2 / 3 1 1 / 3 2 / 3 1

また,大きさ 2の無作為標本の個数は 3 × 2 = 9

であり,右のようになる。

※ 数字 2のカードは 2枚あるが,これらは異なる個体

なので区別する。

4. 標本平均の定義

● 標本平均の定義

大きさ nの標本変量 から作られる式

n

XXX n+++ 21

を,大きさ nの標本平均といい, X で表す。すなわち,

(1) X は,

試行T :大きさ の標本の復元無作為抽出

における確率変数になる。

(2) X の実現値とは,標本 の平均値 x のことである。

(1) 標本平均 の実現値とは,標本 から定まる特性値の組を

で表したとき, の平均値 のことである。すなわち, の

実現値は,抽出された標本の平均のことである。

(2) 試行T の結果(標本点)は,大きさ n の無作為標本

1X 2X X

P P P

),,,( 21 nXXX

+++==i

ni XXXn

Xn

X )(11

21

n

),,,( 21 n

X ),,,( 21 n

),,,( 21 nxxx nxxx ,,, 21 x X

),,,( 21 n

大きさ 2の

無作為標本

大きさ 2の

無作為標本

)1,1( )1,2(

)2,1( )2,2(

)2,1( )2,2(

)1,2(

)2,2(

)2,2(

Page 8: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

8

であり, は,各標本点に対して値が定まる変数であるので,確率変数になる。

5. 標本平均の平均と分散

復元無作為抽出の場合は,標本平均の平均や分散が容易に計算できる。

● 定理(標本平均の平均と分散)

母平均 ,母分散 の母集団からの大きさ の標本変量 について,

次が成り立つ。(個体の特性値は X とする)

(1) 標本平均 X の平均は,母平均に等しい。すなわち

== )()( XEXE

(2) 標本平均 X の分散は,母分散を標本のサイズで割ったものに等しい。すなわち

nn

XVXV

2)()(

==

(3) (大数の法則)

標本のサイズ を大きくしていけば,標本平均 の実現値は母平均 に近づいてい

く。

(証明)(1)(2)の証明は容易である。

)(1

)(1

)( 2121 nn XXXEn

XXXn

EXE +++=

+++=

)()()(1

21 nXEXEXEn

+++=

==+++= nnn

1)(

1

また, は独立であるから,

)(1

)(1

)( 21

2

21 nn XXXVn

XXXn

VXV +++

=

+++=

)()()(1

212 nXVXVXVn

+++=

nn

nn

22

2

222

2

1)(

1 ==+++=

(3)の大数の法則も,(1)(2)より自明である。実際(1)より, の平均は,常に母平均 に一致

する。一方,(2)より,標本のサイズ を大きくしていけば, の分散 の値は 0に近づい

ていくので, の実現値のばらつきがどんどん小さくなり,その実現値は平均 のまわりに集

まってくるのである。なお, のときは, である。

X

2 n ),,,( 21 nXXX

n X

nXXX ,,, 21

X

n X n/2

X

1=n XX =

Page 9: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

9

■ 例

標本平均 X の平均 は,X のすべての実現値(標本の平均)の平均ことである。これが,

母平均に一致するという事実は,非常に重要である。簡単な例で確認しておこう。

いま,母集団は,数字が書かれた 3枚のカードからなり,

数字 1のカード = 1枚

数字 2のカード = 1枚

数字 3のカード = 1枚

とする。カードの数字を X とし,母集団からの大きさ 2の標本変量 を考える。

従って,標本平均は

)(2

121 XXX +=

の確率分布(母集団分布)は,当然,次のようになる。

1 2 3 計

1

従って,母平均 と母分散 は,次のとおり。( は 1,2,3の平均,2 は 1,2,3の分

散のことである。)

ここで, X の平均や分散はすぐに分かるが,あえてその確率分布を求めて計算してみよう。

}3,2,1{= とおくと,

試行 :大きさ 2の復元無作為抽出

の標本空間は であり,標本の個数は 933 =

である。

9個の標本点に対する X の実現値は,右の通りであり,

この 9個の実現値の平均が である。

確率を求めると,例えば, となる標本点は

(1,2)と(2,1)であるから,

9

2)5.1( ==XP

この確率は,9個の実現値における 1.5の相対度数である。

従って, の確率分布は次のようになる。

)( XE

),( 21 XX

X

X

P 3/1 3/1 3/1

2

23

13

3

12

3

11)( =++== XE

222 )()()( XEXEXV −==

3

24)941(

3

12

3

13

3

12

3

11 2222 =−++=−++=

T

)( XE

5.1=X

X

母集団

1 2 3

標本 X の実現値

(1,1) 1

(1,2) 1.5

(1,3) 2

(2,1) 1.5

(2,2) 2

(2,3) 2.5

(3,1) 2

(3,2) 2.5

(3,3) 3

Page 10: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

10

1 1.5 2 2.5 3 計

1

よって,

従って,確かに次が成立している。

(母平均),

なお,標本平均 の確率分布を図示すれば次のようになり,正規分布のような形になってい

る。そこでは,母平均 2= での確率が最大であり,左右対称のグラフになっている。

6. 中心極限定理

(1) 母集団分布は正規分布であるとは限らないし,また,その形が想定できない場合も多い。

しかし,標本平均を考えると,どのような母集団であっても,標本のサイズをある程度大き

くすれば,標本平均の分布は近似的に正規分布になるということが,以下の中心極限定理で

保証されている。この定理は,統計学における著しい結果であり,最も重要な定理である。

(2) 中心極限定理を実際に適用できるのは,大標本の場合である。大標本とは,標本のサイズ

nが大きい標本のことであるが, nの値の基準値は解説書によって多少異なる。ここでは,

30n

の場合を,大標本と呼ぶことにする。

X

P 9/1 9/2 9/3 9/2 9/1

29

13

9

25.2

9

32

9

25.1

9

11)( =++++=XE

3

12

9

13

9

25.2

9

32

9

25.1

9

11)( 222222 =−++++=XV

=)( XE標本のサイズ

母分散==

2)(

2XV

X

0

0.1

0.2

0.3

0.4

0.5

1 1.5 2 2.5 3

Page 11: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

11

● 中心極限定理

母平均 ,母分散 の母集団からの大きさ の標本変量 について,

を大きくしていけば,標本平均

の確率分布は,正規分布 ),(2

nN

に限りなく近づいていく。

※ 特に,大標本( 30n )の場合は,

X ~ ),(2

nN

と見なしてよい。よって,このとき X を標準化して

n

XZ

−=

とおくと, Z ~ )1,0(N となる。

7. 正規母集団の標本平均

● 定理(正規母集団の場合)

正規母集団 からの大きさ の標本変量 について,nの値に

関係がなく,標本平均 X は正規分布に従う。すなわち

X ~ ),(2

nN

(1) 母集団分布が正規分布をなしている場合,その母集団を正規母集団という。

(2) つまり,母集団の個体の特性値を としたとき, X の確率分布がすでに正規分布に従っ

ている場合,すなわち,X ~ ),( 2N であるとき,この母集団を正規母集団 ),( 2N

と表現する。

(3) 正規母集団に対して,復元無作為抽出を行った場合は,標本のサイズ nに関係がなく,標

本平均 X は正規分布に従う。

(4) 上記の定理は,正規分布の再生性から,ただちに導かれる。

のいずれの確率分布も,母集団分布 ),( 2N に等しいので,

iX ~ ),( 2N ( ni ,,2,1 = )

よって,p.72の定理から,とにかく nXXX ,,, 21 の 1次結合である

2 n ),,,( 21 nXXX

n

)(1

21 nXXXn

X +++=

),( 2N n ),,,( 21 nXXX

X

nXXX ,,, 21

Page 12: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

12

nXn

Xn

Xn

X111

21 +++=

は正規分布をなすので,

X ~ ))(,)(( XVXEN

一方,p.80の定理より,

== )()( XEXE ,nn

XVXV

2)()(

==

従って, ~ となる。

■ 例題

A地方の中学 3年生全体に実施されたテストの成績は

平均点 = 62.5 点, 標準偏差 = 8 点

であった。このとき,この地方の中学 3 年生から無作為抽出した 100 人の平均点が 64 点以上

になる確率を求めよ。

(解説)

詳しく説明しよう。このような問題では,まず,母集団はどれであるかに注意する必要があ

るが,ここでは,明らかに A 地方の中学 3 年生全体が母集団である。(従って,母集団のサイ

ズは非常に大きいと判断できるので,復元の議論を適用してよい。これについては後述。)

この問題は,大きさ 100の標本平均 X について,確率

を求めよという問題である。

標本のサイズは 100=n であるから, 30n であり,大標本である。よって,中心極限定

理により, X は正規分布

すなわち

に従うと考えてよい。(正規母集団であれば, nの値に関係なく, X はこの正規分布に従って

いる。)

X ),(2

nN

)64( XP

),(2

nN

)

100

8,5.62(

2

N

母平均

母標準偏差

5.62=

8=

大きさ 100の標本

64X

母集団(A地方の中学 3年生全体)

標本平均 の実現値 X

無作為抽出

100=n

Page 13: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

13

の標準偏差は, でり, を標準化して

とおくと, ~ である。よって,

)8.0

5.6264(1)64(1)64(

−−=−= ZPXPXP

0301.09699.01)88.1(1 =−=−= ZP

上記のような計算はワンパターンであり,結局, の確率分布が分かるわけであるから,そ

れに関する確率計算はいくらでもできる。

上記の結果には,次のような意味がある。母集団から 100人抽出したとき,100人の平均点

が 64 点以上になる確率は,約 0.03 である。非常に小さな値である。大ざっぱに言えば,100

人抽出するという試行を 100 回繰り返したとき,抽出した 100 人の平均点が 64点以上になる

場合は 3回程度しか起こらないということである。100回中 3回程度しか起こらないような出

来事は,非常に珍しい現象である。逆に言えば,現実に行った 1 回の試行で,100 人の平均点

が 64 点以上になることは,ほとんどないといってよい。このような考え方が,統計的仮説検

定の基礎になる。

8. 非復元抽出の場合

(1) 中心極限定理は復元抽出の場合の話であるが,非復元抽出ではどのようになるのだろうか。

問題は,大きさ の標本 から決まる確率変数 の独立性で

ある。

(2) 母集団のサイズ N が非常に大きく,標本のサイズ nがそれほど大きくない場合は,非復元

抽出であっても復元抽出と考えてよい。

(3) 例えば,母集団のサイズが 1000=N であり,標本のサイズが 10=n の場合,非復元で

最初に 1個の個体 を取っても,2個目の個体 を取るときは母集団には 999個の個体が

残っている。

3 個目の個体 を取るときは,母集団にはまだ 998 個の個体が残っている。1 個目や 2

個目にどのような個体を取っても,そのことが 3個目の個体の抽出結果に大きな影響を与え

るとは考えにくい。

標本のサイズも 10=n であるので,1 個の個体を取る試行を 10 回繰り返す操作は,各

回の結果が他の回には影響を与えない試行,つまり 10回の独立試行と考えてよい。よって,

この非復元抽出は,復元抽出と考えてよいだろう。

もちろん,標本のサイズが 300のような大きな値になれば,300個の個体を取る試行は,

300回の独立試行とは考えられない。このように,標本のサイズ nに比べて母集団のサイズ

X 8.010

8

100

82

== X

8.0

5.62−=

XZ

Z )1,0(N

X

n ),,,( 21 n ),,,( 21 nXXX

1 2

3

Page 14: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

14

N が大きい場合は,非復元抽出であっても復元抽出と考えてよく, は独立

であると見なして良い。

(4) このことを,標本の個数で確認してみよう。母集団のサイズを N ,標本のサイズを nとす

ると,以下のようになる。

① 非復元抽出の場合

・大きさ の標本 の個数は

② 復元抽出の場合

・大きさ の標本 の個数は

nnN NP であるが,ここで を計算すると,

これは,nに比べて N が非常に大きいときは, の値は 1に近くなり,

を示す。つまり,上記の①と②の個数がだいたい等しくなってしまい,非復元と復元の違い

が少なくなるのである。

(5) 統計的推測は,一般に,無限母集団を想定して議論される。無限母集団とは母集団の個体

が無限に多くある母集団のことだが,実際には,次のような場合は,無限母集団と見なして

議論するのが普通である。

○ 母集団のサイズが非常に大きい場合

○ 個体が無限に多くあると考えられる場合

○ 母集団のサイズが標本のサイズと比べて大きい場合

実用的には,有限母集団でも

母集団のサイズ ≧(標本のサイズ)× 10

を満たすときは,通常は無限母集団と考えてよい。

このような無限母集団では,非復元であっても復元の議論を適用してよい。

(6) 以下のような場合は,通常,無限母集団と見なされる。

① 日本の全有権者が母集団であり,調査のために 3000人の有権者を標本とした場合。

② ある物を多数回測定して得られるであろう測定データの全体を母集団とし,実際に測定

して得られた 5個の測定データが標本の場合。この場合は,母集団は,無限回測定した

と仮定しての測定データの全体であると判断する。

③ ある工場で多数生産される部品 Aの品質特性(厚さ,強度など)を調べるために,生産

nXXX ,,, 21

n ),,,( 21 n nN P

n ),,,( 21 n nN

nnN NP /

nn

nN

N

nNNNN

N

P })1({)2()1( −−−−=

−−

−=

N

n

NN

11

21

11

nnN NP / n

nN NP ≒

Page 15: 11. 無作為標本...統計学 補足文書 1 11. 無作為標本 1. 基本的用語 推測統計における基本的な用語を確認する。 ① 母集団 ・調査の対象になる集団のこと。最終的に,判断の対象になる集団である。

統計学 補足文書

15

される部品 A の全体,すなわち,生産された部品 A のみならず,これからも生産され

るであろう部品 Aの全体を母集団と考えた場合。

④ 新しく開発した血圧を下げる薬の効能を調べるために,マウスを何匹か選んで実験する

場合。この場合,実験対象となるマウスは多数であり,正確にその数が分からないのが

普通である。従って,実験対象のマウス全体を無限母集団と考える。逆に言えば,有限

母集団と見なすと,そのサイズを求めるために,マウスの数を数えなければならないこ

とにもなる。

(7) 実際の標本抽出では,復元における各種の定理が使われていくが

○ 無作為抽出でない場合

○ 無限母集団と見なされない場合

○ 標本のサイズに比べて母集団のサイズがあまり大きくない場合

などは,各種の定理の成立が保証されない状況になる。従って,このような場合は,統計的

推測を慎重に行う必要がある。

(8) なお,統計学入門における練習問題のほとんどは,上記の意味での無限母集団を仮定して

いる。従って,非復元であっても,復元の議論(中心極限定理など)を適用してよい。