Transcript

確率と統計入門 (2015年度)

1 はじめに

ここ最近,統計学に関する社会的需要が高まってきている.書店に行くと西内啓「統計学が最強の学問である」,イア

ン・エアーズ「その数学が戦略を決める」など,統計学関連の本を多く見かけるようになった.また,ニュース等でも統

計学やビッグデータという言葉を耳にする機会が増えてきている.例えば NHKのクローズアップ現代では,2012年 5

月 28日「社会を変える“ビッグデータ”革命」,2013年 7月 3日「数字のカラクリ・データの真実~統計学ブームのヒミ

ツ~」,2014年 9月 17日「公共データは宝の山~社会を変えるか?オープンデータ~」,2015年 4月 8日「観光にビッ

グデータ!?~外国人呼びこむ新戦略~」など,統計学関連の放送があった.New York Timesの 2009年 8月 5日付けの

記事 For Today’s Graduate, Just One Word: Statistics の中では,Googleのチーフエコノミストであり経済学者でも

ある Hal Varian の次の言葉が引用されている.

“I keep saying that the sexy job in the next 10 years will be statisticians.”

さらに日本統計学会では,2011年から「統計検定」を開始し,統計に関する知識や理解を評価・認定するようになった.

1903年,SF小説家の H.G. Wellsは

“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.”

と述べたそうだが,まさに統計的思考力が必要とされる時代になったといってよいであろう.

では統計学とはどのような学問だろうか?以下,「統計学入門」(東京大学出版会)からの引用である.

Advanced Theory of Statistics という,統計学者なら一回は参照する専門書の著者M. ケンドールは,統計学

の生い立ちを,次のようにうまく説明している.

— 今日,「統計理論」として知られている考え方の太い流れは,この水源の岩から,というふうに遡ることはで

きない.むしろ,多くの分野からの小さな支流が集まって,過去 2世紀以上もかかって合流し,一つの流れに

なったものである.たとえば

a) ゲームのテーブルから起った確率論,

b) 常備軍や国家財政上の必要から起った国家状態の統計,

c) 古代地中海貿易での,難破事故や海上掠奪に対する海上保険の計算,

d) 17世紀のペスト禍を機とする近代死亡率表の研究,

e) 天文観測で生じる観測誤差の理論,

f ) 生物等で生じる諸量の相関関係の理論,

g) 農学で実験を計画するための理論,

h) 経済学や気象学おける時系列の理論,

i) 心理学における要因分析やランキングの理論,

j ) 社会学における χ2(カイ二乗)統計量の方法,

などがあげられる.こうしてみると,人間の生活のあらゆる面とあらゆる科学がこの統計学とかかわりを有し

た,といってもそれほど言いすぎではない.—

このことからわかるように,現象の法則性に対する人間のあくなき実際的関心が統計学を生み出した.これが「統

1

計学とは何か」という問題に対する手短な答えである.現象の法則性を知るために,すべてを丹念に調べ,規則性

から法則を見出してもよいし,また,一部を観察して,そこから論理性のある推測で全体の法則性の発見に到って

もよい.

今日の統計学とは,ある集団から得られたデータを整理・要約し,有用な情報を取り出す方法論のことである.データ

とは,実験や調査等で測定されたり計算されたりした結果得られる数値の集まりである.対象とする集団すべて,つまり

母集団 populationをくまなく調べ上げてデータを収集する場合もあるが(例えば国勢調査),通常,このような方法は

膨大な時間とコストがかかり現実的ではない.そこで母集団という全体ではなく,標本 sampleという,全体の中の一

部の集団からデータを収集することが多い.現代の統計学では,データには不確実性が伴うと考えており,この不確実性

を扱うために確率の理論が用いられている.標本が母集団を反映するように適切に選ばれていれば,確率の理論を用い

て,不確実性のある標本のデータから母集団のことを正しく推測することができるようになる.つまり現代の統計学は,

確率的に得られたデータの中に埋もれた有用な情報を引き出すための方法論である,ともいうことができる.

この授業では統計学のの基礎的内容を学習する.具体的には以下のとおりである.

• データの視覚化,代表値と散らばりの尺度• 確率(基本的計算),確率(条件付き確率)• 確率変数• 確率分布(二項分布とポアソン分布),確率分布(正規分布)• 母集団と標本• 推定(母平均の推定),(母比率の推定)• 仮説検定(母平均に関する検定),(母比率に関する検定,独立性の検定)

高等学校の数学 II, B(新課程では数学 II?)までの数学の知識を前提とする.いくつかのデータを用いて具体例を示し

ていくが,そのデータはホームページ(http://www.med.oita-u.ac.jp/IS/eshimahome.htm)からダウンロードできる

ので,エクセル等を用いて自分で分析しながら学習することが望ましい.

参考文献

[1] 東京大学教養学部統計学教室 編, 基礎統計学 I 統計学入門. 東京大学出版会

[2] 柳川堯・荒木由布子 著,バイオ統計学シリーズ 1 バイオ統計の基礎–医薬統計入門–,近代科学社

[3] David J. Hand 著,上田修功 訳,統計学,丸善出版

[4] 日本統計学会 編,日本統計学会公式認定 統計検定 2級対応 統計学基礎,東京図書

[5] 日本統計学会 編,日本統計学会公式認定 統計検定 3級対応 データの分析,東京図書

2

2 データの要約と整理–記述統計–

データとは,人やものなどの各個体から観測される数値の集まりである.通常の実験や調査では,各個体から観測する

項目(変数 variable)は複数あり,それらを表やグラフ,いくつかの数値で要約して,データが得られた集団の特徴を

把握することが必要となる.これは記述統計学 descriptive statisticsと呼ばれ,データを分析する場合にはまず最初

に行うべき重要な作業である.

変数は質的変数と量的変数に分けることができる.質的変数は,性別や試験の成績(A, B, C などと表した場合)な

ど,いくつかのカテゴリーに分類されその中から1つをとるような変数である.性別のようにカテゴリー間に順序関係が

ないものは名義変数,試験の成績(A, B, Cなどと表した場合)のように順序関係があるものは順序変数と呼ばれる.量

的変数には,1日に吸うたばこの本数など,とびとびの値をとる離散変数,身長や体重などのように連続的な値をとる連

続変数がある.

本節では,連続変数を整理して視覚的に表現する方法,数値を用いて要約する方法を説明する.具体例として,主に表

1の数学と統計学の試験結果(仮想データ)を用いる.試験の得点は整数値のみをとる離散変数である.しかしとりうる

値の数が 0点から 100点までと十分大きく,このような場合は連続変数とみなして問題ない.

表 1 100人の数学と統計の試験結果(仮想データ) * 性別=1: 男性,0:女性

生徒番号 数学 統計 性別 生徒番号 数学 統計 性別 生徒番号 数学 統計 性別 生徒番号 数学 統計 性別1 72 76 1 26 72 94 1 51 53 83 0 76 59 58 0

2 40 59 1 27 66 73 1 52 49 61 0 77 33 44 0

3 87 94 1 28 31 44 1 53 71 69 0 78 67 73 0

4 66 60 1 29 43 69 1 54 64 94 0 79 47 62 0

5 75 66 1 30 37 46 1 55 80 100 0 80 58 77 0

6 61 87 1 31 56 72 1 56 61 55 0 81 42 78 0

7 30 40 1 32 62 61 1 57 31 58 0 82 57 69 0

8 84 90 1 33 57 65 1 58 63 64 0 83 50 82 0

9 65 83 1 34 70 86 1 59 67 86 0 84 49 45 0

10 76 80 1 35 64 89 1 60 65 76 0 85 75 74 0

11 73 84 1 36 41 67 1 61 32 53 0 86 59 69 0

12 58 72 1 37 37 45 1 62 76 93 0 87 69 81 0

13 53 86 1 38 58 85 1 63 57 52 0 88 80 76 0

14 55 78 1 39 52 68 1 64 66 83 0 89 66 72 0

15 48 49 1 40 87 72 1 65 61 71 0 90 60 53 0

16 47 56 1 41 29 70 1 66 48 48 0 91 71 82 0

17 39 68 1 42 70 94 1 67 78 75 0 92 48 44 0

18 44 59 1 43 58 59 1 68 58 67 0 93 71 75 0

19 65 71 1 44 72 66 1 69 60 61 0 94 47 65 0

20 67 77 1 45 83 69 1 70 63 71 0 95 70 60 0

21 60 54 1 46 85 74 1 71 64 81 0 96 84 70 0

22 55 47 1 47 52 48 1 72 54 50 0 97 44 73 0

23 31 64 1 48 67 84 1 73 74 90 0 98 68 77 0

24 57 78 1 49 52 54 1 74 70 88 0 99 73 42 0

25 40 37 1 50 68 53 1 75 87 76 0 100 82 73 0

2.1 度数分布とヒストグラム

表 1の男性 50人の数学のデータから,表 2のような度数分布表を作ることができる.この表は,観測値のとりうる値

を階級 classと呼ばれるいくつかのグループに分け,各階級に含まれる観測値がいくつあるか(度数 frequency)を数

え上げたものである.2 列目の階級値は階級を代表する値である.各階級の中で観測値は一様に分布していると仮定し

て,階級の上限値と下限値の中間値を採用するのが普通である.4列目の相対度数 relative frequencyは,各階級の度

数を観測値の総数で割ったものである.つまり,各階級の観測値の数が全体の中で占めている割合である.これは,デー

タの大きさが異なる複数のデータの分布を比較するときに有用である.5,6列目の累積度数 cumulative frequency

と累積相対度数 cumulative relative frequencyは,度数を1番下の階級から順に積み上げていったときの度数,相

3

対度数の累積和である.

表 2 男性 50人の数学試験結果の度数分布表

階級 階級値 度数 相対度数 累積度数 累積相対度数

0点以上 10点未満 5 0 0.00 0 0.00

10点以上 20点未満 15 0 0.00 0 0.00

20点以上 30点未満 25 1 0.02 1 0.02

30点以上 40点未満 35 6 0.12 7 0.14

40点以上 50点未満 45 7 0.14 14 0.28

50点以上 60点未満 55 12 0.24 26 0.52

60点以上 70点未満 65 11 0.22 37 0.74

70点以上 80点未満 75 8 0.16 45 0.90

80点以上 90点未満 85 5 0.10 50 1.00

90点以上 100点以下 95 0 0.00 50 1.00

度数分布表から,ヒストグラム histogramと呼ばれるグラフが描かれる(図 1).各階級に対して,階級の幅を横幅

とし,柱の面積が度数と比例するように高さを決める.この例では階級幅はすべて等しいので,柱の高さが度数と比例

する.

Test score

Freq

uenc

y

0 20 40 60 80 100

02

46

810

12

図 1 男性 50人の数学試験得点のヒストグラム

度数分布表やヒストグラムを作成することにより,データの分布形を把握することができる.図はほぼ中央に1つ峰が

ある山型分布であるが,峰が左や右に寄った歪んだ分布になることもある.また,峰が2つ以上になる場合もある.その

ような場合は,性質の異なるデータが混じり合っていることが多く,グループ分け(層別)することにより峰が1つの分

布が現れることがある.

度数分布表やヒストグラムを作成する際に,階級数や階級幅をどのようにするかが問題となることがある.階級幅を小

さくすれば階級数は多くなり,逆に階級幅を大きくすれば階級数は少なくなる.しかし階級の設定に関する統一的なルー

ルはなく,真の分布形が想像できるような階級の設定を探索的に行うのが普通である.

問 2.1. 女性 50人の数学試験について,度数分布表とヒストグラムを作成せよ.

問 2.2. 統計学の試験について,全体,性別で度数分布表とヒストグラムを作成せよ.

2.2 代表値

代表値 averagesとは,分布を代表する値のことである.ヒストグラムでは分布を視覚的に把握するのに有用である

が,代表値やこの次の散らばりの尺度は,客観的な数値として分布の形状を把握するのに役立つ.

代表値は分布の中心的な位置を表す指標である.最もよく知られているものは平均 meanであり,その中でも算術平

4

均 arithmetic meanがよく用いられる.*1 これは,観測値 x1, x2, · · · , xn の和を観測値の総数 nで割ったもので,

x =x1 + x2 + · · ·+ xn

n=

1

n

n∑i=1

xi

で定義される.この式はデータが連続的な場合だけでなく離散的な場合でも使うことができる.また,度数分布表だけが

与えられている場合でも,階級値を用いて平均の近似値を計算することができる.例えば男性 50人の数学のデータの場

合,平均は 58.34となる.表 2の度数分布表から計算する場合,

x =5× 0 + 15× 0 + 25× 1 + 35× 6 + 45× 7 + 55× 12 + 65× 11 + 75× 8 + 85× 5 + 95× 0

50= 59.00

となる.

平均はデータの重心を表す.したがって,一般に平均は,実際に観測されていない値であったり,離散データの場合は

そもそもありえない値となったりする.

分布形が非対称で左右のどちらかに歪んでいる場合,平均(特に算術平均)を代表値として用いることは適当でないこ

とがある.例えば (1, 1, 1, 1, 2, 3, 4, 5, 16, 20)というデータが与えられている場合,平均は 5.4である.観測値 10個のう

ち 8個はこの平均よりも小さく,残りの 2個が平均より大きい.数は少ないが他と比べて極端に値が大きいデータによ

り,平均値が引っ張られており,分布の中心という意味ではあまり適切ではない.このような場合には,代表値として中

央値 medianが用いられる.

中央値は,観測値を小さい順に並べたときの中央の値である.n 個の観測値を小さい順に並べたものを

x(1), x(2), · · · , x(n) とするとき,nが奇数,つまり n = 2m+ 1ならm+ 1番目の観測値 x(m+1) が中央値となる.nが

偶数,つまり n = 2mなら m番目と m + 1番目の観測値の平均 (x(m) + x(m+1))/2が中央値となる.上の例の場合は

n = 10だから,5番目の観測値 x(5) = 2と 6番目の観測値 x(6) = 3より 2.5が中央値となる.男性 50人の数学試験の

データでは中央値は 58となる.全ての観測値を用いて計算される平均値と比べて,中央値は極端な値に影響されないと

いう性質をもっている.

平均,中央値の他によく用いられる代表値として最頻値(モード)modeがある.これは最も頻繁に表れる値を意味

する.度数分布表では,度数が最大である階級の階級値が最頻値となる.例えば表 2の度数分布表が与えられた場合は,

50点以上 60点未満の階級の度数 12が最大であるから,最頻値は 55となる.ただし階級の設定に決まりはないから,階

級のとり方によって最頻値も変わることになる.また,分布の峰が 2つ以上あるような場合は有効な代表にはならない.

峰が 1つの単峰性で左右対称な形の分布の場合,平均,中央値,最頻値は比較的近い値を示す.右裾の長い分布の場合

は,一般に平均,中央値,最頻値の順に小さくなる.

問 2.3. 女性 50人の数学試験について,平均と中央値を求めよ.また,問 2.1で作成した度数分布表に基づき最頻値を答

えよ.

問 2.4. 統計学試験について,男女別に平均と中央値を求めよ.また,問 2.2 で作成した度数分布表に基づき最頻値を答

えよ.

2.3 散らばりの尺度

2 つのデータで分布の中心的な位置が同じであっても,散らばっている程度が異なるような分布の場合がある.つま

り,分布の形状を表すには代表値の他に散らばり具合を表す尺度も必要となる.代表値と散らばりの尺度により,分布の

大まかな形状を把握することができるようになる.

散らばりの尺度のうち最も単純なものは範囲 range である.これは観測値の最大値と最小値の差をとったものであ

る.男性 50人の数学試験のデータの場合,最小値は 29点,最大値は 87点であり,したがって範囲は 58となる.

*1 その他にも,幾何平均 xG や調和平均 xH などがある.xG = n√x1 · x2 · · · · · xn,

1xH

= 1n

(1x1

+ · · ·+ 1xn

)

5

範囲は最小値と最大値のみによって決まるので,極端な値が存在する場合はこれに大きく影響されてしまう.そのた

め,四分位範囲 Inter Quartile Range (IQR) が用いられることがある.中央値は観測値を小さい順に並べたとき

ちょうど中央,つまり 50% の所にある値であった.この考え方を用いれば,小さい方から 100p%(0 ≤ p ≤ 1)の所にある

値も考えることができ,100pパーセンタイルまたは分位点と呼ばれる.よく用いられる分位点に四分位点 quartileが

あり,これは観測値を小さい順に並べて 4等分したときの 3つの分割点である.第 1四分位点Q1は 25%分位点,第 2四

分位点Q2は 50%分位点(中央値),第 3四分位点Q3は 75%分位点である.四分位範囲とはQ3−Q1のことであり,極

端な値の影響をほとんど受けない散らばりの尺度である.男性 50人の数学試験のデータの場合,Q1 = 47.25, Q3 = 69.5

であり,IQR= 22.25となる.

散らばりの尺度として他によく用いられるものとして,分散 varianceと標準偏差 standard deviationがある.観

測値 x1, x2, · · · , xn が得られたとき,各観測値と平均との差,すなわち xi − x (i = 1, 2, · · · , n)を偏差と呼ぶ.この偏差を 2乗し,平均を求めたものが分散 S2 である.

S2 =1

n

(x1 − x)2 + (x2 − x)2 + · · ·+ (xn − x)2

=

1

n

n∑i=1

(xi − x)2

これを手計算する場合は,

S2 =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i − x2

として計算することもできる.*2

分散は単位が観測値の 2乗となってしまい解釈が難しい.そこで分散の平方根をとった標準偏差 S が用いられる.す

なわち

S =√S2 =

√√√√ 1

n

n∑i=1

(xi − x)2

である.男性 50人の数学試験のデータの場合,分散は 240.7,標準偏差は 15.5となる.

度数分布表だけが与えられている場合でも,平均の時と同様に階級値を用いて分散や標準偏差を計算することがで

きる.

問 2.5. 女性 50人の数学試験について,散らばりの尺度を計算せよ.

問 2.6. 統計学試験について,男女別に散らばりの尺度を計算せよ.

2.4 箱ひげ図

データの分布を視覚的に表す方法として,ヒストグラムの他に箱ひげ図 box-and-whisker plotが用いられること

がある.図 2は 100人の数学試験結果の基本箱ひげ図である.水平な線は,下から順に最小値,Q1,中央値,Q3,最大

値を表している.通常の箱ひげ図では,四分位範囲の 1.5倍以内で中央値から最も離れた測定値までひげ(垂直線)を引

き,そこからさらに離れた観測値ははずれ値としてプロットする.また,平均値が示される場合もある.

問 2.7. 数学試験について,男女別に箱ひげ図を作成せよ.

問 2.8. 統計学試験について,男女別に箱ひげ図を作成せよ.

2.5 標準化

平均や標準偏差の大きく異なる変数を比較する場合や,単位の異なる変数を比較する場合,標準化(または基準化)と

呼ばれる操作を施すことがある.観測値を xi(i = 1, 2, · · · , n),平均を x,標準偏差を S として,標準化とは

zi =xi − x

S

*2 1/nの代わりに 1/(n− 1)を用いることもあるが,これについては後述する.

6

020

4060

8010

0

図 2 100人の数学試験結果の箱ひげ図

とすることである.このように標準化された zi(i = 1, , 2, · · · , n)については平均 0,標準偏差 1となり,z値または zス

コアと呼ばれる.

標準化の特別な場合として偏差値がある.偏差値は平均 50,標準偏差 10となるようにしたもので,50 + 10zi で計算

できる.例えば 100人の数学試験の結果の平均は 59.98,標準偏差は 14.46 であるから,生徒番号 1 の学生の偏差値は

50 + 10× 72− 59.98

14.46= 58.3となる.

2.6 散布図と相関係数

これまでは単一の変数を整理・要約する方法について議論してきたが,一般のデータはもっと多くの変数がある多次元

データである.複数の変数の背後にある複雑な現象を解き明かしていくには多変量解析(本講義では扱わない)といわれ

る方法が用いられるが,その前段階として 2変数ずつの関係を調べることも重要である.

質的変数どうしの関係を見る場合は,分割表 contingency table(クロス表 cross tableともいう)を用いる.例

えば 100人の数学の試験結果で,60点以上を合格,60点未満を不合格として性別による合格率に興味がある場合,表 3

のような 2× 2分割表を作ることができる.一方が質的変数,他方が量的変数の場合でも,量的変数を適当な階級に分け

れば分割表を作成することができる.

表 3 数学試験の合格数

合格 不合格 計

男性 24 26 50

女性 30 20 50

計 54 46 100

観測対象 i(= 1, · · · , n)から 1組の量的変数のデータ (xi, yi)が得られたとする.横軸に x,縦軸に y をとり,各観測

対象を平面上にプロットすれば,xと y の関係を視覚的に把握することができる.このような図は散布図 scatter plot

と呼ばれ,量的な 2次元データの分析では必須のものである.男性 50人の数学と統計学の試験結果のデータで散布図を

作成したものが図 3である.

一般に 2変数間の関係のことを相関関係と呼ぶ.上の散布図のように,一方の変数の値が増加したときにもう一方の

変数の値も増加する傾向があるとき,2変数間には正の相関関係があるという.逆に,一方が増加したときにもう一方が

減少する傾向がある場合には負の相関関係があるという.正や負の相関関係が見られないときは相関関係がない,あるい

は無相関という.直線に近い散布図の場合は強い相関関係,そうでないときは弱い相関関係という.

散布図を用いれば,相関関係があるのか,あるとしたら正負のどちらか,強いのか弱いのかを視覚的におおよその所を

7

図 3 男性 50人の数学と統計学試験結果の散布図

捉えることはできるが,数値で表現できると便利である.これには,相関係数 correlation coefficientと呼ばれるも

のが用いられる.観測値が (x1, y1), (x2, y2), · · · , (xn, yn)と与えられたとする.まず,xと y の共分散 covarianceと

呼ばれるものが次のように与えられる.

Sxy =1

n

n∑i=1

(xi − x)(yi − y)

これは xと yのそれぞれの偏差の積をとり,全データについての平均をとったものである.(x, y)を中心にとった散布図

を描いたとき,(xi − x)(yi − y)は図のように長方形の面積を表す.特に,xi, yi がともに第 1象限あるいは第 3象限に

あるとき正の面積,xi, yi がともに第 2象限あるいは第 4象限にあるときは負の面積を表す.したがって,(xi, yi)が第

1,第 3象限に偏って分布しているときは共分散の値は大きな正の値となり,第 2,第 4象限に偏って分布しているとき

は大きな負の値となる.

図 4 共分散の図形的意味

このように,共分散は正の相関のときは正の値,負の相関のときは負の値をとることになる.しかし,共分散の値は変

数の単位に依存して変化してしまう.この点を修正するため,共分散を xの標準偏差 Sx と y の標準偏差 Sy で割ったも

のが相関係数 r である.

r =Sxy

SxSy=

1n

∑ni=1(xi − x)(yi − y)√

1n

∑ni=1(xi − x)2

√1n

∑ni=1(yi − y)2

男性 50人の数学と統計学の試験のデータでは,標準偏差は数学で 15.51,統計学で 15.02,共分散は 141.05となり,相

関係数は 0.605となる.

相関係数は,x と y を標準化して共分散を計算したものと見ることもできる.すなわち,zi = (xi − x)/Sx, wi =

(yi − y)/Sy とおくと

rxy =1

n

n∑i=1

ziwi

である.また,相関係数のとりうる値の範囲は −1 ≤ rxy ≤ 1である.散布図が直線に近くなるほど,相関係数の絶対値

は 1に近づく.

8

相関係数に関する注意点

1. 相関係数は 2変数間にどの程度直線的な関係があるかを測る指標である.そのため,2変数間の関係が直線状でな

いなら,関係の強さを適切には測れない.相関係数の値のみで相関の有無を判断することは適切ではなく,散布図

も描いて確かめることが重要である.

2. 相関関係と因果関係は異なる.数学と統計学の試験の例では相関関係が見られるが,どちらかがもう一方を決める

とはいえないので,因果関係があるとはいえない.

3. 2変数 xと y の相関関係を見たいとき,背後に第 3の変数 z が隠れていることによってみせかけの相関関係が生

じることがあり,注意を要する.

問 2.9. 女性 50人の数学試験について,散布図を作成し,相関係数を計算せよ.

問 2.10. 統計学試験について,全体と男女別に散布図を作成し,相関係数を計算せよ.

3 確率

3.1 標本空間と事象

ある実験を行ったとき,起こりうる可能な結果を標本点,その全体の集合を標本空間または全事象と呼ぶ.例えばさい

ころを 2回投げたときに起こりうる可能な結果は

(1, 1) (1, 2) (1, 3) · · · (6, 5) (6, 6)

のように,全部で 36通りある.これら 1つ 1つがこの実験の標本点であり,36個の集合が標本空間である.今後,標本

空間は記号 Ω,標本点は ω で表すこととする.上の実験の例では

Ω = (1, 1), (1, 2), (1, 3), · · · , (6, 5), (6, 6)

である.

標本空間の部分集合を事象 eventと呼び,A,B, · · · などと表す.例えばさいころを 2回投げる実験で 2回とも同じ

目が出る事象 Aは,A = (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)である.また,標本点を 1つも含まなず決して起

こらないことも事象と見なし,空事象と呼び φで表す.ただ 1つの標本点からなり分解できない事象を根元事象,複数

の標本点を含んで 2つ以上の根元事象に分解可能な事象を複合事象と呼ぶ.さいころを 1回投げた場合,1という目が出

る事象 1は根元事象であり,奇数の目が出る事象 1, 3, 5は複合事象である.事象を表す場合,次の図のように標本空間を長方形で表し,その内部に事象を円で表すベン図が用いられる.

図 5 ベン図

2つの事象 A,B のうち,少なくともどちらかが起こるという事象を Aと B の和事象と呼び,A ∪B で表す.A,B が

同時に起こるという事象は積事象と呼ばれ,A ∩B で表される.また,Aと B が同時に起こることがない場合,Aと B

は排反事象(または互いに排反)であるといわれ,A ∩B = φと表す.

例. さいころを 1 回投げる実験で A を奇数の目が出るという事象,B を 3 以下の目が出るという事象とすると,

A ∪B = 1, 2, 3, 5であり,A ∩B = 1, 3である.C を偶数の目が出るという事象とすると,A ∩ C = φ,つまり A

と C は互いに排反である.

9

3つの事象 A,B,C に対して,次の分配法則が成り立つ.

(A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C)

(A ∩B) ∪ C = (A ∪ C) ∩ (B ∪ C)

例. さいころを 2回投げる実験で Aを 2回とも同じ目が出るという事象,B を 2回とも奇数の目が出るという事象,C

を 2回の目の和が 5以下になるという事象とする.この場合

A = (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)B = (1, 1), (1, 3), (1, 5), (3, 1), (3, 3), (3, 5), (5, 1), (5, 3), (5, 5)C = (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)

であり,

A ∪B = (1, 1), (1, 3), (1, 5), (2, 2), (3, 1), (3, 3), (3, 5), (4, 4), (5, 1), (5, 3), (5, 5), (6, 6)(A ∪B) ∩ C = (1, 1), (1, 3), (2, 2), (3, 1)

である.また,

A ∩ C = (1, 1), (2, 2), B ∩ C = (1, 1), (1, 3), (3, 1)(A ∩ C) ∪ (B ∩ C) = (1, 1), (1, 3), (2, 2), (3, 1)

となり,1つ目の式が成り立っていることが確かめられる.(2つ目の式が成り立っていることも確かめてみよ)事象 Aが起こらないという事象を Aの補事象(または余事象)と呼び,Acで表す.これに関しては次の式が成り立つ.

φc = Ω, Ωc = φ

A ∪Ac = Ω, A ∩Ac = φ

Ω ∩A = A, φ ∪A = A

(Ac)c = A

また,A,B の和事象,積事象の余事象については次のド・モルガンの定理が成り立つ.

(A ∪B)c = Ac ∩Bc, (A ∩B)c = Ac ∪Bc

例. さいころを 1 回投げる実験で A を奇数の目が出るという事象,B を 3 以下の目が出るという事象とすると,

A ∪ B = 1, 2, 3, 5だから (A ∪ B)c = 4, 6である.また,Ac = 2, 4, 6, Bc = 4, 5, 6より Ac ∩ Bc = 4, 6であり,1つ目の式が成り立っていることが確かめられる.(2つ目の式も確かめてみよ)

3.2 確率の定義

確率は次の (a), (b), (c)により定義される.

(a) すべての事象 Aに対して 0 ≤ P (A) ≤ 1

(b) P (Ω) = 1

(c) 互いに排反な事象 A1, A2, A3, · · · に対して

P (A1 ∪A2 ∪A3 ∪ · · · ) = P (A1) + P (A2) + P (A3) + · · ·

10

ラプラスによる確率の定義と頻度による確率の定義 初期の確率論はさいころやカードなどを使った賭けのゲームや保険といったものと関連して発生し,ラプラス

(1749-1827)によって体系的にまとめられた.根元事象が全部で N 個あり,それらは同様に確からしいとする.事

象 Aが起こる場合の数が Rであるとき,事象 Aが起こる確率 P (A)を

P (A) =R

N

とするのがラプラスによる定義である.しかしこの定義の問題は,各標本点が同様に確からしく起こると仮定して

いることである.同様に確からしくない場合には,ラプラスの定義を用いることはできない.これよりも実際的な

定義が,頻度による確率の定義である.

さいころを n回投げ,1が出た回数 n1 を数えてその割合を記録するという実験を考える.さいころを投げる回数

を限りなく多くする(n → ∞)とき,n1

n→ 1

6

となることが予想できる.このように,実験を n回繰り返して事象 Aが nA 回出るとすると,n → ∞のとき

nA

n→ α

となるなら P (A) = αと定義する.しかし極限への収束は無限に実験を行うことではじめて確認される.仮に 100

兆回の実験を行っても,有限回数の実験である以上,収束したことが確認されるわけではない.

このように,ラプラスによる定義も頻度による定義も理論的に完全なものではない.ロシアの数学者コルモゴロフ

は (a), (b), (c)の 3つにより確率を定義することで,従来の困難を避けることに成功した. 3.3 加法定理

A ∪B は互いに排反な 3つの事象 A ∩Bc, A ∩B,Ac ∩B により

A ∪B = (A ∩Bc) ∪ (A ∩B) ∪ (Ac ∩B)

と表すことができる.したがって,確率の定義 (c)を用いて

P (A ∪B) = P (A ∩Bc) + P (A ∩B) + P (Ac ∩B)

となる.また,Aは互いに排反な事象 A ∩Bc, A ∩B により

A = (A ∩Bc) ∪ (A ∩B)

と表されるから,再び確率の定義 (c)により

P (A) = P (A ∩Bc) + P (A ∩B)

となる.同様にP (B) = P (Ac ∩B) + P (A ∩B)

が成り立つ.よって,

P (A ∪B) = [P (A)− P (A ∩B)] + P (A ∩B) + [P (B)− P (A ∩B)] = P (A) + P (B)− P (A ∩B)

となり,P (A ∪B) = P (A) + P (B)− P (A ∩B)

が成り立つ.これは加法定理と呼ばれる.特に Aと B が排反事象,つまり A ∩B = φであるとき,

P (A ∪B) = P (A) + P (B)

11

となる.

加法定理を用いると,A ∩Ac = φ,Ω = A ∪Ac だから,確率の定義 (a), (c)により

1 = P (Ω) = P (A) + P (Ac)

となる.また,A = Ωとすると Ac = φだからP (φ) = 0

もわかる.

例 1. さいころを 1 回投げる実験で A を奇数の目が出るという事象,B を 3 以下の目が出るという事象とする

と,A = 1, 3, 5, B = 1, 2, 3 であり,P (A) = 3/6 = 1/2, P (B) = 3/6 = 1/2 である.A ∩ B = 1, 3 よりP (A ∩B) = 2/6 = 1/3であり,加法定理を用いると

P (A ∪B) = P (A) + P (B)− P (A ∩B) =1

2+

1

2− 1

3=

2

3

実際,A ∪B = 1, 2, 3, 5だから P (A ∪B) = 4/6 = 2/3となって一致している.

例 2. さいころを 2回投げる実験で Aを同じ目が出るという事象,B を出た目の和が 5以下という事象とする.この場合

A = (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), B = (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)であり,P (A) = 6/36 = 1/6, P (B) = 10/36 = 5/18である.A ∩B = (1, 1), (2, 2)より P (A ∩B) = 2/36 = 1/18

であり,加法定理を用いると

P (A ∪B) = P (A) + P (B)− P (A ∩B) =6

36+

10

36− 2

36=

14

36=

7

18

と計算できる.実際,

A ∪B = (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3), (4, 1), (4, 4), (5, 5), (6, 6)

だから P (A ∪B) = 14/36 = 7/18である.

問 3.1. 数学と統計学の試験結果は,合格か不合格かで表 4のように整理できる.100人の学生から無作為に 1人を選ぶと

して,その学生が数学を合格しているという事象を A,統計学を合格しているという事象を B とする.選ばれた

学生が数学か統計学のどちらかを合格している確率はいくらか.

表 4 数学と統計学の試験の合格数

数学

合格 不合格 計

統計 合格 49 24 73

不合格 5 22 27

計 54 46 100

3.4 条件付き確率と独立性

1から 5までの番号のついた 5枚のカードから 1枚取り出すとする.取り出したカードの番号が 3であるという事象

を A,奇数という事象を B とする.このとき,P (A) = 1/5である.一方,取り出したカードが奇数であることがわかっ

ているとしたら,番号が 3である確率は 1/3である.

このように,事象 B が起こったとわかっている場合に事象 Aが起こる確率を条件付き確率と呼び,P (A|B)で表す.

これは,事象 B が起こったとわかっているから B を全事象と考え直し,そのときの Aが起こる確率を考えたものであ

る.上の例では奇数であることがわかっているから番号は 1, 3, 5のいずれかであり,これを全事象と考えなおして番号

が 3である確率を考えている.

12

条件付き確率 P (A|B)は,B が起こったときにさらに Aが起こる確率だから,

P (A|B) =P (A ∩B)

P (B)

と定義される.上の例では P (B) = 3/5, P (A ∩B) = 1/5だから

P (A|B) =1/5

3/5=

1

3

となる.また,条件付き確率の式はP (A ∩B) = P (B)P (A|B)

と表すこともでき,これは乗法定理と呼ばれる.Aと B を入れかえてももちろん成り立つ.

例. 当たりを 3本含む 10本のくじから,1本ずつ 2回続けてくじを引く.ただし 1回目に引いたくじは元に戻さないと

する.1本目が当たるという事象を A,2本目が当たるという事象を B とすると,2本とも当たるという事象は A ∩ B

である.1本目が当たる確率は P (A) = 3/10である.1本目が当たりのとき 2本目が当たる確率は P (B|A) = 2/9であ

る.したがって,2本とも当たる確率は

P (A ∩B) = P (A)P (B|A) = 3

10

2

9=

1

15

事象 Aと B はP (A ∩B) = P (A)P (B)

であるとき互いに独立であるという.これを乗法定理に用いれば,Aと B が独立のときは

P (A) = P (A|B)

が成り立つこともわかる.もちろん,P (B) = P (B|A)

のときにも Aと B は独立である.

例. さいころを 2回投げて連続して 1の目が出る確率を考える.1回目に 1の目が出るという事象を A,2回目に 1の目

が出るという事象を B とすると,連続して 1の目が出るという事象は A ∩ B であり P (A ∩ B) = 1/36である.また,

P (A)P (B) = (1/6) · (1/6) = 1/36であるから,Aと B は独立である.

問 3.2. 次の (i), (ii)が成り立つことを示せ.

(i) B1 ∩B2 = φのとき P (B1 ∪B2|A) = P (B1|A) + P (B2|A)(ii) P (B|A) + P (Bc|A) = 1

問 3.3. 大小 2つのサイコロがある.次の問いに答えよ.

(i) Aをさいころの目の和が 6という事象,B を大きい方のさいころの目が 4という事象とする.事象 Aと B は互

いに独立か.

(ii) C をさいころの目の和が 7という事象とする.事象 B と C は互いに独立か.

問 3.4. 問 3.1で P (A|B)と P (B|A)を計算せよ.

3.5 ベイズの定理

集合の分配法則によりA = A ∩ Ω = A ∩ (B ∪Bc) = (A ∩B) ∪ (A ∩Bc)

が成り立つ.A ∩B と A ∩Bc は互いに排反だから,確率の定義 (c)により

P (A) = P (A ∩B) + P (A ∩Bc)

13

である.さらに条件付き確率の定義から

P (A) = P (A|B)P (B) + P (A|Bc)P (Bc)

となる.したがって,

P (B|A) = P (A ∩B)

P (A)=

P (A|B)P (B)

P (A|B)P (B) + P (A|Bc)P (Bc)

が成り立つ.これはベイズの定理と呼ばれている.

例 1. 2つの壺があり,第 1の壺には白玉 3個と黒玉 1個が,第 2の壺には白玉 1個と黒玉 2個が入っている.いずれか

の壺から玉を 1個取り出したところ白玉であった.白玉を取り出すという事象を Aとする.B を第 1の壺から取り出す

事象とすると,Bc は第 2の壺から取り出す事象と考えることができ,どちらの壺を選ぶかは等しい確率と考えられるか

ら P (B) = P (Bc) = 1/2である.また,P (A|B) = 3/4, P (A|Bc) = 1/3であるから,

P (B|A) =(3/4)(1/2)

(3/4)(1/2) + (1/3)(1/2)=

9

13, P (Bc|A) = (1/3)(1/2)

(1/3)(1/2) + (3/4)(1/2)=

4

13

となる.P (Bc|A)は P (B|A) + P (Bc|A) = 1から計算することもできる.

例 2. がんを診断するための検査法があり,ある集団から無作為に選ばれた人に対してこの検査を行うとする.Aを検査

の結果がんと診断される(陽性である)という事象,B を被検査者は真にがんであるという事象とする.検査法は,がん

である人が検査を受けたときには 95%の確率で陽性と判定し,がんでない人が検査を受けたときには 90%の確率で陰

性と判定するものとする.つまり P (A|B) = 0.95, P (Ac|Bc) = 0.90である.この集団ではがんの確率が P (B) = 0.005

とわかっているとき,陽性と判定された人が本当にがんである確率 P (B|A)は

P (B|A) = 0.95× 0.005

0.95× 0.005 + (1− 0.90)× (1− 0.005)= 0.046

と計算できる.

問 3.5. 次の文章は毎日新聞 2012年 10月 30日「3.11後のサイエンス:統計の魔法にご用心」という記事からの引用であ

る(一部省略).この文章を読み,(1)と (2)に答えよ.

『まず,ちょっとしたクイズから.致死率の高い感染症が日本に上陸したとする.よい検査薬があり,感染者を

「陽性」と判定する精度は 99%.非感染者を「陰性」と判定する精度も 99%.念のため検査を受けると,結果は

「陽性」.さて,あなたが実際に感染していて隔離されてしまう確率は?

(中略)

先週,東京で開かれた人類遺伝学会でも「99% 問題」がテーマになった.俎上(そじょう)に載せられたのは米

国のバイオ企業が開発した新型の出生前診断.妊婦の血液を分析すると胎児がダウン症かどうか,「99% の精度」

で判定できるといわれ,日本でも導入計画が浮上した.

(中略)

バイオ企業は,「高齢」「過去にダウン症の子を出産」「超音波検査で疑い」といった「高リスク群」の妊婦に新検

査を受けてもらい,羊水検査などで確定診断.そこから,新検査がダウン症の胎児を正しく陽性と診断する「感

度」を 99.1%,ダウン症でない胎児を陰性と判定する「特異度」を 99.9% とはじいた.確かに数値は高い.(以下

省略)』

注) 病気の人が検査を受けたとき実際に陽性と判定される確率を感度 sensitivity,健常な人が検査を受けたとき

に実際に陰性と判定される確率を特異度 specificityという.

(1) 前半 3行の記述について,日本人全体での感染率を 1% として,検査で陽性だった人が実際に感染している確率

(陽性的中率という),陰性だった人が実際に感染していない確率(陰性的中率という)を求めよ.

(2) (以下省略)とした部分では,高リスク群のダウン症出生頻度は 2%,一般集団では 1000人に 1人,35歳の妊婦

の場合 300人に 1人としてそれぞれの場合の陽性的中率を計算している.実際にどの程度になるか計算せよ.

14

4 確率変数

4.1 確率変数と確率分布

サイコロを振って出る目は 1から 6のいずれかであるが,事前にどの目が出るかはわからない.ただし,どの目も 1/6

の確率で出る.このように,事前にどの値をとるのかわからないが,いずれかの値がある確率で得られるような変数を確

率変数 random variableという.通常,確率変数はX,Y, · · · のようにアルファベットの大文字で表す.また,確率変数が具体的にとる値を文字で表す場合はアルファベットの小文字を用いる.サイコロを振って出る目を X とすると,

P (X = 1) = 1/6, P (X = 2) = 1/6, · · · , P (X = 6) = 1/6

である.このように,X のとる値 xとそれが生じる確率が与えられたとき,それをX の確率分布という.また,確率変

数 X はこの分布に従う,といういい方をする.

例. 2個のサイコロを同時に振って出る目の和 X も確率変数である.X のとりうる値は 2, 3, · · · , 12であり,各々の確率は

P (X = 2) = 1/36, P (X = 3) = 2/36, P (X = 4) = 3/36, P (X = 5) = 4/36, P (X = 6) = 5/36, P (X = 7) = 6/36,

P (X = 8) = 5/36, P (X = 9) = 4/36, P (X = 10) = 3/36, P (X = 11) = 2/36, P (X = 12) = 1/36

と与えられる.図で表せば次の通りであり,出た目の和 X はこの確率分布に従う.

図 6 2個のサイコロを振って出る目の和の確率分布

確率変数 X が離散的な値 x1, x2, · · · , xK をそれぞれ f(x1), f(x2), · · · , f(xK)の確率でとるとき,X を離散型確率変

数という.確率は f(xk) = P (X = xk) (k = 1, · · · ,K)であり,これが X の確率分布である.f は

f(xk) ≥ 0 かつK∑

k=1

f(xk) = 1

を満たし,X の離散型確率分布と呼ばれる.サイコロを振って出る目やコインを投げたときの表か裏か,などは離散型

確率変数である.

例えば日本人の成人における平均身長を調べたいとする.身長は離散的な値というより連続的と考えるべき変数であ

り,日本人の成人という集団から無作為に 1人選ぶ場合は連続型確率変数と考えることができる.一般に,確率変数 X

が a以上 b以下である確率が

P (a ≤ X ≤ b) =

∫ b

a

f(x)dx

のように表されるとき,X は連続型確率変数と呼ばれる.f は

f(x) ≥ 0 かつ∫ ∞

−∞f(x)dx = 1

15

を満たし,X の確率密度関数と呼ばれる.連続型の確率分布の場合,P (X = a) = 0 となり,一点をとる確率は 0 と

なる.

確率変数 X に対し,x以下の確率F (x) = P (X ≤ x)

を X の累積分布関数 cumulative distribution functionという.連続型確率変数の場合は

F (x) =

∫ x

−∞f(u)du

である.微分積分学の基本定理からF ′(x) = f(x)

である.また,離散型確率変数のときはF (X) =

∑u≤x

f(u)

と表すことができる.

4.2 確率変数の期待値

確率変数はいろいろな値をとるが,それらの値を代表する平均(正確には確率の重み付き平均)を考えることができ,

期待値 expectationと呼ばれる.期待値は E(X)と表し,

(離散型) E(X) =∑x

xf(x), (連続型) E(X) =

∫ ∞

−∞xf(x)dx

で定義される.∑

x は離散型の xがとりうる値すべての和をとることを意味する.X の関数 g(X)についても同様に期

待値を定義できる.

(離散型) E(g(X)) =∑x

g(x)f(x), (連続型) E(g(X)) =

∫ ∞

−∞g(x)f(x)dx

期待値については次の性質が成り立つ.ただし,a, bは定数を表す.

E(aX + b) = aE(X) + b 特に a = 0のとき E(b) = b,b = 0のとき E(aX) = aE(X)

離散型の場合は次のように示される(連続型の場合も同様).X がとりうる値が x1, · · · , xK のK 個あるとすると,

E(aX + b) =K∑i=1

(axi + b)f(xi) = aK∑i=1

xif(xi) + bK∑i=1

f(xi) = aE(X) + b

例 1. さいころを 1回振って出る目を X とすると,これは離散型の確率変数であり,期待値は

E(X) = 1× 1

6+ 2× 1

6+ 3× 1

6+ 4× 1

6+ 5× 1

6+ 6× 1

6=

21

6=

7

2

である.これは,さいころを 1回振るという実験を“仮に”無限に行ったとしたらそのたびに出る目は異なるが,それら

出た目の平均をとったら 7/2になるということを意味する.また,X2 の期待値は

E(X2) = 12 × 1

6+ 22 × 1

6+ 32 × 1

6+ 42 × 1

6+ 52 × 1

6+ 62 × 1

6=

91

6

例 2. 3枚のコインを投げたときに表が出た枚数を X 枚とすると,これは離散型の確率変数である.表が k 枚の確率は

3Ck(1/2)k(1/2)3−k = 3Ck(1/2)

3 (k = 0, 1, 2, 3)だから,

E(X) = 0×3 C0

(1

2

)3

+ 1×3 C1

(1

2

)3

+ 2×3 C2

(1

2

)3

+ 3×3 C3

(1

2

)3

=3

2

例 1と同様に,3枚のコインを投げて表が出た枚数を数えるという実験を“仮に”無限に行ったとしたらそのたびに表の

枚数は異なるが,それらの平均をとったら 3/2になるということを意味する.

問 4.1. 中の見えない壺の中に白玉 4個と黒玉 3個が入っている.この中から 3個の玉を同時に取り出すときの白玉の個

数を X とする.X の期待値を求めよ.

16

4.3 確率変数の分散と標準偏差

上の例 1で期待値の意味を,「さいころを 1回振るという実験を“仮に”無限に行ったとしたらそのたびに出る目は異

なるが,出た目の平均をとったら 7/2になるということを意味する.」と述べた.確率変数がとる具体的な値は同じ実験

を繰り返すたびに異なる値をとる.すなわちばらつきが存在する.記述統計で分布を数値で要約する際に,代表値だけで

は不十分で散らばりの尺度も必要だったのと同様に,確率変数でもばらつきという考え方が重要となる.

確率変数 X の期待値を µ = E(X)として,分散 varianceが次のように定義される.

V (X) = E[(X − µ)2]

この定義から明らかに V (X) ≥ 0であり,V (X)の値が大きいほど X のばらつきは大きい.分散の正の平方根√

V (X)

を標準偏差 standard deviationという.分散を σ2,標準偏差を σ で表すこともある.

期待値の定義から

(離散型) V (X) =∑x

(x− µ)2f(x), (連続型) V (X) =

∫ ∞

−∞(x− µ)2f(x)dx

である.また,離散型,連続型いずれの場合でも

V (X) = E(X2)− 2µE(X) + µ2 = E(X2)− µ2 = E(X2)− (E(X))2

と表すこともできる.

分散については次の性質が成り立つ.ただし,a, bは定数を表す.

V (aX + b) = a2V (X) 特に a = 0のとき V (b) = 0

離散型の場合は次のように示される(連続型の場合も同様).X がとりうる値が x1, · · · , xK のK 個あるとすると,

V (aX + b) =

K∑i=1

(axi + b)− (aµ+ b)2 f(xi) = a2K∑i=1

(xi − µ)2f(xi) = a2V (X)

例 1. 期待値の例 1で,E(X) = 7/2, E(X2) = 91/6であった.したがって

V (X) =91

6−(7

2

)2

=35

12

例 2. 期待値の例 2で分散を計算する場合,まず

E(X2) = 02 ×3 C0

(1

2

)3

+ 12 ×3 C1

(1

2

)3

+ 22 ×3 C2

(1

2

)3

+ 32 ×3 C3

(1

2

)3

=3 + 12 + 9

8= 3

であるから,

V (X) = 3−(3

2

)2

=3

4

問 4.2. 問 4.1で X の分散を求めよ.

問 4.3. 連続型確率変数 X が一様分布に従うとする.一様分布とは,確率密度関数が

f(x) =

1 (0 ≤ x ≤ 1)

0 (x < 0, 1 < x)

で与えられる確率分布である.期待値と分散を計算せよ.

17

4.4 多次元の確率分布

現実に起こる現象は 1つの確率変数だけで表されるものではなく,多くの確率変数を必要とする.そしてそれらの関

係を表すのに同時確率分布や条件付き確率分布が用いられる.ここでは特に 2次元,つまり 2個の確率変数がある場合

について考える.

例えば,ジョーカーを除く 52 枚のトランプから 1 枚カードを取り出すとき,得られるスペードの数を X,最初に

取り出したカードを元に戻さずもう一度カードを 1 枚引いたとき得られるスペードの数を Y とする.X,Y はとも

に 0, 1 だけをとる確率変数である.X = x, Y = y となる確率 f(x, y) = P (X = x, Y = y) を考えることができ,

f(0, 0) =39

52

38

51, f(1, 0) =

13

52

39

51, f(0, 1) =

39

52

13

51, f(1, 1) =

13

52

12

51となる.このように,2個の確率変数 X,Y がと

りうる値の組とそれが生じる確率が与えられたとき,これを X と Y の同時確率分布という.

f(x, y)に対しては,離散型確率変数 X,Y の場合

f(x, y) ≥ 0 かつ∑x

∑y

f(x, y) = 1

が成り立つ.実際,上のトランプの例では f(0, 0), f(1, 0), f(0, 1), f(1, 1) ≥ 0であり,∑x=0,1

∑y=0,1

f(x, y) = f(0, 0) + f(1, 0) + f(0, 1) + f(1, 1) = 1

となっている.

X,Y が連続型のときは f(x, y)は同時確率密度関数と呼ばれ,

f(x, y) ≥ 0 かつ∫ ∞

−∞

∫ ∞

−∞f(x, y)dxdy = 1

を満たす.

トランプの例で,X = 0である確率は P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) = f(0, 0) + f(0, 1)と与

えられる.同様に X = 1である確率や Y = 0である確率,Y = 1である確率も与えられる.つまり,g(x) = P (X =

x), h(y) = P (Y = y)とおけば g(x) = f(x, 0) + f(x, 1), h(y) = f(0, y) + f(1, y)である.このように,同時確率分布

から X,Y 単独の確率分布を得ることができる.

一般に,同時確率分布から X,Y 単独の確率分布が

g(x) =∑y

f(x, y), h(y) =∑x

f(x, y)

で求められる.これは X,Y の周辺確率分布と呼ばれる.連続型の場合は

g(x) =

∫ ∞

−∞f(x, y)dy, h(y) =

∫ ∞

−∞f(x, y)dx

であり,周辺確率密度関数と呼ばれる.

離散型確率変数 X,Y に対し,条件付き確率の定義より

P (X = x|Y = y) =P (X = x, Y = y)

P (Y = y), P (Y = y|X = x) =

P (X = x, Y = y)

P (X = x)

という確率を考えることができる.f, g, hを用いてこれは

g(x|y) = f(x, y)

h(y), h(y|x) = f(x, y)

g(x)ただし h(y) 6= 0, g(x) 6= 0とする.

と表され,条件付き確率分布と呼ばれる.連続型確率変数の場合にも同様に条件付き確率分布が定義できる.g(x|y)は y

が固定されており xの関数となっている.h(y|x)は xが固定されており y の関数となっている.

18

同時確率分布において,あらゆる x, y について

f(x, y) = g(x)h(y)

が成り立つとき,X と Y は互いに独立であるという.独立のときは,X,Y の同時確率分布はX,Y それぞれの確率分布

を知るだけで求められる.すなわち,

g(x|y) = g(x)h(y)

h(y)= g(x), h(y|x) = g(x)h(y)

g(x)= h(y)

であり,独立のとき X は Y によらず,Y は X によらない.例えば 2個のさいころを振って出た目を X,Y とする.こ

のときの X,Y の同時確率分布と周辺確率分布は表 5のように与えられる.直観的にも明らかだが,2個のさいころの目

は独立であることが確かめられる.

表 5 2個のさいころの目 X,Y の同時確率分布と周辺確率分布

X

1 2 3 4 5 6 h(y)

1 1/36 1/36 1/36 1/36 1/36 1/36 1/6

2 1/36 1/36 1/36 1/36 1/36 1/36 1/6

Y 3 1/36 1/36 1/36 1/36 1/36 1/36 1/6

4 1/36 1/36 1/36 1/36 1/36 1/36 1/6

5 1/36 1/36 1/36 1/36 1/36 1/36 1/6

6 1/36 1/36 1/36 1/36 1/36 1/36 1/6

g(x) 1/6 1/6 1/6 1/6 1/6 1/6 1

5 確率分布の例

前節は確率変数と確率分布に関する一般論であった.確率的に生じる現象にはそれにあてはまる確率分布があり,ここ

ではその中でも代表的な二項分布,ポアソン分布,正規分布について説明する.

5.1 二項分布

次の (a), (b), (c)を満たすような実験を n回繰り返すとする.これをベルヌーイ試行という.

(a) 生じうる結果は 2種類である(仮に成功と失敗とする).

(b) 成功が起こる確率 pは毎回一定である.

(c) 毎回の実験は独立,つまり前後の実験で関連は生じない.

成功が起こる回数は離散型確率変数であり,これを X とする.このとき,成功が x回,Fが n− x回生じる確率は

f(x) = P (X = x) = nCxpx(1− p)n−x (x = 0, 1, · · · , n)

で与えられる.この確率分布を二項分布 binomial distributionといい,B(n, p)と表す.これが確率分布であること

は,二項定理を用いてn∑

x=0

nCxpx(1− p)n−x = (p+ (1− p))n = 1

であることから確かめられる.

例 1. コインを 10回投げて表が出る回数 X を数えるとする.コインを投げたときに生じうる結果は表が出るか裏が出る

かの 2種類,表が出る確率は 0.5で何回投げても一定,表が出るかどうかは前後に影響されないから,この実験はベル

ヌーイ試行である.表が出る回数 X は二項分布 B(10, 0.5)に従い,f(x)は次のようになる(図 7).

f(x) = 10Cx0.5x0.510−x (x = 0, 1, · · · , 10)

19

例 2. さいころを 10回投げて 1の目が出る回数 X を数えるとする.1の目が出るかどうかに注目する場合,生じうる結

果は 1の目が出るか出ないかの 2種類であり,表が出る確率は毎回 1/6で一定,1の目が出るかどうかは前後に影響され

ないから,この実験はベルヌーイ試行である.1の目が出る回数X は二項分布 B(10, 1/6)に従い,f(x)は次のようにな

る(図 8).

f(x) = 10Cx

(1

6

)x(5

6

)10−x

(x = 0, 1, · · · , 10)

図 7 二項分布 B(10, 0.5)

図 8 二項分布 B(10, 1/6)

確率変数 X が二項分布 B(n, p)に従うとき,その期待値と分散は次のように与えられる.

E(X) = np, V (X) = np(1− p)

問 5.1. 二項分布 B(n, p)に従う確率変数 X において E(X) = np, V (X) np(1− p)となることを証明せよ.

5.2 ポアソン分布

二項分布で nが非常に大きく,その一方で pが非常に小さい稀な現象である場合,nと pがつりあってある程度の大

きさの xが観察される.すなわち,二項分布

f(x) = nCxpx(1− p)n−x

において np = λとおき,これを満たしながら n → ∞, p → 0となる極限を考えると,

f(x) =e−λλx

x!(x = 0, 1, 2, · · · )

となる.この確率分布をポアソン分布 Poisson distributionといい,Po(λ)で表す.これが確率分布であることは,

指数関数 ex のマクローリン展開

ex = 1 + x+x2

2!+

x3

3!+ · · · =

∞∑r=0

xr

r!

を用いて∞∑x=0

e−λλx

x!= e−λ

∞∑x=0

λx

x!= e−λeλ = 1

となることから確かめられる.

確率変数 X がポアソン分布 Po(λ)に従うとき,

E(X) = λ, V (X) = λ

である.ポアソン分布 Po(λ)では,期待値と分散が等しく λとなる.これは期待値と分散の定義に従って示すこともで

きるが,二項分布 B(n, p)の期待値と分散が E(X) = np, V (X) = np(1− p)であることからも理解できる.

ポアソン分布の例は無数にある.交通事故件数,大量生産の不良品数,遺伝子の突然変異数など,リスクや安全性に関

連する現象はよく研究されている.

問 5.2. ある病院では,救急患者のために常時 4 床の空きベッドを確保している.ここへ収容される救急患者数 X が

λ = 2のポアソン分布 Po(2)に従うとき,ベッドが不足する確率を計算せよ.

20

5.3 正規分布

正規分布 normal distribution(またはガウス分布)は最も代表的な連続型確率分布であり,統計学の理論上だけで

なく応用上でも非常に重要である.確率密度関数は

f(x) =1√2πσ2

exp

− (x− µ)2

2σ2

(−∞ < x < ∞)

で与えられる.ただし σ > 0である.期待値と分散は E(X) = µ, V (X) = σ2 となることが示される(証明略).すなわ

ち,上の確率密度関数は平均 µ,分散 σ2 の正規分布 N(µ, σ2)を表している.

正規分布 N(µ, σ2) の確率密度関数のグラフは平均 x = µ に関して左右対称であり,x = µ で最大値をとる.また,

x → ±∞のとき f(x) → 0となる.平均 µの値が変わると,形状は変わらずに x軸上を平行移動し,分散 σ2 の値が大

きくなるほど分布の左右の幅は広がり,高さが低くなる(図 9).

図 9 正規分布 N(20, 22), N(20, 42), N(20, 62)の確率密度関数

X が正規分布 N(µ, σ2)に従うとき,X を標準化した Z =X − µ

σは N(0, 1),すなわち平均 0,分散 1の正規分布に

従い,これは標準正規分布 standard normal distributionと呼ばれる.標準正規分布の確率密度関数 f(z)と累積分

布関数 Φ(z)は

f(z) =1√2π

exp

(−z2

2

), Φ(z) =

∫ z

−∞

1√2π

exp

(−x2

2

)dx

と表される.累積分布関数については Φ(−z) = 1− Φ(z)が成り立つ.

この Φ(z)の値は,は多くの統計の教科書の巻末に与えられている正規分布表から知ることができる(Excel等を用い

て求めることも可能).よく用いられる値としては,Φ(1.645) ' 0.95, Φ(1.96) ' 0.975などがある.例えば標準化され

た Z =X − µ

σが標準正規分布 N(0, 1)に従うとき,Z の値が −k 以上 k 以下 (k > 0)である確率は

P (−k ≤ Z ≤ k) = P (Z ≤ k)− P (Z < −k) = Φ(k)− Φ(−k)

k = 2とすれば,P (−2 ≤ Z ≤ 2) = Φ(2)− Φ(−2) ' 0.975− (1− 0.975) = 0.95となる.このことから,Z の 95% 程

度は −2以上 2以下の範囲内に入ることがわかる.標準化する前の X でいうと,X の 95% 程度は µ− 2σ 以上 µ+ 2σ

の範囲内に入ることになる.

例 1. 確率変数X が正規分布N(9, 25)に従うとき,正規分布表を用いて P (3 ≤ X ≤ 21)を求めてみる.Z =X − 9

5が

標準正規分布 N(0, 1)に従うことから,

P (3 ≤ X ≤ 21) = P

(3− 9

5≤ X − 9

5≤ 21− 9

5

)= P (−1.2 ≤ Z ≤ 2.4) = Φ(2.4)− Φ(−1.2)

ここで,正規分布表より z = 2.4のとき Φ(2.4) ' 0.5 + 0.4918 = 0.9918. また,Φ(−1.2) = 1 − Φ(1.2)であり,正規

分布表より Φ(1.2) ' 0.5 + 0.3849 = 0.8849だから Φ(−1.2) ' 1 − 0.8849 = 0.1151. したがって,P (3 ≤ X ≤ 21) =

0.9918− 0.1151 = 0.8767となる.

21

例 2. 日本人 17歳男性の身長の分布は正規分布 N(172, 42)で近似できるとする.日本人 17歳男性の中から無作為に 1

人選んで身長を測定したところ,180cmであった.この男性よりも背が高い日本人 17歳男性は何 % 程度いるかを考え

る.選んだ男性の身長を X とすると,X は正規分布 N(172, 44)に従っている.P (X ≥ 180)を計算すればよく,

P (X ≥ 180) = P

(X − 172

4≥ 2

)= 1− Φ(2) ' 1− 0.975 = 0.025

となる.よって,日本人 17歳男性のうち身長 180cmより背が高い人は 2.5% 程度いることがわかる.

問 5.3. 偏差値 T は平均 50,標準偏差 10 に調整されている.T が正規分布 N(50, 102) に従うと仮定して,40 ≤ T ≤60, T ≤ 70, T ≥ 75, T ≤ 55, 50 ≤ T ≤ 51となる確率を求めよ.

問 5.4. 平成 25年度の国民健康・栄養調査によると,20代男性 257名での BMI (Body Mass Index, 体重 kg/身長 m2)

は,平均 22.65(kg/m2),標準偏差 4.01(kg/m2)であった.20代男性の BMIが N(22.65, 4.012)に従うと仮定し

て,20代男性のうち一般に肥満とされる BMI 25(kg/m2)以上の人は何% 程度いるだろうか.

一般に,二項分布 B(n, p) に従う確率変数 X は,n が十分大きいとき近似的に正規分布 N(np, np(1 − p)) に従う.

つまり,n が十分大きいとき二項分布 B(n, p) は正規分布 N(np, np(1 − p)) に近似できる.例えばさいころを n 回投

げたとき 1 の目が出る回数 X は二項分布 B(n, 1/6) に従い,期待値と分散はそれぞれ n/6, 5n/36 となる.n の値を

10, 20, 30, 50, 100 として二項分布 B(n, 1/6) の確率分布を折れ線グラフにしてみると下図のようになる.n が大きくな

るにつれて折れ線グラフが滑らかになり,正規分布の形状に近づいていく様子が見てとれる.

図 10 二項分布 B(n, 1/6)の折れ線グラフ

確率変数 X が二項分布 B(n, p)に従い nが十分大きいとする.このとき,二項分布が正規分布で近似できること,正

規分布に従う確率変数を標準化すれば標準正規分布に従うことから,次が成り立つ.

P (X ≤ a) ' Φ

(a− np√np(1− p)

)この近似を用いてよいとされる条件は,通常 np > 5かつ n(1 − p) > 5であることとされている.p = 1/2のときは n

が 10以上あればよいが,pが 0や 1に近いときには,非常に大きな nが必要となってくる.

例. さいころを 720回投げて 1の目が出る回数を X とする.このとき X が 100以下の値をとる確率が次のように求め

られる.X は二項分布 B(720, 1/6)に従うから,期待値は 120,分散は 100である.よって,Z =X − 120

10は近似的に

標準正規分布に従うと考えることができる.したがって,

P (X ≤ 100) = P

(X − 120

10≤ −2

)= P (Z ≤ −2) ' 0.025

となる(もう少し正確に計算すると 0.0228).

問 5.5. < 野球の打率 > 昨シーズンを 2 割 8 分の打率で終わった打者が,今シーズンもこの確率でヒットを打つものと

し,450打数であるとすると,3割バッターになれる確率はどれくらいか.(参考文献 [1]より)

22

6 母集団と標本

6.1 母集団と標本

統計的な調査では,調べたい対象全体からなる集団を母集団 populationと呼ぶ.例えば日本人の成人の意識調査を

行う場合は日本人の成人全体が母集団であり,大分県大学生の意識調査を行う場合は大分県の大学生全体が母集団とな

る.母集団全体を調査する場合を全数調査といい,国勢調査などがその例である.しかし,全数調査は通常多くの労力や

時間,費用を必要とするため,実施が困難である場合が少なくない.このような場合,母集団からその一部だけを抽出し

た標本 sample(または標本集団)を分析し,母集団についての推測をする,ということが行われる.これは統計的推測

と呼ばれる.

日本人の成人男性の身長を調べたいという場合,母集団は日本人の成人男性であり,この母集団における身長はあ

る分布をもっている.これを母集団分布という.身長の母集団分布から標本 X1, X2, · · · , Xn をランダムに選ぶとき,

X1, X2, · · · , Xn はこの母集団分布に従う確率変数と考えることができる.日本人の成人男性という集団は有限の集団で

あるから,X1 を選び出すときの分布と,X1 を選んで元に戻さず X2 を選び出すときの分布とは,厳密には異なる.し

かし日本人の成人男性という集団は十分に大きな集団であり,実質的にはこの違いは無視して差し支えない.そのため,

母集団は無限に大きな集団であると考えることにする.*3このとき,標本X1, X2, · · · , Xn は同一の母集団分布 f(x)に従

う n個の独立な確率変数である,ということができる.ここで nは標本の大きさ sample sizeという.

このように母集団分布を考えるとき,(i) 理論的・経験的にどのような分布であるかが事前に分かっている場合,(ii) ど

のような分布か事前にはわかっていない場合,の 2つの場合がある.(i)の場合は,その母集団分布を規定するいくつか

のパラメータがわかれば,母集団分布についてすべて知ることができる.このような場合はパラメトリックの場合と呼

ばれる.例えば母集団分布が正規分布であることがわかっている場合,標本 X1X2, · · · , Xn を用いて平均 µや標準偏差

σ を推定する.これに対し (ii)の場合は,いくつかのパラメータで母集団分布を決定することはできず,ノン・パラメト

リックの場合と呼ばれる.

6.2 標本の抽出

標本を分析することで母集団について推測するとき,その結果はどのようにして標本を抽出するかに大きく依存する.

このことに関する有名な事例として,1936年に行われた米国の大統領選挙がある.2つの会社が選挙結果を予想してお

り,一方のリテラシー・ダイジェスト社は 237万人もの有権者から誰に投票するかの回答を得て,共和党候補のカンザス

州知事であったアルフレッド・ランドンが当選すると予測した.もう一方のギャラップ社は 2万人を調査し,ルーズベル

トが再選されると予測した.選挙結果はルーズベルトの圧勝に終わり,結局リテラシー・ダイジェスト社は信用を失い倒

産となってしまっている.100倍以上もの人数を調査したにもかかわらずリテラシー・ダイジェスト社が予想を外してし

まった原因の 1つが,標本の抽出方法にあったとされている.まず,リテラシー・ダイジェスト社は有権者を探すのに自

社雑誌の購読者名簿,電話帳,自動車登録名簿から 1000万人を選んでおり,この時代の全有権者の中では経済的に恵ま

れた人に偏っていた.また,実際に調査に回答したのは 1000万人のうちの 24% 程度であったことも予想を外した原因

と考えられる.これに対しギャラップ社では,居住地,年齢,性別などが有権者全体の分布と似るようにして調査対象者

を選び出していたため,調査数が少なくても全国民の代表的意見を反映した結果になったと考えられる.

母集団から標本を選び出す方法はいくつかあり,最も基本的な方法に単純無作為抽出(単純ランダム・サンプリング)

と呼ばれるものがある.これは,母集団に含まれる各要素が抽出される確率をすべて等しくとる方法である.ただしこの

方法では,偶然に高齢の人が多く抽出されてしまったり,男性が多く抽出されてしまったりするなど,大きな偏りが生じ

てしまう可能性もある.このような場合には,事前に年齢をいくつかの層に分けたり,男性と女性に分けたりして層ごと

に無作為抽出する(層別無作為抽出という)など,偏りが生じないようにする様々な方法がある.

*3 この身長の例に限らず,以降では母集団は無限に大きな集団(無限母集団という)とする.ただし実際の調査で母集団の大きさが十分大きくない(有限母集団)場合は,有限母集団修正という修正が行われる.

23

6.3 標本平均と分散

母集団分布を規定するパラメータとして最もよく使われるのは母平均 µと母分散 σ2 である.それぞれ,離散型確率変

数の場合はµ =

∑x

xf(x), σ2 =∑x

(x− µ)2f(x)

連続型確率変数の場合は

µ =

∫ ∞

−∞xf(x)dx, σ2 =

∫ ∞

−∞(x− µ)2f(x)dx

で与えられた.これら母平均 µや母分散 σ2 を知るには,標本 X1, X2, · · ·Xn から得られる標本平均 sample meanや

標本分散 sample varianceが必要となる.

標本 X1, X2, · · · , Xn は母集団分布 f(x)に従う確率変数であるとするとき,標本平均は

X =X1 +X2 + · · ·+Xn

n=

1

n

n∑i=1

Xi

で与えられる.一般に,確率変数 X,Y に対して E(X + Y ) = E(X) + E(Y )が成り立ち,これを用いると

E(X) =E(X1) + E(X2) + · · ·+ E(Xn)

n=

µ+ µ+ · · ·+ µ

n=

n= µ

となる.つまり,標本平均の期待値は母平均に一致する.また,独立な確率変数X,Y に対し V (X+Y ) = V (X)+V (Y )

が成り立つことを用いると,

V (X) =1

n2V (X1 +X2 + · · ·+Xn) =

σ2 + σ2 + · · ·+ σ2

n2=

σ2

n

であることがわかる.つまり,標本の大きさ nを大きくするにつれて X の分散は 0に近づいていく.これは,nが母集

団の大きさ N に近づくにつれて標本平均 X が真の値 µに近づいていき,n = N となったとき µに一致することを意味

する.

標本分散は

s2 =1

n− 1(X1 − X)2 + (X2 − X)2 + · · ·+ (Xn − X)n =

1

n− 1

n∑i=1

(Xi − X)2

で定義される.「2.3. 散らばりの尺度」にでてきた分散は

S2 =1

n(X1 − X)2 + (X2 − X)2 + · · ·+ (Xn − X)n

であり,標本から計算すればこちらも標本分散である.s2 で n − 1が用いられている理由は,期待値が E(s2) = σ2 と

母分散に一致することによる.s2 は母分散 σ2 を過大あるいは過小に偏って推定することのない分散で,不偏分散ともい

う.これに対し,S2 は E(S2) =n− 1

nσ2 であり,母分散を過小評価している.nが十分大きければ s2 と S2 の値にほ

とんど違いは生じないが,n = 10程度なら 1割程度の過小評価が生じてしまうことになる.

6.4 大数の法則

コイン投げの実験を n回行ったときの表が出た回数X の割合(成功率)X/nを考えてみる.実験を行った結果得られ

る X/nの値は,表が出る真の確率 0.5を実験結果から推定したものである.一般的な統計ソフトには乱数を発生させる

機能があり,この機能を用いて仮想的な実験を行った結果が図 11である.nの値を 10から 10000まで 10ずつ増やして

仮想的な実験を何度も行い,そのときの成功率 X/nをプロットしている(このようにコンピュータで行う仮想的な実験

をコンピュータ・シミュレーションという).

実験回数 nが増えるにつれて,観測された成功率が真の値 0.5に近づく様子が見てとれる.このように,実験回数 n

が大きくなれば現実に観察される成功率が真の値に近づいていくことは,大数の法則と呼ばれる.ここでは二項分布の場

合の例を示したが,それ以外の確率分布の場合でも成り立つ.つまり大数の法則とは,標本の大きさを大きくするほど,

観察された標本平均は母集団の真の平均(母平均)に近づいていく,ということを意味する.

24

図 11 コンピュータによる仮想的コイン投げ実験の結果

6.5 中心極限定理

「5.3. 正規分布」で述べたように,二項分布は nが十分大きければ正規分布に近似することができた.このことはよ

り一般的に成り立つことが示されており,中心極限定理と呼ばれている.簡単にいうと,母集団分布が何であっても,

確率変数の和 X1 + · · · +Xn の確率分布は,nが十分に大きければ正規分布に近似することができる,ということであ

る.これは,母集団分布の平均と分散をそれぞれ µ, σ2 として,Xi (i = 1, · · · , n)が独立にその母集団分布に従うとするとき,母集団分布が何であっても標本の大きさ nが十分大きければ,おおよそX1 + · · ·+Xn は N(nµ, nσ2)に従い,

X = (X1 + · · ·+Xn)/nは N(µ, σ2/n)に従うと考えてよい,ということを意味する.

二項分布 B(n, p)の場合で考えると次のようになる.i回目 (i = 1, · · · , n)の実験が成功なら 1,失敗なら 0となるよ

うな確率変数を Xi とすれば,Xi は B(1, p)に従い,成功数 S は S = X1 + · · ·+Xn と表すことができる.

E(Xi) = p, V (Xi) = p(1− p)

であるから,中心極限定理によれば,nが十分大きいとき S は近似的に正規分布 N(np, np(1− p))に従うことになる.

7 推定

7.1 点推定

前節で述べたように,母集団を全て調べ上げることが困難である場合には,母集団から抽出された標本をもとに,母集

団分布を規定する母平均 µや母分散 σ2 などのパラメータを推定する.標本平均や標本分散は µや σ2 を標本から推定し

たものであり,このように母集団分布のパラメータを標本から推定したものを推定量という.通常,パラメータ θの推定

量は θなどと^(ハット)をつけて表す.例えば母平均 µの推定量である標本平均は

µ =X1 + · · ·+Xn

n

などと表される.また,X1 = x1, X2 = x2, · · · , Xn = xn が標本として与えられた場合にこれを代入して得られる具体

的な値は,推定値と呼ばれる.

母集団の未知パラメータ θを,標本を用いて1つの値 θで推定する方法を点推定という.標本平均 X は母平均 µを点

推定したものであり,標本分散 s2 は母分散 σ2 を点推定したものである.標本は母集団から確率的に抽出された一部の

集団であるから,点推定で得られる値は母集団の真の値に一致するわけではなく,いくらかの誤差を伴う.この点を考慮

して,幅をもたせて区間で母集団パラメータを推定する方法が,次の区間推定である.

25

最尤法 推定量を求める方法のうち,最もよく用いられるものに最尤法という方法がある.これは,「現実に得られた標本

は,確率最大のものが実現した」という仮定の下で推定量を求める方法である.例えば表のでる確率 pが不明の歪

んだコインがあり,n回コイン投げを行って表が x回でたとする.このとき,表がでる回数を X とすれば X は二

項分布 B(n, p)に従うと考えられ(ただし pは未知の値),P (X = x) = nCxpx(1− p)n−x である.この確率は未知

数 pの関数と考えることができるから,L(p) = nCxpx(1− p)n−x とおく.この関数が最大になるときの pが,最も

尤もらしい(もっともらしい)pの推定量である,と考える.L(p)が最大になるのは dL(p)/dp = 0となるときで

あり,このときの pは最尤推定量と呼ばれ p = x/nと求まる.ただし実際の計算では,L(p)(尤度関数という)そ

のものが最大になるときを考えるより,対数尤度 logL(p)が最大になるときを考える方が計算が容易となる.得ら

れる推定量はどちらの場合で計算しても同じとなる.なぜなら,d logL(p)

dp=

1

L(p)

dL(p)

dpであり,

dL(p)

dp= 0の

解とd logL(p)

dp= 0の解は一致するからである.

点推定の基準 推定量は 1つとは限らず,複数考えることができる.例えば母集団分布が正規分布 N(µ, σ2)であることが知られ

ているある変数について標本を抽出したとき,標本平均だけでなく中央値や幾何平均なども µの推定値の候補であ

る.しかしすべてが推定量として適当とは限らず,いくつかの基準を満たす必要がある.

1. 不偏性 θ は θ の推定量だから,θ の分布は真の値である θ のまわりに散らばっていなくてはならない.不偏

性とは,推定量の期待値をとった場合,E(θ) = θ となること,つまり平均的に過大でも過小でもない推定量

であることである.これを満たすような推定量は不偏推定量と呼ばれる.標本平均 X = (X1 + · · ·+Xn)/n

は母平均 µの不偏推定量である.標本分散 s2 は母分散 σ2 の不偏推定量であるが,1/nを用いている S2 は

不偏推定量ではない.

2. 一致性 標本の大きさ nが大きくなるにしたがって,推定量が真の値 θ に近づく性質のことである.推定量

は通常,モーメント法や最尤法といった方法で求められる.これらの方法で求められた推定量はほとんどの

場合,一致性を満たしている.

その他,漸近正規性,有効性などの性質がある. 7.2 区間推定

区間推定とは,母集団分布のパラメータ θがある区間に入る確率を 1− α以上になるように保証する方法であり,

P (L ≤ θ ≤ U) ≥ 1− α

となる確率変数 L,U を求めるものである.L,U はそれぞれ下側信頼限界,上側信頼限界と呼ばれる.また,1− αは信

頼係数と呼び,区間 [L,U ]を 100(1− α)%信頼区間 confidence intervalと呼ぶ.αの値は目的に応じて適当な値が

選ばれ,0.01, 0.05, 0.1などがよく用いられる.このときの信頼区間がそれぞれ 99%信頼区間,95%信頼区間,90%信

頼区間と呼ばれる.

標本は母集団から確率的に抽出されるから,同一の母集団から抽出された標本であっても異なる標本になっている.し

たがって,標本から計算される点推定値や信頼区間も標本ごとに異なるものとなる.例えば母集団から 100回の無作為

抽出を行って 100個の標本を得たとしたら,100個の標本ごとに異なる点推定値,95%信頼区間が得られる.95%信頼

区間の意味は,100個の 95%信頼区間のうち,95個くらいは母集団における真の値 θ を区間内に含んでいる,というこ

とである.90%信頼区間を作った場合には,100個の 90%信頼区間のうち 90個くらいは θ を区間内に含んでいる,と

いうことである.

以下,母集団分布が正規分布の場合の母平均 µ,二項分布の場合の母比率 pについて,最もよく使われる 95%信頼区

間を作る方法を考える.

26

7.2.1 正規母集団の母平均 µについての区間推定

母集団分布が正規分布 N(µ, σ2)であるとする.この母集団から大きさ nの無作為標本 X1, X2, · · · , Xn が得られたと

して,母平均 µを標本から推定することを考える.

まず,正規分布において次の性質が成り立つ.

i) X が正規分布 N(µ, σ2)に従うとき,aX + bは N(aµ+ b, a2σ2)に従う.

ii) X,Y がそれぞれ独立に正規分布N(µ1, σ21), N(µ2, σ

22)に従うとき,X+Y はN(µ1+µ2, σ

21+σ2

2)に従い,X−Y

は N(µ1 − µ2, σ21 + σ2

2)に従う.

いま,X1, X2, · · · , Xn は互いに独立に正規分布 N(µ, σ2) に従うから,性質 ii) により X1 + X2 + · · · + Xn は

N(nµ, nσ2)に従う.したがって,標本平均 X = (X1 +X2 + · · ·+Xn)/nが従う分布は性質 i)によりN(µ, σ2/n)とな

る.これにより X の標準偏差は σ/√nであることがわかる.このことは,次のことを意味する.

(a) 標本の大きさ nが増加するにしたがって,標本平均 X は正規母集団の母平均 µのより正確な推定値となる.

(b) 推定の誤差は 1/√nのオーダーでしか減少しない.すなわち,X で µを推定する場合,推定の正確さを 2倍にす

るためには(σ/√nを 1/2にするには)nを 4倍にすればよく,正確さを 10倍にするためには(σ/

√nを 1/10

にするには)nを 100倍にすればよい.

X は正規分布 N(µ, σ2/n)に従うのだから,X を標準化した変数を Z とすると

Z =X − µ

σ/√n

であり,Z は標準正規分布 N(0, 1)に従う.つまり,σ2 の値が分かっていれば正規母集団からの標本平均 X は標準正規

分布 N(0, 1)に従う.N(0, 1)において,Φ(z) = 1− αとなるような z を Zα と表す.例えば Φ(z) = 0.975となるよう

な z は Z0.025 ' 1.96であり,Φ(z) = 0.95となるような z は Z0.05 ' 1.65である.この記法を用いると,

P

(−Zα/2 ≤ X − µ

σ/√n

≤ Zα/2

)= 1− α

が成り立つ.カッコ内を µについて解けば

P

(X − Zα/2

σ√n≤ µ ≤ X + Zα/2

σ√n

)= 1− α

となる.すなわち,正規母集団(ただし σ2 は既知)における母平均 µの信頼係数 1− αの信頼区間(100(1− α)%信頼

区間)は [X − Zα/2

σ√n, X + Zα/2

σ√n

]となる.最もよく用いられる 95%信頼区間は[

X − 1.96σ√n, X + 1.96

σ√n

]となる.

* σ2 が未知のときには,これを不偏分散 s2 =1

n− 1

∑ni=1(Xi − X)2 で推定してその代わりとする.この場合には

√n(X − µ)/sが従う分布を考えることになるが,これは標準正規分布ではなく,自由度 n− 1の t分布と呼ばれ

る分布に従う.nが十分大きいときは t分布は標準正規分布に近似できるという事実があり,この場合は標準正規

分布を用いてもほとんど変わらない信頼区間を作ることができる.本講義ではこれ以上の詳細は取り上げないの

で,σ2 は既知であるか,nは十分に大きいと考えてよい.

例 1. 「2. データの要約と整理-記述統計-」で与えた男性(生徒番号 1-50)の数学の試験データについて,これが母集団

であるとする.数学の得点は正規分布に従っていると仮定し,分散 240.7は既知であるとする.生徒番号 1から

27

5の学生が無作為標本として選ばれたとすると,標本平均は X = (72 + 40 + 87 + 66 + 75)/5 = 68となるから

95%信頼区間は[X − 1.96

σ√n, X + 1.96

σ√n

]=

[68− 1.96×

√240.7

5, 68 + 1.96×

√240.7

5

]= [54.4, 81.6]

となる.

例 2. 「2. データの要約と整理-記述統計-」で与えた男性(生徒番号 1-50)の数学の試験データについて,これが母集

団からの標本であるとする.n = 50は十分大きいと考えれば,50人の標本平均 58.34,不偏分散 245.6を用いて

95%信頼区間は[X − 1.96

σ√n, X + 1.96

σ√n

]=

[58.34− 1.96×

√245.6

50, 58.34 + 1.96×

√245.6

50

]= [54.0, 62.7]

となる.(*)で述べた t分布を用いる場合,自由度 49の t分布を考えて [53.9, 62.8]となる.

問 7.1. 平成 25年度の国民健康・栄養調査によると,20代男性 257名でのBMI (体重 kg/身長m2)は,平均 22.65(kg/m2),

標準偏差 4.01(kg/m2)であった.20代男性の BMIが正規分布に従うと仮定して,平均の 95%信頼区間を求めよ.

問 7.2. 母分散 σ2 = 9の正規母集団から大きさ nの標本を抽出し,母平均 µの 95%信頼区間を求めたい.その幅を 1以

下にするには,nをいくつ以上にしたらよいか.

7.2.2 二項母集団の母比率 pについての区間推定

母集団分布が B(1, p)であるとする.この母集団から大きさ nの無作為標本 X1, X2, · · · , Xn が得られたとして,母比

率 pを標本から推定することを考える.

母比率 pの点推定値は p = X =∑

i Xi/nで与えられる.∑

i Xi は二項分布 B(n, p)に従うが,このことから直接 p

の信頼区間を求めることは,nが大きいときには難しい.そのため,nが大きいときは二項分布を正規分布に近似して信

頼区間を作る.

nが大きいときは∑

i Xi は近似的に正規分布 N(np, np(1− p))に従い,したがって (∑

i Xi − np)/√

np(1− p)は近

似的に標準正規分布に従う.よって

P

(−Zα/2 ≤

∑i Xi − np√np(1− p)

≤ Zα/2

)' 1− α

であり,p =∑

i Xi/nとして pについて解くと

P

(p− Zα/2

√p(1− p)

n≤ p ≤ p+ Zα/2

√p(1− p)

n

)' 1− α

となる.pは未知であるからこのままでは信頼区間は計算できないが,nが十分大きいときは点推定値 pが pにほとんど

等しいと考えてよく,

P

(p− Zα/2

√p(1− p)

n≤ p ≤ p+ Zα/2

√p(1− p)

n

)' 1− α

とできる.したがって,二項母集団における母比率 pの 100(1− α)%信頼区間は,近似的に[p− Zα/2

√p(1− p)

n, p+ Zα/2

√p(1− p)

n

]で求められる.

問 7.3. 二項母集団 B(1, p)から大きさ n = 100の標本を抽出したら,成功が 54であった.pの 95%信頼区間を求めよ.

問 7.4. 選挙の出口調査で,投票を済ませた有権者 100人に投票した候補者を質問したところ,40人が候補者 Aに投票し

たと答えた.この投票区での投票者全体を母集団として 100人を無作為抽出したと考えて,候補者 Aの得票率 p

の 95%信頼区間を求めよ.また,95%信頼区間の幅が点推定値 40%に対して ±5%となるには,標本の大きさ n

はどれくらいにすればよかったか.

28

8 仮説検定

8.1 検定の考え方

例えば,表がでる確率が 0.5よりも小さいと予想される歪んだコインがあり,10回のコイン投げの実験を行って本当

に 0.5より小さいかを確かめたいとする.実験を行った結果,表が 1回でたとき,表のでる確率が 0.5より小さいといっ

てよいだろうか?

もしも表のでる確率が 0.5であるなら,表のでる回数 X は下図の様な二項分布 B(10, 0.5)に従う.

このとき,表のでる回数が 1回の確率は

P (X = 1) = 10C10.51 · 0.59 = 0.0098

である.これ以上に極端な結果が観察される確率,つまり表のでる回数が 1回以下である確率は

P (X ≤ 1) = P (X = 0) + P (X = 1) = 0.0107

となる.このことは,表のでる確率が 0.5 であるとしたときには,表のでる回数が 1 回以下であるということは確率

1.07%程度でしか起こらないということを意味する.確率 1.07%という数値がめったに起こらない稀な現象を意味する

と考えてよいとすると,そのような稀な現象が偶然起こったと考えるよりも,表のでる確率が 0.5であるとしたはじめの

仮定がそもそも間違いであった,と考えるのが仮説検定 hypothesis testingの基本的な考え方である.つまり統計的

な仮説検定は,(確率的な)背理法の考え方を用いたものである.

8.2 検定の手順

仮説検定の手順を一般的に述べると次のようになる.

1) 帰無仮説 H0 と対立仮説 H1,有意水準 αを設定する(データを得る前に).

2) 検定統計量,p値を算出する.

3) p値 < αであれば帰無仮説H0 を棄却して対立仮説H1 を採択し(有意 significantであるという),p値 ≥ αで

あれば帰無仮説を採択する.

帰無仮説は否定したい仮説であり,対立仮説は期待する仮説である.10回のコイン投げ実験の例でいえば,示したいこ

とは表のでる確率 pが 0.5より小さいということだから,帰無仮説と対立仮説は

H0 : p = 0.5 (または p ≥ 0.5) H1 : p < 0.5

と表すことができる.帰無仮説 H0 の下で計算された確率 1.07%は稀な現象と考えたが,一般にどの程度の稀な確率を

考えるかによって有意かどうかが変わりうる.この基準となる確率を有意水準 αと呼び,慣例的に 5%や 10%などが多

く用いられている.検定統計量や p値は帰無仮説を仮定したもとでデータから計算される数値である.10回のコイン投

げ実験の例における p値とは P (X ≤ 1|H0) = 0.0107という値であり,一般に帰無仮説の仮定の下で,検定統計量が観

29

測された値と同じかそれ以上に極端な値をとる確率である.計算された p値が有意水準 αよりも小さいとき,帰無仮説

を棄却(否定)して対立仮説の方が正しいと判断する.逆に p値が有意水準 α以上のとき,帰無仮説を否定する根拠は

得られなかったと判断する.10回のコイン投げ実験の例で事前に α = 0.05と設定していたら,0.0107 < 0.05だから帰

無仮説を棄却して表のでる確率は 0.5よりも小さいと判定できる.α = 0.01と設定していた場合には,0.0107 > 0.01だ

から帰無仮説を採択して表のでる確率は 0.5よりも小さいとはいえなかったと判断する.

正規母集団における母平均についての 1標本検定

正規母集団における母平均 µについて,ある値 µ0 と異なるかどうかを有意水準 αで検定したいとする.ただし母分

散 σ2 は既知であるとする.この場合の仮説は

H0 : µ = µ0 H1 : µ 6= µ0

と表すことができる.このように対立仮説を設定して行われる検定は両側検定と呼ばれる.これに対し,対立仮説を

H1 : µ > µ0 や H1 : µ < µ0 などと設定したら片側検定と呼ばれる.本講義では両側検定のみを考えることにする.

大きさ n の標本 (X1, X2, · · · , Xn) が得られたとき,帰無仮説が正しいと仮定したら標本平均 X は正規分布

N(µ0, σ2/n)に従う.よって

Z =X − µ0

σ/√n

は帰無仮説が正しければ標準正規分布 N(0, 1)に従うことになる.この Z がこの検定における検定統計量である.もし

も帰無仮説が正しければ,Z は高い確率で 0に近い値をとるはずであるが,帰無仮説が間違いであれば 0からはかけ離

れた値をとる可能性が高くなる.つまり,有意水準 α で両側検定する場合は |Z| > Zα/2 のときに帰無仮説を棄却し,

|Z| ≤ Zα/2 のときは帰無仮説を棄却しなければよい.Z の具体的な値が z であった場合,p値は P (|Z| ≥ |z| | H0)で計

算できる.この値が有意水準 αより小さければ帰無仮説を棄却し,そうでなければ帰無仮説を棄却しないことになる.

* σ2 が未知である場合はデータから計算される標本分散 s2 を用いる.このときの検定統計量はX − µ0

s/√nであり,

自由度 n− 1の t分布という分布に従う(t検定と呼ばれる).標本の大きさ nが十分大きいときは t分布は標準

正規分布に近似できる.本講義では σ2 は既知の場合であるか,または nが十分大きいと見なしてよいとする.

例 1.「2. データの要約と整理-記述統計-」で与えた男性(生徒番号 1-50)の数学の試験データについて,これが母集団

であるとする.また,数学の得点は正規分布に従っていると仮定し,分散 240.7は既知であるとする.この母集団

の平均(µ = 58.34)は未知であり,無作為に 5人を抽出して µが 50と異なるかどうか,有意水準 5%で検定し

たいとする.まず仮説はH0 : µ = 50 H1 : µ 6= 50

と設定できる.生徒番号 1から 5の学生が無作為標本として選ばれたとすると,標本平均は X = (72+ 40+ 87+

66 + 75)/5 = 68となるから検定統計量は

z =68− 50√240.7/5

' 2.594

となる.有意水準 5%の両側検定では Zα/2 = Z0.05/2 = 1.96だから,z = 2.594 > 1.96となって帰無仮説は棄却

される.p値で考えれば,

P (|Z| ≥ 2.594) = P (Z ≤ −2.594, Z ≥ 2.594) = P (Z ≤ −2.594) + P (Z ≥ 2.594)

= Φ(−2.594) + 1− Φ(2.594) = 2[1− Φ(2.594)] ' 2(1− 0.9952) = 0.0096

となり,帰無仮説は棄却される.したがって,母平均 µは 50とは有意に異なると判定される.

例 2. 平成 25年度の国民健康・栄養調査によると,20代男性 257名での BMI (Body Mass Index, 体重 kg/身長 m2)

は,平均 22.65(kg/m2),標準偏差 4.01(kg/m2)であった.日本の 20代男性における BMIの平均が 23kg/m2 か

どうかの両側検定を有意水準 5%で行うとする.n = 257は十分大きく正規分布を利用できるとして,検定統計

量は

z =22.65− 23

4.01/√257

' −1.399

30

と計算できる.|z| = 1.399 < 1.96であること,また p値が

P (|Z| ≥ 1.399) = P (Z ≤ −1.399, Z ≥ 1.399) = P (Z ≤ −1.399) + P (Z ≥ 1.399)

= Φ(−1.399) + 1− Φ(1.399) = 2[1− Φ(1.399)] ' 2(1− 0.91924) = 0.16152

で 5%より大きいことから,帰無仮説は棄却されない.すなわち,BMIの平均が 23kg/m2と異なるとはいえない.

* 例 2 のように有意でないという結果が得られた場合,帰無仮説を採択するが,帰無仮説が正しいことが示され

たというわけではないことに注意する.例 2 では,BMI の平均が 23kg/m2 であることが示されたのではなく,

23kg/m2 と異なるとはいえなかった,という解釈になる.仮説検定では,有意な結果が得られたときのみ対立仮

説を積極的に支持することができる.

問 8.1.「2. データの要約と整理-記述統計-」で与えた統計学の試験データについて,これがある母集団から得られた 100

人からなる無作為標本であるとする.試験の得点は正規分布に従っていると仮定し,n = 100は十分大きいとし

て,母平均が 60 点と異なるかどうかを有意水準 5% で両側検定せよ.ただし,標本平均は 69.01,標本分散は

211.95である.

二項母集団における母比率についての 1標本検定

10回のコイン投げ実験の例は二項分布を用いたものであり,二項検定と呼ばれる.ここでは,nが十分に大きくて二

項分布を正規近似できる場合の母比率 pについての検定を考える.

二項母集団における母比率 pについて,ある値 p0 と異なるかどうかを有意水準 αで検定したいとする.この場合の仮

説はH0 : p = p0 H1 : p 6= p0

と表すことができる.大きさ nの標本 (X1, X2, · · · , Xn)が得られたとすると,各 Xi (i = 1, · · · , n)は 0または 1の値

をとり,帰無仮説が正しければ独立に B(1, p0)に従っていることになる.Sn = X1 + · · · +Xn とおけば,これは“成

功”の総数を表し,帰無仮説が正しいときには二項分布 B(n, p0)に従う.nが十分大きければこの二項分布は正規分布

N(np0, np0(1− p0))に近似できる.したがって

Z =Sn − np0√np0(1− p0)

=p− p0√

p0(1− p0)/n

(p =

Sn

n

)は,帰無仮説が正しいときに標準正規分布 N(0, 1)に従う検定統計量となる.あとは正規母集団のときと同じ手続きによ

り検定を行うことができる.

例. ある疾患を有する患者に標準的な治療薬を投与すると,50%の患者が改善することがわかっている.新しい薬が

開発され,100人の患者に対してこの薬を投与して有効性を有意水準 5%の両側検定で示したいとする.仮説は

H0 : p = 0.5 H1 : p 6= 0.5

と表すことができる.60人の患者で改善が見られたとしたら,検定統計量は

Z =0.6− 0.5√

0.5× 0.5/100= 2.0

と計算される.p値は

P (|Z| ≥ 2.0) = 2[1− Φ(2.0)] ' 2(1− 0.97725) = 0.0455

となるから,帰無仮説は棄却される.改善率の推定値が 60/100 = 0.6で標準薬より大きい値だから,新しい薬の

改善率は標準薬よりも有意に高いといえる.

問 8.2.「2. データの要約と整理-記述統計-」で与えた数学の試験データについて,これがある母集団から得られた 100人

からなる無作為標本であるとする.60点以上を合格とすると,54名が合格している.n = 100は十分大きいとし

て,母集団における合格率が 0.5と異なるかどうか,有意水準 5%で両側検定せよ.

31

8.3 2種類の誤りと検出力

仮説検定は,有意水準 αを設けて確率的に帰無仮説が否定されるかどうかを判断する方法である.確率に基づいてい

るから,誤った判断をしてしまう可能性もある.検定における誤りには次の 2種類がある.

i) 第 1種の誤り (αエラー): 帰無仮説が正しいのに対立仮説を採択してしまう誤り.

ii) 第 2種の誤り (β エラー): 対立仮説が正しいのに帰無仮説を採択してしまう誤り.

この 2種類の誤りをおかす確率を小さくする検定がよい検定である.しかし標本の大きさ nが一定の下では 2つを同時

に小さくすることはできない.

仮説検定では事前に有意水準 αが設定されるが,これは第 1種の誤りをおかす確率を αより小さく制御することを意

味する.例えば有意水準を 5%と設定した場合は,第 1種の誤りをおかす確率は 5%より小さくなるように制御される.

もしも p値が有意水準 αよりも小さくなったら,積極的に対立仮説が正しいと主張することができる(第 1種の誤りが

生じている可能性は最大で α程度あるが).

これに対し,仮説検定の手順において第 2種の誤りは制御されていない.これは,帰無仮説を採択した場合に本当に帰

無仮説が正しいのか,第 2種の誤りであるのかを確率的に判断することはできないということである.そのため,帰無仮

説を採択した場合には「帰無仮説が正しい」ではなく,「対立仮説が正しいとはいえなかった」,「帰無仮説は否定できな

かった」などといった解釈になる.第 2種の誤りを制御する場合,第 2種の誤りの確率,または第 2種の誤りを犯さない

確率(対立仮説が正しいときに対立仮説を採択する確率 1− β.検出力 powerと呼ばれる)を事前に設定して,標本の

大きさ nを設定することが必要となる.

32


Recommended