49
確確確確確 2009 平平 20 平 1 平 7 平 ( 平 ) 平平平平平平 平平平平 確確確 Version 3

確率と統計 2009

  • Upload
    cyndi

  • View
    53

  • Download
    1

Embed Size (px)

DESCRIPTION

確率と統計 2009. 平成 20 年 1 月 7 日 ( 木 ) 東京工科大学 亀田弘之. 修正版 Version 3. 復習. はじめにデータありき. 5. 9. 2. 8. 1. 6. 1. 1. 4. 2. 7. 社会調査や実験の実施 により得られる. データを全体として眺めるとき, 集団として 何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を , 例えば, ( 算術 ) 平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた.. 定義や計算方法が重要. - PowerPoint PPT Presentation

Citation preview

Page 1: 確率と統計 2009

確率と統計 2009

平成 20年 1 月 7 日 ( 木 )東京工科大学

亀田弘之

修正版 Version 3

Page 2: 確率と統計 2009

復習

2

Page 3: 確率と統計 2009

はじめにデータありき

59

68

1 4

社会調査や実験の実施により得られる3

Page 4: 確率と統計 2009

データを全体として眺めるとき,集団として何らかの性質を持っている.

=>統計的性質この性質(分布の様子)を , 例えば,( 算術 ) 平均・中央値・モードなどのいわゆる代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた.

定義や計算方法が重要.統計ソフトの利用も考えよう.4

Page 5: 確率と統計 2009

統計ソフトウェア

EXCEL :お手軽?R :フリーソフトウェア(お勧め?)SPSS :本格的なソフトウェア(有償)SAS :本格的なソフトウェア(有償)

GnunPlot ・ Maxima なども便利(いろいろと学んでください.)

参考情報

日本計算機統計学会のページも参考にしてください。

http://www.jscs.or.jp/etc/softdata.html5

Page 6: 確率と統計 2009

基本的な統計量

平均中央値モード最大値・最小値範囲分散標準偏差 など

6

Page 7: 確率と統計 2009

平均

定義 : m =(x1 + x2 + ・・・ +Xn)÷n

意味:データ群の中心考え方:データ群の中心で,データ群    を代表させる.(代表値)特徴:量

の最小値を与える点.  (基準点としてふさわしい)

222

21 )()()( mxmxmxT n

7

Page 8: 確率と統計 2009

中央値定義:データを大きさの順に並べたときに   中央にくるデータ値.意味:順序的観点から真ん中辺り.考え方:順序的観点から中庸を捉えている.    真ん中辺りを代表値とする.特徴:飛び離れ値に影響されない.   量   の最小値を与える点.

|||||| 21 MxMxMxT n

8

Page 9: 確率と統計 2009

モード

定義:度数(出現回数)がもっとも   多いデータ値.意味:多数派がデータ群を代表する.考え方:度数の多いもの程重要.特徴:飛び離れ値に影響されない.   代表値として素直な定義.

9

Page 10: 確率と統計 2009

データの散らばりも大切

分散標準偏差範囲

10

Page 11: 確率と統計 2009

範囲(レンジ)

定義: R = 最大値 ー 最小値考え方:データの存在範囲    (すべてのデータはこの          範囲内にある)特徴:計算が簡単   (工場などで実用されている)

11

Page 12: 確率と統計 2009

分散

定義:

考え方:「各データの平均 m からのずれ」に着目して,その平方数の平均を求め,データ全体の散らばりを捉える.特徴:数学的に取り扱いやすい.

n

mxmxmx n22

22

1 )()()(

12

Page 13: 確率と統計 2009

標準偏差

定義:分散の平方根(√分散)考え方:分散をもとに,データと同じ    次元の量にする.特徴:データに対して,足したり   引いたりすることができる.

13

Page 14: 確率と統計 2009

以上で,得られたデータ群の特徴をとらえることができるようになった.

14

Page 15: 確率と統計 2009

さて,…

15

Page 16: 確率と統計 2009

知りたい対象(母集団)

61

3 5

母集団母集団

16

Page 17: 確率と統計 2009

61

3 5

標本標本母集団母集団

無作為抽出無作為抽出

17

Page 18: 確率と統計 2009

61

3 5

標本標本母集団母集団

統計的分析統計的分析

18

Page 19: 確率と統計 2009

61

3 5

標本標本母集団母集団

統計的推論統計的推論

19

Page 20: 確率と統計 2009

抽出法

無作為抽出法:どのデータも等確率で抽出されるようなサンプリング法.どの単純事象も等確率で取り出される抽出法. Laplace の確率の定義参照.高校で習った確率の定義で OK .詳しく知りたい人は,社会調査法などの勉強をしてください.(データは適切に集めなければ,分析しても意味がない.サンプル数の決め方なども重要です.)

20

Page 21: 確率と統計 2009

分析法

統計的推定統計的検定

 この授業では「モデルに基づく分析」を主に取り扱っているが,近年モデルに基づかない分析法も重要になっている.(例:データマイニングの分野)

21

Page 22: 確率と統計 2009

統計的推定

点推定区間推定信頼区間信頼限界

 興味のある人は,教科書 p.136~p.142 を参照のこと.

22

Page 23: 確率と統計 2009

統計的検定

この授業では,まず,これを学んで欲しいと思っています.(理由:とにかく役に立つから.    そして,なれないと結構    難しいから.)

23

Page 24: 確率と統計 2009

仮説検定の考え方

前提:調査や実験によりある事実 E が得られた.この事実からあることを主張したい.(これを仮説という.)

方法論:モデルを仮定する(仮説設定:帰無仮説 H0)その仮説が正しいとして,事実 E の生起確率 p を計算する.p の値が異常に小さければ,仮説 H0を棄却する.(誤謬法の考え方)

24

Page 25: 確率と統計 2009

検定の考え方の例

実験:サイコロを 600 回振ったら,1の目が180 回出た(事実 E ).主張したいこと:1の目が出やすい.仮説の設定:どの目も等確率で出る.E の生起確率 p の計算:p 0≒判断:出易い.

0600

600600

418182

182600

419181

181600

420180

180600

6

5

6

1

6

5

6

1

6

5

6

1

6

5

6

1

CC

CCp

計算方法と判断の基準の理解が重要25

Page 26: 確率と統計 2009

(重要 )確率分布の相互関係図

26

Page 27: 確率と統計 2009

例題(教科書 p.163例1)

 ある市役所ではこれまで数年間銘柄 A の電球を購入していたが,銘柄 B の電球の方が価格が安いので Bへの切り替えを考えている.銘柄 B のセールスマンは自社の製品が品質において A の製品と同じであると主張している.数年間の経験によれば,製品 A の平均寿命は 1180時間で,標準偏差は 90時間であった.

27

Page 28: 確率と統計 2009

製品 B のセールスマンの主張をテストするため,その銘柄の電球 100個を正規販売店から購入して試験をした.この結果, m=1140,s=80 が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?

28

Page 29: 確率と統計 2009

問題の整理

事実:製品 B の m=1140,s=80   製品 A の m=1180,s=90知りたいこと: B の方が劣っている.仮説: A と B は品質的に同等.確率の計算: B のデータの生起確率 p を,平均 μ=1180, 分散 σ2=90^2 の母集団からの抽出として計算する.危険率(有意水準) α を設定する.Α =10%とする.

29

Page 30: 確率と統計 2009

確率の計算をしてみよう

30

Page 31: 確率と統計 2009

理論的根拠(1)

標本平均の平均 m は母平均と等しい.標本平均の分散 σm

2は母分散のn分の1倍. (n は標本の大きさ )

つまり,E(m) = μ

E(σm2)=σ2/n

31

Page 32: 確率と統計 2009

理論的根拠(2)

xが平均 μ ,分散 σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均 m は,nが限りなく大きくなるとき,平均 μ ,分散 σ2 /n の正規分布に近づく.

中心極限の定理(統計学で1番重要な定理)

中心極限の定理(統計学で1番重要な定理)

教科書 p.130 定理2教科書 p.130 定理232

Page 33: 確率と統計 2009

計算

標本平均の分散:90/√100 = 9

標準化:Z = (1140 – 1180) / 9 = -40/9 = -4.4

標準正規分布表(教科書 p.295 表 IV ):

  Z がー∞~- 4.4 の範囲の値をとる確率は, p 0≒ .

33

Page 34: 確率と統計 2009

判断

確率 p≒0 < 0.1 (10%) .おきにくい事が起きたのではなく,仮設が間違っていると考えて,仮設を捨てる.最終結論:有意水準 10%において,     銘柄 B は A よりも劣っている.

34

Page 35: 確率と統計 2009

コメント

確率の計算方法を理解するためには,数学の勉強が必要であるが,検定をすることが目的の場合,基本的考え方と手順をしっかりとマスターすればよい.理論的なものは,必要に応じて,必要になったものだけを一生かけて勉強してください.

35

Page 36: 確率と統計 2009

χ2検定

いろんな場面で使えて便利な検定法.(先ほどのサイコロの例を再び取り上げてみる.)

36

Page 37: 確率と統計 2009

1の目が出る回数

他の目が出る回数

実測値 A 180 420 600

理論値 B 100 500 600

(A-B)2/B 64 64/5 合計76.8

自由度 φ= 2-1=1 37

Page 38: 確率と統計 2009

χ2 = 76.8 >  χ02 = 6.6( 有意水準 1%)

結論:有意水準1%のもとで,1の目は出やすい.

手法は異なっても結論は同じ手法は異なっても結論は同じ38

Page 39: 確率と統計 2009

2つの平均の差の検定

先の電球 A , B の品質の差の問題を再度取り上げる.これは2つの平均同士に差があるかどうかの検定と考えることもできる.これを「2つの平均の差の検定問題」という.

教科書 p.172~ p.17639

Page 40: 確率と統計 2009

定理

x1,x2がそれぞれ独立に平均 μ1,μ2,標準偏差 σ1,σ2の正規分布に従うとき,変数x1-x2 は

平均 μ1ー μ2,標準偏差 σx1-x2 = √(σx1

2+ σx22)

= √(σ12/n1 + σ2

2/n2)

   の正規分布に従う. 40

Page 41: 確率と統計 2009

仮説: A の平均と B の平均とは等しい.計算:変数 x1-x2 は,

平均 = 0標準偏差 = √ ( 90*90/100 + 80*80/100 ) = 12

の正規分布に従う.Z = (1140-1180)/12=-40/12=-10/3=-3.3Z がー 3.3 以下か+ 3.3 以上になる場合の正規分布曲線の面積を求めると,表 VI より, p 0≒結論: A と B の平均の差は同じではない.

41

Page 42: 確率と統計 2009

コメント

「2つの平均の間に差があるのか?」はしばしば問題となるので,この検定方法は役に立つ.ただし今の場合,母分散 σ1,σ2 が既知である.これらが既知でない場合はもう一工夫が必要となる.( t検定を導入する必要がある.)

42

Page 43: 確率と統計 2009

練習問題

43

Page 44: 確率と統計 2009

Problem1

さいころを 180 回投げて、1の目の出る確率が 28 回以上、 34 回以下である確率を求めよ。

44

Page 45: 確率と統計 2009

ヒント

1. B(n,p) の二項分布は、 n が十分大きければ、平均 np, 分散 np(1-p) の正規分布で近似できる。

2. N(μ, σ2) の正規分布は、標準化変換Z = (X – μ)/σ により、標準正規分N(0, 1) に変換される。 

45

Page 46: 確率と統計 2009

Problem2

1つのさいころを 120 回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準 5% で検定せよ。

目の数 1 2 3 4 5 6 合計

出現回数 19 31 17 23 11 19 120

46

Page 47: 確率と統計 2009

Problem3

ある町で無作為に選ばれた 618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準 5% で検定せよ。

罹病   健康  合計

予防接種した

予防接種せず

 4   354

 9   251

 358

 260

   計 13   605  61847

Page 48: 確率と統計 2009

Problem4結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか? ただし、有意水準 5% 。

学歴      結 婚 に 対 す る 適 応 性非常に低い  低い   高い  非常に高い

大学卒高校卒小中学卒

18      29   70   11519      28   30    4111     10   11    20

 232 116  52

計 46     67  111   176  40048

Page 49: 確率と統計 2009

ヒント

学歴      結 婚 に 対 す る 適 応 性非常に低い  低い  高い  非常に高い

大学卒高校卒小中学卒

27     39    64  10213     19    32   51 6      9    14   23

 232 116  52

計 46     67   111  176  400

I. 理論値

II. 自由度 φ = ( 行数 ー 1)× (列数 ー 1)     = (3-1 ) ・ (4 ー 1)     = 6III. 計算値 χ2 = 20.7  >   χ02 = 12.6

49