K040 確率分布とchi2分布

1

情報統計学

確率分布独立性

期待値と分散正規分布20120525 一部修正

2確率

• Aという結果が起きる確率→ Pr(A)と書く。

3確率分布

• 確率分布その結果がどんな確率で起きるかをまとめたもの

離散型分布

連続型分布• 特定の値 aを取る確率は 0

• 幅をつけて考える

4 累積分布関数 Cummulative Distribution Function, CDF

• 定義確率変数 Xに対して

を確率変数 Xの累積分布関数という。• 確率密度関数

累積分布関数 F(x)が微分可能なとき，導関数

を確率変数 Xの（確率）密度関数 (probability density function, pdf)という。

確率密度関数があるときには，

5分布関数の性質

6関数のグラフ

• Rで関数のグラフを書く。確率密度関数累積分布関数

• curve curve(関数名 , 左端 ,　右端 ) curve(sin, 0, 2*pi)

0 1 2 3 4 5 6

-1.0

-0.5

0.0

0.5

1.0

x

sin

(x)

• curve variation curve(sin, 0, 2*pi) curve(cos, 0, 2*pi) curve(sin, 0, 2*pi, add=T) curve(sin, 0, 2*pi, add=T, col=“red”)

plot(sin, 0, 2*pi)

7関数を探す

• 正規分布 (normal distribution)

• 関数名に Normalが付くものを探すhelp.search(“Normal”)

• Normalの中に関連するものがありそうhelp(“Normal”)で使い方をみるまたは ?Normal

でもよい。

8分布に関連する関数

• 分布名正規分布 normｔ -分布 tカイ 2乗分布 chisqF分布 f一様分布 unif二項分布 binomポアソン分 poi

• 関数名の頭文字p分布名分布関数

Pr(X<x)d分布名密度関数density function

q分布名分位点quantile

r分布名乱数 random number

9標準正規分布 (standard Normal Distribution)

• 累積分布関数

• 確率密度関数

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

pn

orm

(x)

curve(pnorm, -4, 4)

curve(dnorm, -4, 4)

正規分布表の使い方

• 数表は「標準正規分布」 Z～ N(0,1)

Pr(Z<0.91)

11

下側 α点qnorm関数qnorm(0.025, lower.tail = F) qnorm(0.025)

標準化、偏差値• 標準化

• 偏差値

12

)1,0(~),(~ 2 NX

ZNXσ

µσµ −=⇒

)10,50(~5010

),(~

2

2

NX

NX

+×−=⇒σ

µσµ

偏差値

演習

• Z～ N(0,1)、 X～ N(158,25)のとき次の確率を求めよ。

の値　となる

の値　となる

kkX

X

Z

Z

kkZ

Z

Z

Z

05.0)|158Pr(| )8

)160150Pr( )7

)2|Pr(| )6

)1|Pr(| )5

05.0)Pr( )4

)12Pr( )3

)1Pr( )2

)10Pr( )1

=>−<≤

><

=≥−<≤−

≤<≤

14一様分布

• 確率密度関数

• 累積分布関数

curve(dunif, -0.5, 1.5)

-0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

x

duni

f (x)

curve(punif, -0.5, 1.5)

-0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

x

pun

if (x

)

二項分布 (Binomial distribution)

• 1回の試行 (実験 )で Aという事象が起きるか、　　　　　　　　　　　　　　　　　　　　　起きないか

• A という事象が起きる確率が p、　　　　　　　　　　起きない確率が q=1-p

• この試行をｎ回行ったとき、 Aが起きる回数をXとする。

• Xの分布を二項分布といい、 X～ Bi(n, p)と表す。

二項分布　その２• Xの取り得る値　　ｎ回中の回数なので　　 0, 1, 2, …, n

• Pr(X=k) = Aがｎ回中ｋ回起きる確率　　　　　　 = nCk pk(1-p)n-k

• 分布関数

∑

∑

=

−

=

−=

=≤=

][

0

][

0

)1(

)Pr()(

x

k

knkxn

x

kk

ppC

pxXxF

　　　　　

二項分布　その３

• 二項分布 Bi(10,1/6)さいころを 10回振って、 1の目が出る回数Xの分布

kkk

knkkn

k

C

ppC

kXp

−

−

−=

−=

==

1010 )

6

11()

6

1(

)1(

)Pr(

　　

　　

0.1550454

)6

5()

6

1(

123

8910

)6

11()

6

1(

)3Pr(

73

3103310

3

=××××=

−=

==

−

　　

　　

　　 C

Xp

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

cdf

二項分布 Bi(10,1/6)の分布関数

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

xx

pb

ino

m(x

x, 1

0, 1

/6)

階段関数 (step function)

> pbinom(x,10,1/6) [1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325 [8] 0.9999806 0.9999992 1.0000000 1.0000000

19シミュレーション　（数値実験）　 simulation

複雑な問題で式を求めるのが難しい費用がかかりすぎる・時間がかかりすぎる

• シミュレーションとは乱数を使って理論的な結果を検証理論的には結果を得ることが難しい内容を求めること

• 乱数Rでは

• 乱数は，分布名に rをつけたもの• 例：一様乱数　 runif• 　　正規乱数 rnorm

20正規乱数　 rnorm

• 正規分布に従う乱数• rnorm(個数）• 例えば

rnorm(100)

• hist(rnorm(100), freq=F)• curve(dnorm, add=T)

Histogram of rnorm(100)

rnorm(100)

De

nsi

ty

-3 -2 -1 0 1 2

0.0

0.1

0.2

0.3

0.4

21円周率のシミュレーション

• 一辺の長さ 1 の正方形面積 1

• 半径 1 の 1/4円面積 π/4

そういう点を n個発生させる

• 1/4円内の点の個数を m• 全体の点の個数を n

m/n π/4≒

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

circ

(x)

• 区間 [0, 1]の一様乱数を 2個それを x座標， y 座標とする点 P (x, y)を考える

• その点は正方形の中• さらに 1/4円の中に落ちる比率は１： π/4

22

circ <- function(x) sqrt(1 - x^2) curve(circ, 0, 1) lines(c(1, 0), c(0, 0)) lines(c(0, 0), c(1, 0))

> sim.pi(1000)

Type <Return> to start simulation : 788 of 1000 in the circle.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

条件付確率 (conditional prob.)• 事象 Aが起きたという条件の下で事象 Bが起きる確率を考える

• 例　女性で身長が１７０ｃｍ以上

)Pr(

)Pr()|Pr(

A

BAAB

∩=

0082.0485.0

03976.0

)Pr(

)170.0Pr()|170.0Pr(

==

≥=≥

　　　　　　　　　　

女性　かつ　女性身長女性身長

A

B

独立事象• 条件付確率が条件に無関係のとき

2つの事象は独立という

)Pr()Pr()Pr(

)Pr()Pr(

)Pr()|Pr(

)Pr()|Pr(

BABA

BA

BAAB

BAB

=∩

=∩=

=

条件付分布• X=xという条件の下での Yの分布

)|()(

)|()(),(

)(

),()|(

)Pr(

)Pr(

)|Pr()|(

yxfyg

xygxfyxh

xf

yxhxyg

xX

xXandyY

xXyYxyG

==

=

==<=

=<=

　　　　

　　　　　　

独立性• 2 つの確率変数 X, Y が独立

分布関数

密度関数

)()(),(

)()(

)Pr()Pr(

),Pr(),(

ygxfyxh

yGxF

yYxX

yYxXyxH

=

=<<=

<<=

　　　　　　　　

期待値 (Expectation)

• データの平均（代表値、どんな値）

• 確率変数（分布）の期待値（どんな値）

n

xxxx

xxx

n

n

+++=

21

21

:mean

,,,:data

kk

k

k

papapaXE

ppp

aaa

+++=

2211

21

21

)(:

,,,:

,,,:

平均

各値の確率取り得る値

確率分布　　　　度数分布表

値確率

a1 p1

a2 p2

ak pk

合計 1.00

階級階級値相対度数

a0~a1 m1 f1a1~a2 m2 f2

ak-1~ak mk fk合計 1.00

kk

kk

fmfmfmx

papapaXE

+++=+++=

2211

2211)(

　　

期待値と分散

22

2

22

)}({)(

)()}({

)}({)())(()(

)()())((

)()(

)(

)(

XEXE

dxxfXEx

XExxXEXEXV

X

dxxfxXE

dxxfxXE

X

Xxf

X

−=

−=

−=−=

=

=

∫

∫∫

∞

∞−

∞

∞−

∞

∞−

　　　　　

　　　　　

　　　　　の分散

　　

　　　

平均の期待値

の密度関数　　　　　確率変数

φ

φφ

離散型の場合は積分の代わりに和 (Σ) を使う

主な分布の期待と分散

2

2

2

)(,)(

),(~

12/)()(,2/)()(

),(~

)(,)(

)(~

)(,)(

),(~

σµσµ

λλλ

==

−=+=

==

==

XVXE

NX

abXVbaXE

baUX

XVXE

PoX

npqXVnpXE

pnBiX

　　　　　

　　　　

　　　　

　　　　

情報統計学

χ2 分布t 分布F 分布

31

32標本分布

• 正規分布から導かれる分布χ2 分布

t分布

F分布

33χ2 分布

• 自由度 mの χ2 分布確率密度関数

•E(Y)=m•Var(Y)=2m

34χ2 分布

• 確率変数 Zが標準正規分布 N(0,12) に従っているとき，Y = Z2

の分布は自由度 1 の χ2 分布に従う。

• 確率変数 X1, X2, …, Xn が互いに独立で， Xi が正規分布 N(0,12) に従うとき，

Z = X12 + X2

2 + … + Xn2

は自由度 n の χ2 分布に従う。

35χ2 分布の確率密度関数のグラフ

• 自由度 1 ， 2 が特殊

curve(dchisq(x,1), 0, 10, col = 1) #1 は黒 curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤 curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑 curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

dch

isq

(x, 1

)

36シミュレーションによる導出

• 標準正規分布を２乗すると χ2 分布になることを乱数を使って確かめる1. 正規乱数 zを 1 つ取る2. y=z2 を計算する3. これを n回繰り返し， yの値を n個とる4. Y の分布を図示し，理論的なものと比較する

> nrdata <- rnorm(1000)> summary(nrdata) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000

> sd(nrdata) [1] 1.025253

> hist(nrdata)

Histogram of nrdata

nrdata

Fre

quen

cy

-3 -2 -1 0 1 2 3

050

100

150

200

37nr2data <- nrdata^2

mean(nr2data)

sd(nr2data)

hist(nr2data, freq = F)

curve(dchisq(x,1), 0, 9, col = 2, add = T)Histogram of nr2data

nr2data

Den

sity

0 2 4 6 8 10 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

38レポート

1. Xが自由度 mの χ2 分布に従い， Yが自由度 nの χ2 分布に従って，互いに独立であれば

Z = X + Y

の分布は，自由度 (m+n) の χ2 分布に従う。　再生性というが，このことをシミュレーションを使って確認

せよ。

2. 正規分布も再生性を持つ。このことをシミュレーションを用いて確かめよ。

t 分布

• 密度関数のグラフは curve(dt(x, 10), -4, 4)

39

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

t分布と正規分布の確率密度関数

• curve(dt(x, 10), -4, 4)• curve(dt(x, 2), -4, 4, col = 2, add = TRUE)

• curve(dnorm, -4, 4, col = 3, add = TRUE)

40

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

t分布のパーセント点

> qt(0.05, 5)

> qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100))

[1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461 -1.724718

[8] -1.675905 -1.660234

> qt(c(0.05, 0.95), 5)

[1] -2.015048 2.015048

> pt(2.015048, 5)

[1] 0.95

41

シミュレーション 1

nrdata <- rnorm(1000)

chi2data <- rchisq(1000, 10)

hist(chi2data)

tdata <- nrdata / (sqrt(chi2data / 10))

mean(tdata)

sd(tdata)

curve(dt(x, 10), -4, 4, col = 2)

hist(tdata, freq = F, add=TRUE)

42

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

シミュレーション 2 43

44

45

tcalc <-function(x){

barx <- mean(x)

sdx <- sd(x)

tval <- barx / (sdx / sqrt(length(x)))

tval

}

ran <- sapply(rep(10, 1000), rnorm)

sample.t <- apply(ran, 2, tcalc)

hist(sample.t, nclass = 20, freq = F)

curve(dt(x, 9), -4, 4, col = 2, add = T)

46

Histogram of sample.t

sample.t

De

nsi

ty

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

F分布 47

F分布の密度関数

> curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5))

> curve(df(x,2,10),0.00000001,5,col=2,add=T)

> curve(df(x,3,10),0,5,col=3,add=T)



48

0 1 2 3 4 5

0.0

0.5

1.0

1.5

x

df(

x, 1

, 10)

シミュレーション

> c8rand <- rchisq(1000, 8)

> c10rand <- rchisq(1000, 10)

> fprop <- (c8rand / 8) / (c10rand / 10)

> hist(fprop, nclass = 20, freq = F)

> hist(fprop, nclass = 20, freq = F)$count

> curve(df(x,8,10), 0, 5, col = 2, add = TRUE)

49

Histogram of fprop

fprop

De

nsity

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

50

Documents

K040 確率分布とchi2分布