Upload
t2tarumi
View
248
Download
2
Embed Size (px)
Citation preview
1
情報統計学
確率分布独立性
期待値と分散正規分布20120525 一部修正
2確率
• Aという結果が起きる確率→ Pr(A)と書く。
3確率分布
• 確率分布その結果がどんな確率で起きるかをまとめたもの
離散型分布
連続型分布• 特定の値 aを取る確率は 0
• 幅をつけて考える
4 累積分布関数 Cummulative Distribution Function, CDF
• 定義 確率変数 Xに対して
を確率変数 Xの累積分布関数という。• 確率密度関数
累積分布関数 F(x)が微分可能なとき,導関数
を確率変数 Xの(確率)密度関数 (probability density function, pdf)という。
確率密度関数があるときには,
5分布関数の性質
6関数のグラフ
• Rで関数のグラフを書く。 確率密度関数 累積分布関数
• curve curve(関数名 , 左端 , 右端 ) curve(sin, 0, 2*pi)
0 1 2 3 4 5 6
-1.0
-0.5
0.0
0.5
1.0
x
sin
(x)
• curve variation curve(sin, 0, 2*pi) curve(cos, 0, 2*pi) curve(sin, 0, 2*pi, add=T) curve(sin, 0, 2*pi, add=T, col=“red”)
plot(sin, 0, 2*pi)
7関数を探す
• 正規分布 (normal distribution)
• 関数名に Normalが付くものを探すhelp.search(“Normal”)
• Normalの中に関連するものがありそうhelp(“Normal”)で使い方をみるまたは ?Normal
でもよい。
8分布に関連する関数
• 分布名正規分布 normt -分布 tカイ 2乗分布 chisqF分布 f一様分布 unif二項分布 binomポアソン分 poi
• 関数名の頭文字p分布名 分布関数
Pr(X<x)d分布名 密度関数density function
q分布名 分位点quantile
r分布名 乱数 random number
9標準正規分布 (standard Normal Distribution)
• 累積分布関数
• 確率密度関数
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dn
orm
(x)
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
x
pn
orm
(x)
curve(pnorm, -4, 4)
curve(dnorm, -4, 4)
正規分布表の使い方
• 数表は「標準正規分布」 Z~ N(0,1)
Pr(Z<0.91)
11
下側 α点qnorm関数qnorm(0.025, lower.tail = F) qnorm(0.025)
標準化、偏差値• 標準化
• 偏差値
12
)1,0(~),(~ 2 NX
ZNXσ
µσµ −=⇒
)10,50(~5010
),(~
2
2
NX
NX
+×−=⇒σ
µσµ
偏差値
演習
• Z~ N(0,1)、 X~ N(158,25)のとき次の確率を求めよ。
の値 となる
の値 となる
kkX
X
Z
Z
kkZ
Z
Z
Z
05.0)|158Pr(| )8
)160150Pr( )7
)2|Pr(| )6
)1|Pr(| )5
05.0)Pr( )4
)12Pr( )3
)1Pr( )2
)10Pr( )1
=>−<≤
><
=≥−<≤−
≤<≤
14一様分布
• 確率密度関数
• 累積分布関数
curve(dunif, -0.5, 1.5)
-0.5 0.0 0.5 1.0 1.5
0.0
0.2
0.4
0.6
0.8
1.0
x
duni
f (x)
curve(punif, -0.5, 1.5)
-0.5 0.0 0.5 1.0 1.5
0.0
0.2
0.4
0.6
0.8
1.0
x
pun
if (x
)
二項分布 (Binomial distribution)
• 1回の試行 (実験 )で Aという事象が起きるか、 起きないか
• A という事象が起きる確率が p、 起きない確率が q=1-p
• この試行をn回行ったとき、 Aが起きる回数をXとする。
• Xの分布を二項分布といい、 X~ Bi(n, p)と表す。
二項分布 その2• Xの取り得る値 n回中の回数なので 0, 1, 2, …, n
• Pr(X=k) = Aがn回中k回起きる確率 = nCk pk(1-p)n-k
• 分布関数
∑
∑
=
−
=
−=
=≤=
][
0
][
0
)1(
)Pr()(
x
k
knkxn
x
kk
ppC
pxXxF
二項分布 その3
• 二項分布 Bi(10,1/6)さいころを 10回振って、 1の目が出る回数Xの分布
kkk
knkkn
k
C
ppC
kXp
−
−
−=
−=
==
1010 )
6
11()
6
1(
)1(
)Pr(
0.1550454
)6
5()
6
1(
123
8910
)6
11()
6
1(
)3Pr(
73
3103310
3
=××××=
−=
==
−
C
Xp
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
x
cdf
二項分布 Bi(10,1/6)の分布関数
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
xx
pb
ino
m(x
x, 1
0, 1
/6)
階段関数 (step function)
> pbinom(x,10,1/6) [1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325 [8] 0.9999806 0.9999992 1.0000000 1.0000000
19シミュレーション (数値実験) simulation
複雑な問題で式を求めるのが難しい費用がかかりすぎる・時間がかかりすぎる
• シミュレーションとは乱数を使って理論的な結果を検証理論的には結果を得ることが難しい内容を求めること
• 乱数Rでは
• 乱数は,分布名に rをつけたもの• 例:一様乱数 runif• 正規乱数 rnorm
20正規乱数 rnorm
• 正規分布に従う乱数• rnorm(個数)• 例えば
rnorm(100)
• hist(rnorm(100), freq=F)• curve(dnorm, add=T)
Histogram of rnorm(100)
rnorm(100)
De
nsi
ty
-3 -2 -1 0 1 2
0.0
0.1
0.2
0.3
0.4
21円周率のシミュレーション
• 一辺の長さ 1 の正方形 面積 1
• 半径 1 の 1/4円 面積 π/4
そういう点を n個発生させる
• 1/4円内の点の個数を m• 全体の点の個数を n
m/n π/4≒
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
x
circ
(x)
• 区間 [0, 1]の一様乱数を 2個 それを x座標, y 座標とする点 P (x, y)を考える
• その点は正方形の中• さらに 1/4円の中に落ちる比率は1: π/4
22
circ <- function(x) sqrt(1 - x^2) curve(circ, 0, 1) lines(c(1, 0), c(0, 0)) lines(c(0, 0), c(1, 0))
> sim.pi(1000)
Type <Return> to start simulation : 788 of 1000 in the circle.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
x
y
条件付確率 (conditional prob.)• 事象 Aが起きたという条件の下で事象 Bが起きる確率を考える
• 例 女性で身長が170cm以上
)Pr(
)Pr()|Pr(
A
BAAB
∩=
0082.0485.0
03976.0
)Pr(
)170.0Pr()|170.0Pr(
==
≥=≥
女性 かつ 女性身長女性身長
A
B
独立事象• 条件付確率が条件に無関係のとき
2つの事象は独立という
)Pr()Pr()Pr(
)Pr()Pr(
)Pr()|Pr(
)Pr()|Pr(
BABA
BA
BAAB
BAB
=∩
=∩=
=
条件付分布• X=xという条件の下での Yの分布
)|()(
)|()(),(
)(
),()|(
)Pr(
)Pr(
)|Pr()|(
yxfyg
xygxfyxh
xf
yxhxyg
xX
xXandyY
xXyYxyG
==
=
==<=
=<=
独立性• 2 つの確率変数 X, Y が独立
分布関数
密度関数
)()(),(
)()(
)Pr()Pr(
),Pr(),(
ygxfyxh
yGxF
yYxX
yYxXyxH
=
=<<=
<<=
期待値 (Expectation)
• データの平均(代表値、どんな値)
• 確率変数(分布)の期待値(どんな値)
n
xxxx
xxx
n
n
+++=
21
21
:mean
,,,:data
kk
k
k
papapaXE
ppp
aaa
+++=
2211
21
21
)(:
,,,:
,,,:
平均
各値の確率取り得る値
確率分布 度数分布表
値 確率
a1 p1
a2 p2
ak pk
合計 1.00
階級 階級値 相対度数
a0~a1 m1 f1a1~a2 m2 f2
ak-1~ak mk fk合計 1.00
kk
kk
fmfmfmx
papapaXE
+++=+++=
2211
2211)(
期待値と分散
22
2
22
)}({)(
)()}({
)}({)())(()(
)()())((
)()(
)(
)(
XEXE
dxxfXEx
XExxXEXEXV
X
dxxfxXE
dxxfxXE
X
Xxf
X
−=
−=
−=−=
=
=
∫
∫∫
∞
∞−
∞
∞−
∞
∞−
の分散
平均の期待値
の密度関数 確率変数
φ
φφ
離散型の場合は積分の代わりに和 (Σ) を使う
主な分布の期待と分散
2
2
2
)(,)(
),(~
12/)()(,2/)()(
),(~
)(,)(
)(~
)(,)(
),(~
σµσµ
λλλ
==
−=+=
==
==
XVXE
NX
abXVbaXE
baUX
XVXE
PoX
npqXVnpXE
pnBiX
情報統計学
χ2 分布t 分布F 分布
31
32標本分布
• 正規分布から導かれる分布χ2 分布
t分布
F分布
33χ2 分布
• 自由度 mの χ2 分布確率密度関数
•E(Y)=m•Var(Y)=2m
34χ2 分布
• 確率変数 Zが標準正規分布 N(0,12) に従っているとき,Y = Z2
の分布は自由度 1 の χ2 分布に従う。
• 確率変数 X1, X2, …, Xn が互いに独立で, Xi が正規分布 N(0,12) に従うとき,
Z = X12 + X2
2 + … + Xn2
は自由度 n の χ2 分布に従う。
35χ2 分布の確率密度関数のグラフ
• 自由度 1 , 2 が特殊
curve(dchisq(x,1), 0, 10, col = 1) #1 は黒 curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤 curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑 curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x
dch
isq
(x, 1
)
36シミュレーションによる導出
• 標準正規分布を2乗すると χ2 分布になることを乱数を使って確かめる1. 正規乱数 zを 1 つ取る2. y=z2 を計算する3. これを n回繰り返し, yの値を n個とる4. Y の分布を図示し,理論的なものと比較する
> nrdata <- rnorm(1000)> summary(nrdata) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000
> sd(nrdata) [1] 1.025253
> hist(nrdata)
Histogram of nrdata
nrdata
Fre
quen
cy
-3 -2 -1 0 1 2 3
050
100
150
200
37nr2data <- nrdata^2
mean(nr2data)
sd(nr2data)
hist(nr2data, freq = F)
curve(dchisq(x,1), 0, 9, col = 2, add = T)Histogram of nr2data
nr2data
Den
sity
0 2 4 6 8 10 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
38レポート
1. Xが自由度 mの χ2 分布に従い, Yが自由度 nの χ2 分布に従って,互いに独立であれば
Z = X + Y
の分布は,自由度 (m+n) の χ2 分布に従う。 再生性というが,このことをシミュレーションを使って確認
せよ。
2. 正規分布も再生性を持つ。このことをシミュレーションを用いて確かめよ。
t 分布
• 密度関数のグラフは curve(dt(x, 10), -4, 4)
39
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dt(
x, 1
0)
t分布と正規分布の確率密度関数
• curve(dt(x, 10), -4, 4)• curve(dt(x, 2), -4, 4, col = 2, add = TRUE)
• curve(dnorm, -4, 4, col = 3, add = TRUE)
40
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dt(
x, 1
0)
t分布のパーセント点
> qt(0.05, 5)
> qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100))
[1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461 -1.724718
[8] -1.675905 -1.660234
> qt(c(0.05, 0.95), 5)
[1] -2.015048 2.015048
> pt(2.015048, 5)
[1] 0.95
41
シミュレーション 1
nrdata <- rnorm(1000)
chi2data <- rchisq(1000, 10)
hist(chi2data)
tdata <- nrdata / (sqrt(chi2data / 10))
mean(tdata)
sd(tdata)
curve(dt(x, 10), -4, 4, col = 2)
hist(tdata, freq = F, add=TRUE)
42
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
dt(
x, 1
0)
シミュレーション 2 43
44
45
tcalc <-function(x){
barx <- mean(x)
sdx <- sd(x)
tval <- barx / (sdx / sqrt(length(x)))
tval
}
ran <- sapply(rep(10, 1000), rnorm)
sample.t <- apply(ran, 2, tcalc)
hist(sample.t, nclass = 20, freq = F)
curve(dt(x, 9), -4, 4, col = 2, add = T)
46
Histogram of sample.t
sample.t
De
nsi
ty
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
F分布 47
F分布の密度関数
> curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5))
> curve(df(x,2,10),0.00000001,5,col=2,add=T)
> curve(df(x,3,10),0,5,col=3,add=T)
> curve(df(x,8,10),0,5,col=4,add=T)
> curve(df(x,8,20),0,5,col=5,add=T)
48
0 1 2 3 4 5
0.0
0.5
1.0
1.5
x
df(
x, 1
, 10)
シミュレーション
> c8rand <- rchisq(1000, 8)
> c10rand <- rchisq(1000, 10)
> fprop <- (c8rand / 8) / (c10rand / 10)
> hist(fprop, nclass = 20, freq = F)
> hist(fprop, nclass = 20, freq = F)$count
> curve(df(x,8,10), 0, 5, col = 2, add = TRUE)
49
Histogram of fprop
fprop
De
nsity
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
50