12
統計的データ解析 2008 2008.10.21 林田 (大阪大学大学院理学研究科)

カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

統計的データ解析 2008

2008.10.21林田 清

(大阪大学大学院理学研究科)

Page 2: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

問題B1. およそFWHM120eVのエネルギー分解能をもつX線検

出器を使って、6keV付近の単一エネルギーX線を測定する。 X線のエネルギーの値を1eVの精度で決定するためには何個のX線イベントを検出すればよいか?

2. 二項分布の極限としてポアソン分布が導かれることを示せ(=自分で式をかいて復習せよ)

3. ある時間の間での放射線源の崩壊数を二項分布で考える場合のnとpは何をさすか?

4. 関西地域の世帯視聴率は600世帯の調査をもとに算出されている。ある番組の視聴率が10%であったときの統計誤差を評価せよ。(二項分布はポアソン分布で近似してよいとする)

https://www.videor.co.jp/data/ratedata/henkou.htm参考

5. 1MpixelのCCDで、1フレームの露出中に同じピクセルに2個以上のX線が入る確率を1%以下におさえたい。X線イベントの数をどのように設定すべきか?シングルイベントのみが発生しており、照射強度はCCD全面で一様と仮定する。

Page 3: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

正規分布

Bevington &Robinson

2

2

1 ( )( ; , ) exp( )22G

xP x μμ σσπσ−

= −

Excelでの練習normdist, norminv,normsdist,normsinvソルバー 両側確率と片側確率を区別せよ

Page 4: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

χ2分布

2

2 2

2 2

2 2 /2 1 /2 /2

22

2

2

2 2( )

0 1

( ) {( ) } / 2 ( / 2)

( )

( ) 2

i

i

x x

n

n

V

e

x

n

E

ν χ νν

χ

χ ν χ

χ χ

χ

ν

μ

χ

μ σ χσ

ν χ ν

− −

=

= Γ

= =

n

i=1

n

i=1

平均値 ,標準偏差 の正規分布

に従う変

自由度 の (カイ

数 の自乗和  

が従う分布を自由度 の 分布と呼ぶ。  一般に自由度 の 分布は

f

平均値 ,標準

期待値  分散 

偏差 の正規分布に従う  も自

二乗)

由度

 

分布

22

2

2 2 2

2

( ) 1ix x n

m lm l

χσ

χ χ χ

χ

−−

+

∑n

i=1

布、 

はしかし自由度 の 分布

分布の加算:自由度 の 分布に従う変数と自由度の 分布に従う

変数の和は、自由度 の 分布に従う。

0

0.1

0.2

0.3

0.4

0.5

0 5 10 15

P(χ

2 )

χ2

χ2 distribution

dof=1 dof=2

dof=4 dof=6

Page 5: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

t分布とF分布

2

2( ) / / 10

x nx s

t x

t

s n nn

μ σ

μ φ

φ

= − = −

平均値 ,標準偏差 の正規分布に従う変数 から 個を

抜き出して、その平均値を 、標本分散を とする

 は自由度 のt分布に従う。

が大きいとき標準正規分布(平均値 、標準偏差1)で

近似できる

平均値の検定、母平均の区間推定、平均値の差の検定などに

使用する(正規分布で近似してしまう場

由度 の 分布

も多い)

2 2 2 21 1 2 2

21 1

22

1

2

2

2

1

,

//

,

F

F F

φ χ χ φ χ χ

χ φχ

φ

φ φ

φφ

=

自由度 のF(エフ

自由度 の 分布に従う変数 と自由度 の 分布に従う変数 が

を使い、

で確率変数 を定義する。 が従う分布が自由度 のF(エフ)分布

F検定、分散分析などに使

)分布

用される。

Page 6: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

データのモデル化、最小二乗フィット

フィッティングとは

最小二乗フィットの基礎となる最尤法の考え方

あてはめのよさの検定:カイ二乗検定

パラメータの推定誤差

最尤法の直接的利用

Page 7: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

データのモデル化、あてはめ(Fit)、回帰

ばらつきのある測定値に適当なモデル(直線や曲線)であてはめること

モデル

直線の場合。。。線形回帰

多項式の場合

一般の関数の場合

データの誤差

各点共通の場合

各点で重みが異なる場合

モデル点のまわりのばらつき

正規分布の場合

それ以外の場合

0

5

10

15

0 2 4 6 8 10X

-1

0

1

2

3

4

5

0 2 4 6 8 10

X

Page 8: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

最小二乗フィット : 直線モデルの例 問題の設定

0 0

0 0 0

0

( ),

,( )

( )

i i

i i i

x y x yy x ax b

a b

a by x a x b

y y x σ

= +

= +

測定値の組( , )があり、独立変数と従属変数の間の関係を

 

で近似するとき 、 に関する最も確からしい推定値は

どうやって決められるか?

母集団における係数を とし、”真”の関係式を

さらに測定値 は平均値 、標準偏差 の

正規分布に従うと仮定する。

0

5

10

15

0 2 4 6 8 10X

正規分布に従う母集団から標本を1個採ってくるのが測定

Page 9: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

最小二乗フィット: 最尤法がベース

2

0

2

00 0

11 1

( )1 1exp22

( )1 1( , ) exp22

,

1 1( , ) exp22

i i

i ii

ii

i

n n ni i

iii i ii

i

i

y P

y y xP

n y

y y xP a b P

a b y

yP a b

σσ π

σσ π

σ π

== =

⎡ ⎤⎛ ⎞−⎢ ⎥= − ⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

⎡ ⎤⎛ ⎞ ⎛ ⎞−⎢ ⎥= = −⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎢ ⎥⎝ ⎠⎝ ⎠ ⎣ ⎦

⎛ ⎞= −⎜ ⎟⎜ ⎟

⎝ ⎠

∑∏ ∏

を観測する確率 は

個の観測値 の組を得る確率は

同様に任意の係数推定値 に従うときに観測値 の組を得る確率は

2

11

0 0

0 0

( )

( , )( , ) ( , ) ( , )

n ni i

ii i

y x

P a bP a b a b a b

σ==

⎡ ⎤⎛ ⎞−⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

∑∏

観測は母集団 から採取する操作。 

の最大値を与えるような が の最尤推定値。

最尤法の考え方

Page 10: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

最小二乗フィット: 直線モデルの例 パラメータの決定

2 2

2

2 2 2 2

2

2 2 2

2 2

2

2

2 2

2

1 1

2

2

0, 0

,

1 1

1

1

( )

( , )

i i i i

i i i i

n ni i i

i i i i i

i i i i

i i

i i i

i

i ii i

a b

x y x ya

x y x x

y y

y

x y ax b

P a b

b

x x

χ χ

χ

σ σ σ σ

σ σ σ

χσ σ

σ

σ σ σ

χ= =

∂ ∂= =

∂ ∂

⎛ ⎞= −⎜ ⎟Δ ⎝ ⎠

⎛ ⎞= −⎜ ⎟Δ ⎝ ⎠

⎛ ⎞Δ = −

⎛ ⎞ ⎛ ⎞− − −≡ =

⎜⎝

⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

∑ ∑ ∑ ∑

∑ ∑ ∑

∑ ∑

a b

から を最小

を最大にする

にす

= を最小にす

とし

ただ

る て

2

⎟⎠

∑ ∑

二乗の和を最小にするので最小二乗フィットと呼ぶ。

χ2フィットともいう。

( )

( )

( )

( )

( )

2

2

2

1

2

2

1 , )

,

, ) ( )

1

,

1

n

i i

i i i

i

i i

i i

i

i i i i i

i i

y ax b a b

x y

x

a n x y x y

b x y x x y

n x

b

x

ax a b

χσ =

= −

= −Δ

= −

Δ = −

+

Δ

∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑

2

各点の誤差が同一のとき

を最小にする( を

求めることは、各測定点 とモデル点

( の距離のニ乗和を最小にする

を求める

ただ

ことと等

Page 11: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

あてはめの良さ(Goodness of Fit)

2 22

1 1

2 2 2

( )

( ,-

,

( / )

n ni i i i

i ii i

y y x y ax b

n m m a bn m

a b

ν

χσ σ

χ ν χ χ ν

= =

⎛ ⎞ ⎛ ⎞− − −≡ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠−

∑ ∑(直線モデルの場合 )

は自由度 はパラメータの数、直線の場合 で2)

の に従う。 期待値は 。

これがあてはめの良さ(仮定したモデル関数の妥当性、

パラメータ が適当であること、測定誤差が正しく評価

されていること)の基準になる。

を自

カイ自乗分布

由度 で割った reduced chi-squareを という。

( )i ii

i

y y xt

σ−

= は中心0,標準偏差1の正規分布に従う残差

誤差

Page 12: カイ2乗分布、最小二乗法、カイ二乗フィット - Osaka …hayasida/Class/Class2008/...2008/10/21  · 正規分布 Bevington &Robinson 2 2 1() ( ; , ) exp( ) G 2 2 x

問題C

1. xにも誤差がある場合どのように扱うべきか?x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。(ヒント:上の式)

2. yの値のモデル点まわりの分布が正規分布からずれている場合、最尤法に立ち戻って考える必要がある。例えばポアソン分布の場合は、どうなるか?尤度をあらわす式をかき、直線モデルのパラメータa,bを決めるための手順を示せ。

3. 6keV付近で“およそ”120eVFWHM程度のエネルギー分解能をもつ検出器がある。エネルギー分解能を1eVの誤差(標準偏差)で求めるためには、X線イベントをどのくらい集める必要があるか。

4. ガウシアン+定数のモデルで与えられたデータ点をカイ2乗フィットせよ。出力されるフィット結果の数字の意味(定義)を調べること。また、ガウシアン関数として、二通りの形(10/14の資料参照)を試し、積分強度とその誤差を計算し、共分散の寄与を確認せよ。

( ) ( )

( )

( ) ( )

2 2

2 2

2 2

2 2

ˆ ˆ1 1ˆ( , ; , , , ) exp exp2 22 2

ˆ ˆ ˆ ˆ,

ˆ ˆ1ˆ( , ; , , , ) exp exp2 2 2

i ii i xi yi

xi yixi yi

i i i ii i xi yi

xi yi xi yi

x x y yP a b x y dx

x y y ax b

x x y ax b y axP a b x y dx

σ σσ σπσ πσ

σ σπσ σ σ σ

⎛ ⎞ ⎛ ⎞− −⎜ ⎟ ⎜ ⎟= − −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠

= +

⎛ ⎞− − − − −⎜ ⎟= − − ∝ −⎜ ⎟⎝ ⎠

ただし は であらわされる直線モデル上の点

 ( )( )

2

2 2 22 xi yi

ba σ σ

⎛ ⎞⎜ ⎟⎜ ⎟+⎝ ⎠

追加:3x3ピクセル内に2光子入るイベントを1%以下にする条件