61
1 産業技術総合研究所 計測標準研究部門 計量標準システム科 計量標準基盤研究室 城野 克広 <[email protected]> 統計的仮説検定から 有効自由度に至るまでを

統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

1

産業技術総合研究所 計測標準研究部門

計量標準システム科 計量標準基盤研究室

城野 克広 <[email protected]>

統計的仮説検定から

有効自由度に至るまでを

Page 2: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

2

計測の分野では95 %信頼区間を持って拡張不確かさとすることが多いです。拡張不確かさは、「測定の結果について、合理的に測定量に結び付けられ得る値の分布の大部分を含むと期待される区間を定める量」と定義されています。しかし、古典的統計に基づいた拡張不確かさは「測定の結果について、合理的に測定量に結び付けられ得る値の分布の95 %を含むと期待される区間を定める量」ではありません。そして、私もそのことを承知しながら、面倒臭さのために、そのように“嘘”をつくこともあります。そんな謝罪の気持ちも込めて、Web公開用のこの資料では、その辺りできる限り詳しく説明してみたいと思います。統計的仮説検定から有効自由度に至るまでを。

産業技術総合研究所 城野克広 <[email protected]>

統計的仮説検定から有効自由度に至るまでを統計的仮説検定から有効自由度に至るまでを

Page 3: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

1.統計的仮説検定

3

Page 4: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

4

仮説を立てよう仮説を立てよう

「仮説検定」とは「仮説が正しいかどうか確かめること」である。

仮説① 空はいつも青い。仮説② どの場面でも長嶋茂雄の背番号は3番。仮説③ すべての白鳥は白い。

正しいだろうか?

Page 5: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

5

仮説を立てよう仮説を立てよう

実際にはすべて正しくはない。このとき仮説は棄却されたという。

夕焼けは赤いし、夜空は黒い。

最初の監督時代は90、次は33。

オーストラリアの黒鳥はハクチョウ属の鳥類。

Page 6: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

6

統計的仮説検定統計的仮説検定

仮説「このドラムがBである。」はどうしたら、確かめられるか?

くじ引き用のドラム を考えよう。

が99個

が1個

ドラムAには

が1個

が99個

ドラムBには

Page 7: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

7

もちろん観察事実は必要。

統計的仮説検定統計的仮説検定

一回ドラムを回して、が出たとしたら?赤

Page 8: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

8

仮説 = 「このドラムはBだ。」

統計的仮説検定統計的仮説検定

「このドラムがB」なら赤い玉が出る確率は1 %以下しかないから、多分間違っている。

「有意水準1 %」で仮説は棄却される。

という。

これを

Page 9: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

9

仮説 = 「このドラムはAだ。」

統計的仮説検定統計的仮説検定

このとき、

は、確かめられたといえるのか?

上の仮説を帰無仮説とすると棄却はされないが、棄却されないことは積極的に支持されることとは異なる。一方で、ドラムAとBしかないなら、「ドラムBではないからドラムAだ。」は成り立つだろう。

Page 10: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

10

統計的仮説検定統計的仮説検定

このように、統計を用いた検定では棄却されて初めて結論が出る。つまり、仮説は棄却されるために立てる。このことから、仮説を「帰無【きむ】仮説」と呼ぶことがある。また「帰無仮説が正しくないとき、その背反として成り立つ仮説」を対立仮説という。このように「帰無仮説を立て」、「有意水準を定め」、「検定を行う」ことを「統計的仮説検定」と呼ぶ。

さあ、仮説を立ててみよう!

Page 11: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

11

仮説を立てよう①仮説を立てよう①

効果の検定

血圧を下げるための薬を服用したとしよう。薬に効き目があったかどうかを判断するために仮説を立ててみよう。

Page 12: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

12

効果があったかどうかを知りたいときには、効果がなかったらどうかを考える。

仮説を立てよう①仮説を立てよう①

仮説 = 「血圧はいつもの血圧である。」

もし、これが棄却されれば、血圧に変化があるということである。もちろん、「いつもの血圧より大きい」でもよいのだが、実際の手続きを考えると結構面倒なことになる。

Page 13: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

13

仮説を立てよう仮説を立てよう仮説を立てよう②仮説を立てよう②

区間推定

あるサンプルに含まれている有機物Aの濃度

を知りたい。測定して得られるのは、測定の不確かさの分だけずれた値であり、本当の値ではない。本当の値が「どの範囲にあるか」知るための仮説はどのようなものがふさわしいだろうか?

Page 14: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

14

仮説を立てよう②仮説を立てよう②

仮説① = 「濃度は(測定値より小さい)aである。」

仮説② = 「濃度は(測定値より大きい)bである。 」

両方が棄却されれば、「本当の濃度cはa <c < bであると結論づけることができる!!

このように検定を組み合わせて区間を定めることを区間推定と呼ぶ。

Page 15: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

15

言い訳?厳密な定義の話言い訳?厳密な定義の話

本資料では、信頼区間とは「両側検定の採択域である」というストーリーでお話して行こうと思うが、一般的には『信頼区間とは「両側検定の採択域である」と等価である。(=信頼区間と両側検定の採択域は“たまたま”一致する)』という言い方がされることが多い。

そもそもの信頼区間は「そのやり方で推定すると真の値がその区間に含まれる確率が95 %になるようなやり方で定めた区間」という

定義がよくされる。しかし、これではどう計算を始めたらよいのか、全く見当がつかない(ような気がする)。

このため、統計学的な厳密さはさておいて、実用的な観点から、信頼区間とは「両側検定の採択域である」という立場から説明していこうと思う。

Page 16: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

16

片側検定

ブタ肉を100 gの注文を受けたとき、100 g以下ではクレームがつく。ブタ肉の計量のばらつきが1 gの標

準偏差がある正規分布に従う場合、何 g以上ときのみ販売すれば、ブタ肉が100 g以下のときに、誤って100 gとして売ってしまうことを1 %以下に防ぐことができるか?

正規分布による検定正規分布による検定

(注)通常ここでいう標準偏差ははかりの校正の標準不確かさに繰り返しの不確かさを足したものである。単純な繰り返しの変動や環境条件などの変動がある場合には、校正の不確かさだけでは十分ではない。

Page 17: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

17

仮説 = 「ブタ肉は100 gである。」

正規分布による検定正規分布による検定

つまり考えなくてはいけないのは、下の「真の平均が100 gの正規分布」である。

= 100g

= 1g

計測値を中心とする正規分布を考えるのではなく、仮説に基づいた分布を考える。

Page 18: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

18

正規分布の特徴正規分布の特徴

+ 2.97 ( + 3)

0.15 %99.85 %

+ 2.58

0.5 %99.5 %

+ 2.33

99 % 1 %

+ 1.96( + 2)

2.5 %97.5 %

+ 1.64

95 % 5 %

Page 19: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

19

正規分布による検定正規分布による検定

= 100g

= 1g

+ 2.33 = 102.33 g

99 % 1 %

今回の場合に当てはめると、

本当のブタ肉が100 gより少ないなら、「102.33 g以上」に計量される確率は1 %以下ということが分かる。

Page 20: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

20

正規分布による検定正規分布による検定

計量値が102.33 g以上であれば、仮説 = 「ブタ肉は100 gである。」は有意水準 1 %で棄却される。

論理を確認してみよう。

本当のブタ肉が100 gより少ないなら、「102.33 g以上」に計量される確率は1 %以下である。

「102.33 g以上」の時販売すれば、本当のブタ肉が100 gより少ないときに、誤って売る確率は1 %以下である。

Page 21: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

21

こぼれ話:統計でできることこぼれ話:統計でできること

「制御したい確率」を制御する検定ができているかは、しっかりとチェックする必要がある。例えば、 「本当は100 g以下のブタ肉にも関わらず、100 g以上として販売してしまう確率」と、「100 g以上として販売したブタ肉が本当は100 g以下である

確率」は違う。実は後者は古典的な統計で考えるのは非常に困難である。古典的な統計では「本当は○○だったとき、××という結果になる確率」を考えるものであり、「結果が××であったとき、本当は○○である確率」はなじまない。

ちなみに「本当は○○である確率」を考える統計をベイズ統計と呼び、古典的な統計とは一線を画す統計理論として注目を浴びている。

Page 22: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

22

2.t 分布を用いた検定

Page 23: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

23

t 分布を理解しようt 分布を理解しよう

正規分布の検定では、「本当の標準偏差」や近い値が分かっているときに用いることができるが、t 分布は

「本当の標準偏差」や近い値が分からないときに用いる。しかし、t 分布も計測値が「正規分布に従う」ことは前提としていることには注意が必要。

= 1 = 2 = 3 = 4

Page 24: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

24

t 分布の正体t 分布の正体

t 分布の導出

あるコンセントの電圧を測る。 5回の測定から平均値を100.0 V、1回の測定の標準偏差を(不偏)推定し0.1 Vと求めた。もし、“たまたま”本当の電圧の平均値が100.0 Vである

とすると、次にもう一度電圧を測定したとき、100.0 V±2×0.1 Vの範囲つまり、99.8 Vから100.2 Vの区間に測定値が入る確率はおよそ95 %と考えてよいだろうか。

もちろん、問題にするからには間違っているわけだが、なぜ間違っているのか、95 %より大きくなるか小さくなるかを考えてみよう。

Page 25: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

25

95 %

+ 1.96( + 2)

− 1.96( − 2)

t 分布の正体t 分布の正体

もし測定値が平均100 V、標準偏差0.1 Vの正規分布なら、一つの測定値が99.8 Vから100.2 Vの間に入る確率はおよそ95 %のはず。

2.5 %2.5 %

Page 26: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

26

t 分布の正体t 分布の正体

5

1

22

151

iii xxxs

分散の推定の不確かさ。

この式は、この式を使って何度も何度も分散を計算するとその平均値が本当の分散になるということに過ぎない。

「何度も何度も分散を計算すると」 ?

ポイントは

Page 27: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

= 100.0 V = 0.1V

27

t 分布の正体t 分布の正体

仮説に基づいた分布から、何度も何度も分散を計算すると、

{xi}

5

1

22

151

iii xxxs

何度も何度も!!

Page 28: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

28

新しい分布ができる!!

t 分布の正体t 分布の正体

計算されたs2(xi)

頻度その平均値が2 = 0.01 V2である。

Page 29: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

29

この分布を見てわかるように、不偏分散は本当の分散よりも小さく推定してしまうことの方が、大きく推定してしまうことよりも多い。

t 分布の正体t 分布の正体

確率

密度 0.01 V2

s2

59 % 41 %

大きい方に尾を引くため、それにつられて、平均値は大きくなる。

Page 30: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

30

t 分布の正体t 分布の正体

95 %

+ 2

− 2

> 95 %

2.5 %2.5 %

結果として、95 %よりも小さい確率でしか、−2sと+2sの間には次の測定値は入らない。

+ 2s − 2s

Page 31: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

では、実際のところ何%になるかというと、

t 分布の正体t 分布の正体

分散の分布から適当に一つ値s2を取って、平方根sを取ることに相当する。

正規分布から適当に一つの値xをとってくることに相当する。

過去の計測は、 未来の計測は、

これを繰り返して、 −2s < x− < 2sとなる確率を計算すればよい。

Page 32: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

32

t 分布の正体t 分布の正体

−2 < (x−)/s < 2でもいい。つまり、

分散の分布から適当に一つ値s2を取って、平方根sを取る。

正規分布から適当に一つの値xをとる。

sxt

を計算する。何度も何度も!!

Page 33: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

33

新しくできたt 値の分布について、 −2 < t < 2となって

いる確率を計算すればよい。(の値は関係ない。(次スライド))

t 分布の正体t 分布の正体

0 sxt 2−2

88 %

88 %と求まり、95 %より小さいことが分かる。

Page 34: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

34

t 分布の正体t 分布の正体

実は、この分布は繰返し回数にしか依存しない分布である。ちなみに繰返し回数無限大のt分布は正規分布に一致する。

sxt

の分布がt 分布である

繰り返し数ー1を自由度と呼び、繰り返し数n回のときのt値の分布を「自由度(n − 1 )のt分布」と呼ぶ。

Page 35: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

35

t 分布による区間推定t 分布による区間推定

両側検定による区間推定

ブロックの長さの測定を行った。10回繰返しから平均値10 cmが得ら

れた。また、その平均値のばらつきの標準偏差は 0.1 cmと不偏推定

された。このブロックの長さはどう報告すればよいか?測定のばらつきは正規分布に従うとする。

Page 36: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

36

仮説① = 「本当の長さはa(< 10 cm)である。」

仮説② = 「本当の長さはb(> 10 cm)である。 」

仮説は正規分布のときと変わらない。真の平均がaとbの正規分布を考える。しかし分散は未知。

= a

= b

t 分布による区間推定t 分布による区間推定

Page 37: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

37

t 分布の特徴t 分布の特徴

測定値が平均より大きくずれる場合も、小さくずれる場合も考える。例えば、t 値は繰り返し10回のとき、(−2.26、+2.26)の範囲に95 %の測定値が入る。

95 % 2.5 %2.5 %

2.26−2.26

Page 38: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

38

t 分布による区間推定t 分布による区間推定

「本当の長さがaであるとき、t = (10 cm – a)/0.1 cmというような0からかけ離れた値が計測される確率は5 %である」 ような aを見つければ、仮説 = 「本当の長さはa(< 10 cm)である。」は有意水準 5 %で棄却されるから、「本当の長さはaより大きい」となる。

95 % 2.5 %2.5 % 2.26−2.26

26.21.0

10

at

a = 9.774 cm

Page 39: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

39

t 分布による区間推定t 分布による区間推定

仮説① = 「本当の長さは9.77 cmである。」

仮説② = 「本当の長さは10.23 cmである。 」

t = (10 – b)/0.1 = −2.26 から b = 10.226 cmも求まる。

両方が有意水準 5 %で棄却され、95 % 信頼区間は「長さは9.77 cm から10.23 cmの間である」と結論づけることができる!

Page 40: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

40

こぼれ話:仮説と区間推定こぼれ話:仮説と区間推定

この区間推定で考えているのは「仮説が正しいときの分布」であり、正規分布である。「計測値から考えられる本当の値の分布」がt 分布になるように考えるのは、古典的な統計の考え方

からいうとおかしい。つまり、例の問題なら、区間推定において、下のような分布は一切出てこないのである。95 % 信頼区

間とは「その範囲に本当の平均があるなら、得られたデータが出てくる確率が5 %以上はある区間」という、一呼吸おいて考えないとよく分からない区間なのである。

前述のベイズ統計では左の分布が出てくる。興味のある方はベイズ統計について勉強してください。

95 % 2.5 %

9.77 cm

2.5 %

10.0 cm 10.23 cm

Page 41: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

41

クイズクイズ

区間推定

あるサンプルに含まれている有機物Aの濃度が5つの試料について測定した結果、平均値が5.0 mg/lと求まった。その平均値のばらつきの標準偏差は0.2 mg/lである。試料のばらつ

きに比べて、計測の不確かさが無視できるほど小さいとき、この有機物の濃度はどのように報告したらよいか?なお自由度4のt分布において、( −2.78、 +2.78 )の範囲に95 %のt 値が入ることが知られている。

Page 42: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

42

t 分布のまとめt 分布のまとめ

t 分布を用いる検定は「本当の標準偏差」や近

い値が分からないときに、平均値について議論したいときに用いることができる。

95 %信頼区間は「(計測値)±(t分布の上側の5 %点)× (推定された標準偏差)」で与えられる。

t 分布の形状は繰返し回数で変わる。

Page 43: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

43

3.拡張不確かさと区間推定

Page 44: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

44

拡張不確かさを算出しよう拡張不確かさを算出しよう

包含係数kを“95 %”になるようにちゃんと計算するべきという意見がある。“95 %”の意味するところはt分布の区間推定説明したが、実際の不確かさ評価においては単純なt 分布で済みそうな話はほとんどない。それではどのように計算されるのであろうか?その計算ために用いられているのはかなり大胆な近似法ーWelch-Satterthwaite近似である。

Page 45: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

45

有効自由度を用いた区間推定

ある液体の体積vを、5回反復測定し、測定データ{100.0, 100.3, 99.9, 99.7, 100.1 cm3}を得た。

この体積計は校正を受け、そのずれは調整されている。校正値v0の95 %信頼区間は±0.88 cm3であり、信頼区間は自由度11のt分布から求められた。

この液体の体積が、5回反復の平均から100.0 cm3と報告されるとき、その95 % 信頼区間を求めよ。

Welch-Satterthwaite近似による区間推定Welch-Satterthwaite近似による区間推定

Page 46: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

46

Welch-Satterthwaite近似による区間推定Welch-Satterthwaite近似による区間推定

3

1

2 cm 0001.01

111

n

kkk vv

nnvs

nvsvu

体積測定の平均値の不確かさは、

33

0 cm 040.020.2

cm 088.0 %511

点の大きさ分布 の自由度 t

Uvu

体積計の校正値v0の不確かさは、

不確かさ要因は繰返しと温度の不確かさのみである。2つの要因の標準不確かさを以下のように求める。

Page 47: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

47

Welch-Satterthwaite近似による区間推定Welch-Satterthwaite近似による区間推定

なお、体積の平均値vも校正値v0も体積測定への感度は1である。—

体積の標準不確かさは

3

2323

02222

cm 0.1077 cm 0.04cm 1000.0

0

vucvucvu vv

これも実験分散である。しかし、単独の正規分布から取られた値ではないので、t 分布と直接関連づけることはできない。

これを克服するために、近似的に関連づけようとするのが、Welch-Satterthwaite近似である。

Page 48: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

48

Welch-Satterthwaiteの近似

独立なm個の不確かさ成分u1(y)、u2(y)、…、um(y)があり、それぞれの自由度( = 実験回数 – 1)を1、2、…、mとすると、測定結果(y, uc(y))は以下の式で計算される自由度effのt分布に近似できる。

m

4

2

42

1

41

eff

4

yuyuyuyu mc

このeffを有効自由度と呼ぶ。

感度係数c1、…、cmを用いて

m

i i

iic xucyu1

44

eff

4

とも書ける。

有効自由度有効自由度

Page 49: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

49

Welch-Satterthwaite近似による区間推定Welch-Satterthwaite近似による区間推定例に当てはめると、

11cm 0.04

15cm 1000.0cm 0771.0

4343

eff

43

33.5eff

t2.52−2.52 95 %

数式の上では、自由度が整数でないt 分布も生成可能である。この図は自由度5.33のt 分布。非整数のeffが

定義の上で、おかしいと思うなら、自由度5のt 分布を用いてもよいだろう。

Page 50: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

50

仮説① = 「本当の体積は99.75 cm3である。」

仮説② = 「本当の体積は100.25 cm3である。 」

95 %信頼区間の幅は±2.52×u(v) ~ 0.25 cm3

両方が有意水準 5 %で棄却され、95 % 信頼区間は「99.75 cm3 から100.25 cm3」で与えられる!

Welch-Satterthwaite近似による区間推定Welch-Satterthwaite近似による区間推定

Page 51: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

51

Welch-Satterthwaite近似の背景Welch-Satterthwaite近似の背景

Welch-Satterthwaite近似の背景には実験分散は先の

正規分布から得られた不偏分散の分布に従うと「近似」することにある。さて、分散の分布の分散を考えると、u2(s2) = 24/で与えられるから、

yuyuyuc2

22

12

y ~ uc(y)、 1 ~ u1(y)…

2

42

1

41

4

222

y両辺の分散を取る。

2

42

1

41

4c

yuyuyu

Welch-Satterthwaiteの式この近似もかなり大胆である。

Page 52: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

52

自由度 = 実験回数 – 1の定義は不十分で、もっと複雑な検討が必要である。また、Bタイ

プの標準不確かさに対応できていないのは明らかである。その妥当性はともかく、実用上は、Welch-Satterthwaiteを用いるために、以下の自由度の決定方法を用いる場合がほとんどである。

Aタイプ評価した不確かさの場合

Bタイプ評価で校正証明書に有効自由度の記載がある場合

自由度 = 実験回数 – 1

自由度 = 校正証明書に記載の有効自由度

Bタイプ評価でそれ以外の場合

自由度 = ∞(無限大)

回帰で求めたパラメータなどではこうではないが、多くの場合はこれで問題ない。

他の方法もある。(GUM付属書G.4.2) 次ページ

自由度自由度

Page 53: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

もしも、Bタイプで評価された不確かさの成分が正規分布に従うならば、自由度Bに対して、u2(s2) = 24/Bが成立することから以下のように定めることもある。

53

自由度自由度

2

B 21

xuuxu

標準偏差sについて考えると、モデル式s = (s2)1/2から、

B

241222

2

2

2122

21~2

41

sssu

sdsdsu

もちろん、元が正規分布でないときにはなんの根拠もないし、標準不確かさがどのくらい不確かかに関する明確な情報があることも少ない。

つまり、標準不確かさが標準的にどのくらい不確かかという値を入れる。

Page 54: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

拡張不確かさ拡張不確かさ

0

04

04

eff

4

uyuvu

v

vc

44

eff

422 05774.0

41.005774.01.0

eff ~ 7.11で、包含係数k = tU(7.11, 0.95) = 2.36として、

33 cm 27.0cm 1155.036.2 vkuU c

例 ある液体の体積vを、5回反復測定し、測定データ{100.0, 100.3, 99.9, 99.7, 100.1 cm3}を得た。この体積計の表示の誤差は0.1 cm3を超えないと知られている。この液体の体積が、5回反復の平均から100.0 cm3と報告されるとき、95 % 信頼区間を求めよ。

表示の標準不確かさ0.1/√3 = 0.05774 cm3の自由度をv0= ∞(無限大)として、

Page 55: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

55

Welch-Satterthwaite近似は複数の不確かさ要

因がある場合に用いることができる近似的な区間推定方法である。

実験分散は正規分布からの不偏分散の分布とは直接関係ないので、数学的根拠は不十分だが、慎重な判断をしたいときには、よく使われている方法である。個人的には、正規分布とみなして、有意水準を小さくすることで信頼区間を大きくする方が、同じように慎重な判断をするのにも、理論的な整合性は高いように思う。特に「この範囲に真の値が入っていないと即クレームがつく」というような状況ではそもそも標準偏差の2~3倍の区間では小さすぎるだろう。

拡張不確かさのまとめ拡張不確かさのまとめ

Page 56: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

56

おわりに

Page 57: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

57

この資料では、「95 %信頼区間とは何か?」と「有効

自由度とは何か?」に力を割いて説明した。ともにわかりにくい概念の上に立ち、しかも有効自由度はその根拠が曖昧なものであるとは言えるが、その性質をよく理解すれば、特にどの試験を何回実験したら、望む精度が得られるのか?という検討においては、実用上役に立つ指標であろう。

おわりにおわりに

Page 58: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

58

参考資料(Excelでの計算方法、分布表)

Page 59: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

59

Excelで検定Excelで検定

t分布のパーセント点は以下の式で求めることができる。= TINV(両側パーセント, 自由度)

例えば、自由度9のt 分布の上側95 %信頼区間は、= TINV(0.10, 9) = 1.83

から求めることができる。

また、TINV関数は非整数の自由度には使えないので、Welch-Satterthwaite近似を用いた場合には、以下の式を使うことがある。

= SQRT(自由度/BETAINV(両側パーセント,自由度/2,1/2)-自由度)

正規分布のパーセント点は以下の式で求めることができる。= NORMINV(下側パーセント, 平均, 標準偏差)

Page 60: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

60

正規分布表正規分布表

0 1 2 3 4 5 6 7 8 90.001 3.0902 3.0618 3.0357 3.0115 2.9889 2.9677 2.9478 2.929 2.9112 2.89430.002 2.8782 2.8627 2.848 2.8338 2.8202 2.807 2.7944 2.7822 2.7703 2.75890.003 2.7478 2.737 2.7266 2.7164 2.7065 2.6968 2.6874 2.6783 2.6693 2.66060.004 2.6521 2.6437 2.6356 2.6276 2.6197 2.6121 2.6045 2.5972 2.5899 2.58280.005 2.5758 2.569 2.5622 2.5556 2.5491 2.5427 2.5364 2.5302 2.5241 2.51810.006 2.5121 2.5063 2.5006 2.4949 2.4893 2.4838 2.4783 2.473 2.4677 2.46240.007 2.4573 2.4522 2.4471 2.4422 2.4372 2.4324 2.4276 2.4228 2.4181 2.41350.008 2.4089 2.4044 2.3999 2.3954 2.3911 2.3867 2.3824 2.3781 2.3739 2.36980.009 2.3656 2.3615 2.3575 2.3535 2.3495 2.3455 2.3416 2.3378 2.3339 2.33010.01 2.3263 2.2904 2.2571 2.2262 2.1973 2.1701 2.1444 2.1201 2.0969 2.07490.02 2.0537 2.0335 2.0141 1.9954 1.9774 1.96 1.9431 1.9268 1.911 1.89570.03 1.8808 1.8663 1.8522 1.8384 1.825 1.8119 1.7991 1.7866 1.7744 1.76240.04 1.7507 1.7392 1.7279 1.7169 1.706 1.6954 1.6849 1.6747 1.6646 1.65460.05 1.6449 1.6352 1.6258 1.6164 1.6072 1.5982 1.5893 1.5805 1.5718 1.56320.06 1.5548 1.5464 1.5382 1.5301 1.522 1.5141 1.5063 1.4985 1.4909 1.48330.07 1.4758 1.4684 1.4611 1.4538 1.4466 1.4395 1.4325 1.4255 1.4187 1.41180.08 1.4051 1.3984 1.3917 1.3852 1.3787 1.3722 1.3658 1.3595 1.3532 1.34690.09 1.3408 1.3346 1.3285 1.3225 1.3165 1.3106 1.3047 1.2988 1.293 1.28730.1 1.2816 1.2265 1.175 1.1264 1.0803 1.0364 0.9945 0.9542 0.9154 0.87790.2 0.8416 0.8064 0.7722 0.7388 0.7063 0.6745 0.6433 0.6128 0.5828 0.55340.3 0.5244 0.4959 0.4677 0.4399 0.4125 0.3853 0.3585 0.3319 0.3055 0.27930.4 0.2533 0.2275 0.2019 0.1764 0.151 0.1257 0.1004 0.0753 0.0502 0.02510.5 0

確率

pの最終桁の前まで

確率pの最終桁

0 1 2 3 4 5 6 7 8 90.001 3.2905 3.2636 3.2389 3.216 3.1947 3.1747 3.1559 3.1382 3.1214 3.10540.002 3.0902 3.0757 3.0618 3.0485 3.0357 3.0233 3.0115 3 2.9889 2.97810.003 2.9677 2.9576 2.9478 2.9383 2.929 2.92 2.9112 2.9027 2.8943 2.88610.004 2.8782 2.8704 2.8627 2.8553 2.848 2.8408 2.8338 2.8269 2.8202 2.81350.005 2.807 2.8006 2.7944 2.7882 2.7822 2.7762 2.7703 2.7646 2.7589 2.75330.006 2.7478 2.7424 2.737 2.7317 2.7266 2.7214 2.7164 2.7114 2.7065 2.70160.007 2.6968 2.6921 2.6874 2.6828 2.6783 2.6738 2.6693 2.6649 2.6606 2.65630.008 2.6521 2.6479 2.6437 2.6396 2.6356 2.6315 2.6276 2.6236 2.6197 2.61590.009 2.6121 2.6083 2.6045 2.6008 2.5972 2.5935 2.5899 2.5863 2.5828 2.57930.01 2.5758 2.5427 2.5121 2.4838 2.4573 2.4324 2.4089 2.3867 2.3656 2.34550.02 2.3263 2.308 2.2904 2.2734 2.2571 2.2414 2.2262 2.2115 2.1973 2.18350.03 2.1701 2.1571 2.1444 2.1321 2.1201 2.1084 2.0969 2.0858 2.0749 2.06420.04 2.0537 2.0435 2.0335 2.0237 2.0141 2.0047 1.9954 1.9863 1.9774 1.96860.05 1.96 1.9515 1.9431 1.9349 1.9268 1.9189 1.911 1.9033 1.8957 1.88820.06 1.8808 1.8735 1.8663 1.8592 1.8522 1.8453 1.8384 1.8317 1.825 1.81840.07 1.8119 1.8055 1.7991 1.7928 1.7866 1.7805 1.7744 1.7684 1.7624 1.75650.08 1.7507 1.7449 1.7392 1.7335 1.7279 1.7224 1.7169 1.7114 1.706 1.70070.09 1.6954 1.6901 1.6849 1.6798 1.6747 1.6696 1.6646 1.6596 1.6546 1.64970.1 1.6449 1.5982 1.5548 1.5141 1.4758 1.4395 1.4051 1.3722 1.3408 1.31060.2 1.2816 1.2536 1.2265 1.2004 1.175 1.1503 1.1264 1.1031 1.0803 1.05810.3 1.0364 1.0152 0.9945 0.9741 0.9542 0.9346 0.9154 0.8965 0.8779 0.85960.4 0.8416 0.8239 0.8064 0.7892 0.7722 0.7554 0.7388 0.7225 0.7063 0.69030.5 0.6745 0.6588 0.6433 0.628 0.6128 0.5978 0.5828 0.5681 0.5534 0.5388

確率pの最終桁

確率

pの最終桁の前まで

両側パーセント点片側(上側)パーセント点

Page 61: 統計的仮説検定から 有効自由度に至るまでを...1 産業技術総合研究所計測標準研究部門 計量標準システム科計量標準基盤研究室 城野克広

61

t 分布表t 分布表

0.001 0.0025 0.005 0.01 0.025 0.05 0.11 636.62 254.65 127.32 63.657 25.452 12.706 6.31382 31.599 19.962 14.089 9.9248 6.2053 4.3027 2.923 12.924 9.4649 7.4533 5.8409 4.1765 3.1824 2.35344 8.6103 6.7583 5.5976 4.6041 3.4954 2.7764 2.13185 6.8688 5.6042 4.7733 4.0321 3.1634 2.5706 2.0156 5.9588 4.9807 4.3168 3.7074 2.9687 2.4469 1.94327 5.4079 4.5946 4.0293 3.4995 2.8412 2.3646 1.89468 5.0413 4.3335 3.8325 3.3554 2.7515 2.306 1.85959 4.7809 4.1458 3.6897 3.2498 2.685 2.2622 1.833110 4.5869 4.0045 3.5814 3.1693 2.6338 2.2281 1.812511 4.437 3.8945 3.4966 3.1058 2.5931 2.201 1.795912 4.3178 3.8065 3.4284 3.0545 2.56 2.1788 1.782313 4.2208 3.7345 3.3725 3.0123 2.5326 2.1604 1.770914 4.1405 3.6746 3.3257 2.9768 2.5096 2.1448 1.761315 4.0728 3.6239 3.286 2.9467 2.4899 2.1314 1.753120 3.8495 3.4554 3.1534 2.8453 2.4231 2.086 1.724725 3.7251 3.3606 3.0782 2.7874 2.3846 2.0595 1.708130 3.646 3.2999 3.0298 2.75 2.3596 2.0423 1.697340 3.551 3.2266 2.9712 2.7045 2.3289 2.0211 1.683950 3.496 3.184 2.937 2.6778 2.3109 2.0086 1.675960 3.4602 3.1562 2.9146 2.6603 2.299 2.0003 1.670680 3.4163 3.122 2.887 2.6387 2.2844 1.9901 1.6641100 3.3905 3.1018 2.8707 2.6259 2.2757 1.984 1.6602120 3.3735 3.0885 2.8599 2.6174 2.2699 1.9799 1.6577∞ 3.2905 3.0233 2.807 2.5758 2.2414 1.96 1.6449

p

両側パーセント点片側(上側)パーセント点

0.001 0.0025 0.005 0.01 0.025 0.05 0.11 318.31 127.32 63.657 31.821 12.706 6.3138 3.07772 22.327 14.089 9.9248 6.9646 4.3027 2.92 1.88563 10.215 7.4533 5.8409 4.5407 3.1824 2.3534 1.63774 7.1732 5.5976 4.6041 3.7469 2.7764 2.1318 1.53325 5.8934 4.7733 4.0321 3.3649 2.5706 2.015 1.47596 5.2076 4.3168 3.7074 3.1427 2.4469 1.9432 1.43987 4.7853 4.0293 3.4995 2.998 2.3646 1.8946 1.41498 4.5008 3.8325 3.3554 2.8965 2.306 1.8595 1.39689 4.2968 3.6897 3.2498 2.8214 2.2622 1.8331 1.38310 4.1437 3.5814 3.1693 2.7638 2.2281 1.8125 1.372211 4.0247 3.4966 3.1058 2.7181 2.201 1.7959 1.363412 3.9296 3.4284 3.0545 2.681 2.1788 1.7823 1.356213 3.852 3.3725 3.0123 2.6503 2.1604 1.7709 1.350214 3.7874 3.3257 2.9768 2.6245 2.1448 1.7613 1.34515 3.7328 3.286 2.9467 2.6025 2.1314 1.7531 1.340620 3.5518 3.1534 2.8453 2.528 2.086 1.7247 1.325325 3.4502 3.0782 2.7874 2.4851 2.0595 1.7081 1.316330 3.3852 3.0298 2.75 2.4573 2.0423 1.6973 1.310440 3.3069 2.9712 2.7045 2.4233 2.0211 1.6839 1.303150 3.2614 2.937 2.6778 2.4033 2.0086 1.6759 1.298760 3.2317 2.9146 2.6603 2.3901 2.0003 1.6706 1.295880 3.1953 2.887 2.6387 2.3739 1.9901 1.6641 1.2922100 3.1737 2.8707 2.6259 2.3642 1.984 1.6602 1.2901120 3.1595 2.8599 2.6174 2.3578 1.9799 1.6577 1.2886∞ 3.0902 2.807 2.5758 2.3263 1.96 1.6449 1.2816

p