8
九州大学学術情報リポジトリ Kyushu University Institutional Repository 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 高木, 英行 九州大学大学院芸術工学研究院 http://hdl.handle.net/2324/1467639 出版情報:システム/制御/情報 : システム制御情報学会誌. 58 (10), pp.432-438, 2014-10. システム 制御情報学会 バージョン: 権利関係:

使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

九州大学学術情報リポジトリKyushu University Institutional Repository

使える!統計検定・機械学習 : II : 3群以上の場合の有意差検定

高木, 英行九州大学大学院芸術工学研究院

http://hdl.handle.net/2324/1467639

出版情報:システム/制御/情報 : システム制御情報学会誌. 58 (10), pp.432-438, 2014-10. システム制御情報学会バージョン:権利関係:

Page 2: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

432  システム/制御/情報,Vol. 58, No. 10, pp. 432–438, 2014

  講 座

使える!統計検定・機械学習 — II— 3群以上の場合の有意差検定

高木 英行*

1. はじめに「使える!統計検定」講座は,統計検定の数学的側面

の解説ではなく,ユーザとしての利用ノウハウを説明するシリーズで,読者が「どのような場合に,どの検定手法を,どのように使えばよいのか」を理解して実際に使えるようになっていただくことを目的としている.残念なことに,実験結果のグラフを見て「視覚的に」差がありそうだというだけで,自分の提案手法が有効であると主張する発表がいまだにあるのが現状である.この状況下,統計検定ユーザとしての筆者の利用ノウハウを書くだけでも多少はお役に立つであろうと考えたことが本解説をお引き受けした背景である.本解説の対象者は,「統計検定をしなくちゃならないの

で,小難しいことはどうでもいいから,すぐ使えるようにちょちょっと教えてほしい.高価な商用の統計解析ソフトは持っていないし,フリーでも統計解析用プログラミング言語Rをインストールしたり覚えたりするのは面倒だ.Excelなら少しは使える」,という読者を想定している.連載第 1回目の解説 [1]では第 1 図の左半分の 2群の

場合を扱った.第 2回目の本解説では図の右半分,すなわち,三つ以上のデータグループ(標本,群)の各平均値の差が統計的な意味を持った差なのか,それとも,誤差の範疇なのかを判定する検定手法について説明する.k個のパターン認識手法や最適探索手法やニューラルネット学習手法などの性能比較をし,他手法に比較して有意に優れた手法がありうるかどうかを判定するような場合がその応用事例である.なお,本連載の内容のスライドはダウンロード可能である [2].

2. 検定手法選定のための 3条件本連載のハイライトである「どの検定手法をどのよう

に選ぶか」の解答が第 1 表の 3点をチェックすることである.この結果,第 1 図の 23通りの場合分けができ,読者が選択すべき統計検定手法が確定する.連載第 2回目の本解説では,三つ以上の手法の平均性

能値の間に有意な性能差があるかどうかを判定する場合を扱うので,第 1 表の第 1判定条件はもちろん 3群以上∗ 九州大学大学院 芸術工学研究院Key Words: statistical tests, analysis of variance, ANOVA,

Kruskal-Wallis test,Friedman test,multiple comparison.

第 1 図 本連載講座で扱う平均値間の差を検定する手法一覧

第 1 表 検定手法選択のための三つの判定条件(1) 比較対象数が 2群か 3群以上か?(2) 各群のデータが正規分布をしているか否か?(3) 各群のデータに対応関係があるか否か?

である.第 2の判定条件は,各群のデータが正規分布をしてい

ると見なせるかどうかである.第 2 図は三つの進化計算手法の探索性能を複数の試行の平均収束曲線で比較する例で,第 g世代で 3手法間に有意な性能差があるかどうかを示すには,第 g世代での 3手法の性能値データがおのおの正規分布をしているかどうかを検定(正規性の検定)することから始める.講座連載第 1回目で紹介したように,正規性の検定手法にはいろいろあり,フリーの Excel用のアドイン1もあるので,この正規性検定を行い,すべてのデータグループのデータが正規分布をしていると判断できれば 3.の分散分析を適用する2.そうでなければ 4.のKruskal-Wallis検定か Friedman検定を選択する.第 3の判定条件は,群間にデータの対応関係があるか

どうかである.たとえば,日本人,米国人,北欧人の身長データの場合は,同じ人のデータではないので対応関係がないといえる.食前,食中,食後の血糖値を調べ

1たとえば,執筆時現在,http://www.vector.co.jp/にフリーの正規性検定ツールがある.

23.1で述べるが,Excelの分散分析には正規性だけでなく等分散性も要求される.

– 38 –

Page 3: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

高木:使える!統計検定・機械学習 — II 433

第 2 図 第 g世代で性能差に有意な差があるかどうかを調べたい収束曲線の例

第 3 図 Excel2013で用意されているデータ分析ツール

たデータでは,同じ人の食前,食中,食後の血糖値がわかっているので,対応関係があるといえる.データに対応関係がある場合の方が,情報量が多いため有意差の検出力が高い.本連載第 1回目の解説 [1]で述べたように,実験計画の段階でデータに対応関係をもたせるようにすれば,提案手法の優位性を統計的に示すことができるかもしれない.

3. データに正規性がある場合3.1 データに対応関係がない場合:

一元配置の分散分析Excelメニューで「データ」→「データ分析」1を選択

すると,3種類の分散分析が見つかる(第 3 図).データが正規分布をしておりデータに群間の対応関係がない場合は「分散分析:一元配置」を選択する.第 4 図左のように,データグループ2間のデータに対

応関係がない場合の要素はデータグループだけで,同図右のように対応関係がある場合はデータグループとデータの二つの要素がある,と考えて,前者を single factor

(一元配置),後者を two-factor(二元配置)とよぶ.3.1と 3.2のようにデータグループ間のデータに対応関係が

1初めて利用する場合は,Excelの「ファイル」「オプション」「アドイン」から「分析ツール」を有効にすること.

2統計の分野では「群」「標本」の用語が使われるが,第 2 表 (b),(c)のように,Excelの分散分析表出力では「列」と表現される.

第 4 図 一元配置(要素が一つ)と二元配置(要素が二つ)

あるかないかの違いが,一元配置か二元配置の違いになる.第 2 図の例でいえば,第 n世代での収束性能値を第 5 図 (a)のように集めて検定する場合,要因は比較するアルゴリズムだけなので一元配置である.

つぎに 3 群以上の場合の等分散性検定手法であるBartlettの検定3をしてすべてのデータグループの分散が等しいといえるかどうかを調べる.講座連載第 1回目では,F 検定を用いて正規分布するデータの等分散性を調べ,分散が等しい場合の t-検定,または,等しくない場合のWelchの t-検定を選んだ [1].分散分析でも同様に等分散性がある場合の分散分析と成り立たない場合の分散分析(Welchの分散分析)がある.最近の統計解析パッケージやR言語には両者が用意されているが,Excelの分析ツールにはWelchの分散分析が用意されていない(第 3 図)ので,正規性はあるが等分散性が成り立たない場合は,Excelを諦めてWelchの分散分析の入った統計パッケージを持っている人にお願いをしよう.Excel分析ツールから「分散分析:一元配置」を実行

すると,第 2 表 (a)のような分散分析表が得られる4.この中の p値が 0.05あるいは 0.01以下であれば,危険率5%あるいは 1%でデータグループの平均間のどこかに有意な差があると結論付ける.「どこか」では困る,という検定ユーザは 5.の多重比較を行う.

3.2 データに対応関係がある場合:二元配置の分散分析

データが正規分布をしておりデータに対応関係がある場合は二元配置の分散分析を選択する.前節同様,Bartlettの検定で等分散性が成り立たない場合は Excel

での二元配置分散分析を諦めて 4.2の Friedman検定を選択するか,Welchの分散分析の入った統計パッケージを持っている人にお願いをしよう.二元配置には「繰り返しのない二元配置」と「繰り返

しのある二元配置」がある.第 5 図 (b)のように同じ初3執筆現在,http://www.vector.co.jp/にフリーのBartlett検定ツールがある.

4第 2 表は分散分析表の形式を示すためにダミーデータで作成したものである.

– 39 –

Page 4: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

434 システム/制御/情報 第 58 巻 第 10 号  (2014)

第 5 図 分散分析のためのデータ形式.(a)一元配置.比較するアルゴリズムだけが要素.(b) 繰り返しのない二元配置.比較するアルゴリズムと初期探索点が要素.(c) 繰り返しのある二元配置.比較するアルゴリズムとベンチマーク関数が要素で,各関数でいろいろな初期探索点からの収束性能値を調べる.(d)

繰り返しのない三元配置.

期探索点同士でアルゴリズムを比較する場合,初期探索点が第 2の要素に加わる.同じ条件で比較するという情報量が増えたぶん第 5 図 (a)の一元配置よりも有意差の検定力が上がる.しかし,繰り返しのない二元配置では,あるアルゴリズムのある初期探索点でのデータが一つしかないため,二つの要素について解析しようにも,平均値も分散も計算できない.初期探索点の代わりにベンチマーク関数を第 2の要素としても同じことである.二つの要因間の交互作用がないと仮定できる場合にのみ正規性の検定や等分散性の検定などができるが,交互作用の有無についての検定もできないので,得られた分散分析結果も近似と割り切ったほうが無難である.これらのことから,各条件で複数のデータをとって繰り返しのある二元配置分散分析を行うことが望ましい.

第 2 表 Excel分散分析表の例

(a)「分散分析:一元配置」変動要因 変動 自由度 分散 観測された P-値 F 境界値

分散比グループ間 30.5005 2 15.2503 2.91309 0.06720 3.25945

グループ内 188.463 36 5.23530

合計 218.964 38

(b)「分散分析:繰り返しのない二元配置」変動要因 変動 自由度 分散 観測された P-値 F 境界値

分散比行 88.8702 12 7.40585 1.78467 0.10980 2.18338

列 30.5005 2 15.2503 3.67503 0.04052 3.40283

誤差 99.5928 24 4.14970

合計 218.963 38

(c)「分散分析:繰り返しのある二元配置」変動要因 変動 自由度 分散 観測された P-値 F 境界値

分散比標本 26.8750 5 5.3750 1.21172 0.36121 3.10588

列 16.6667 1 16.6667 3.75728 0.07646 4.74723

交互作用 17.2483 5 3.44967 0.77768 0.58429 3.10588

繰り返し 53.2300 12 4.43583

誤差合計 114.020 23

第 5 図 (c)は,アルゴリズムとベンチマーク関数の 2

要素に対して,ベンチマーク関数で複数の初期探索点で性能評価した場合で,繰り返しのある二元配置という.上述の繰り返しのない二元配置の問題が解決できる.また,第 2 表 (c)のように交互作用も検定できるので,たとえば,ある特性のベンチマーク関数には強いが別の特性の関数には弱いようなアルゴリズムが含まれるかどうかの情報が得られる.さらに情報量を増やして第 5 図(d)のデータ配列にすると,アルゴリズム,ベンチマーク関数,初期探索点という三つの要素を解析する三元配置になる.Excelでは第 3 図の 2種類の二元配置分散分析(「分

散分析:繰り返しのない二元配置」と「分散分析:繰り返しのある二元配置」)が用意されており,これらを選択して実行すると,第 2 表 (b)(c)のような分散分析表が得られる1.データグループの各平均値間に有意な差があるかどうかを判定するには,分散分析表に複数あるp値の中から「列」の p値に注目し,0.05あるいは 0.01

以下かどうかで有意差判定をする.3.1で述べたように,この分散分析でデータグループ

間に有意な差があることがわかっても,「どこか」に有意な差があること以上はわからない.「どこに」有意な差があるかを知るには 5.の多重比較をする必要がある.

1第 2 表 (c)の中で「標本」とあるのは,データグループ(群)ではなくおのおののデータサンプルを意味している.統計分野では標本=群とすることが多いので,このExcel表現は紛らわしい.

– 40 –

Page 5: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

高木:使える!統計検定・機械学習 — II 435

4. データに正規性がない場合4.1 データに対応関係がない場合:

Kruskal-Wallis検定講座連載第 1回目の 2群間の有意差検定 [1]と同様,

データが正規分布しているとはいえない場合はノンパラメトリックな検定方法を選択する.ノンパラメトリック検定方法はデータ値の大小の順位関係を利用して有意に偏っているかどうかを判定する.データに対応関係がない場合は,第 1 表からKruskal-

Wallis検定を選択する.検定手順は以下のとおりである.(step 1) 全データに順位(rank)を付ける1.(step 2) 4種類の数値(N , k, ni, Ri)を求める.

(step 3) 検定のためのH値を計算する.

H =12

N(N+1)

k∑i=1

R2i

ni−3(N+1) (1)

(step 4) Hを付録第A1表のKruskal-Wallis検定表に照らし合わせて有意差判定を行う.データ規模が大きくて付録第A1表が使えない場合は,Hが自由度k−1の χ2に従うものとして χ2検定表で有意差判定を行う.データ数が 6個,5個,6個から成る三つのデータグ

ループ(群数= 3)の第 6 図の例を使って検定方法を見てみよう.(step 1)まず図のように全データに第 1位~第 17位までの順位を付ける.(step 2)つぎに 4 種類の数値を求める.データ総数N =17個,グループ数 k=3,各データ数 (n1,n2,n3)=

(6,5,6)個,順位の累積数 (R1,R2,R3)= (38,69,46),を求める.(step 3)これらの数値を (1)式に代入すると

H =12

N(N+1)

k∑i=1

R2i

ni−3(N+1)

=12

17(17+1)

(382

6+

692

5+

462

6

)−3(17+1)

= 6.609

(step 4)H = 6.609 を付録第 A1 表と比較する.表の(n2,n1,n3) = (5,6,6) の危険率 5%と 1%の H の有意点(H =5.765およびH =8.124)と比較する.すると,第 7 図のような関係がある.この図の斜線部分は,全体面積のうちの 1%を占める領域であり,H =6.609はこのわずかな領域に入るような危険率で有意な差があるとはいえないが,危険率 5%の領域(有意点の右側の領域)には入っているので,少なくとも危険率 5%では三つのデータグループ間のどこかに有意な差があるといえる.

1Excelにはデータ値から順位を求めるRANK()関数が用意されている.順位は昇べき順でも降べき順でもよい.同順位には平均順位を割り振る.

第 6 図 Kruskal-Wallis検定の例題.計算にはまず,N:全データ個数,k:データグループ数(群数),ni:第i番目のデータグループのデータ数,Ri:第 i番目のデータグループの各データに割り振られた順位の総和,を求める.

第 7 図 H =6.609を危険率 5%と 1%の有意点と比較する.

「どこに」有意な差があるかを調べるには 5.の多重比較を行う.データ総数 N が 17を超えたり,四つ以上のデータ

グループ間の比較をする場合は,付録第 A1 表が使えない.この場合は,H が自由度 k−1の χ2 分布に従うものとして,統計の教科書などにある χ2検定表で有意差判定を行う.Excelには CHISQ.INV.RT(確率,自由度)関数が用意されているので,χ2 分布での危険率1%と 5%の有意水準を CHISQ.INV.RT(0.01, k−1)とCHISQ.INV.RT(0.05, k−1)から求め,H をこれらと比較した方が簡単であろう.

4.2 データに対応関係がある場合:Friedman検定

データグループ間のデータに対応関係がある場合は,第 1 表からFriedman検定を選択する.この検定方法は,対応するデータ間の順位を求め,データグループごとの順位に偏りがないかを調べる.検定手順は以下のとおりである.(step 1) データグループ間の対応のあるデータの間で

順位(rank)を付ける.(step 2) 3種類の数値(データグループ数(群数)k,

各グループのデータ数(群サイズ)n,第 i番目のデータグループの順位の合計Ri)を求める.

(step 3) 検定のためのχ2r値を計算する.

– 41 –

Page 6: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

436 システム/制御/情報 第 58 巻 第 10 号  (2014)

第 3 表 Friedman検定のための例題:4手法(a,b,c,d)それぞれを評価問題(A,B,C,D)に適用した場合の性能表評価 手法問題 a b c d

A 0.92 0.75 0.65 0.81

B 0.48 0.45 0.41 0.52

C 0.56 0.41 0.47 0.50

D 0.61 0.50 0.56 0.54

第 4 表 第 3 表を変換した性能の順位表評価 手法問題 a b c d

A 4 2 1 3

B 3 2 1 4

C 4 1 2 3

評価問題数

D 4 1 3 2 (n=4)

合計順位 15 6 7 12               � �� �手法( a,b,c,d)の数 (k=4)

第 8 図 第 3 表を図的化し,対応する 4データ内で第 1位から第 4位の順位を付けたもの

χ2r =

12

nk(k+1)

k∑i=1

R2i −3n(k+1) (2)

(step 4) χ2r を付録第A2表の Friedman検定表に照ら

し合わせて有意差判定を行う.群数や総データ数が多い場合は,χ2

r が自由度 k−1の χ2分布に従うものとしてχ2検定表で有意差判定を行う.

Friedman検定の演習をしてみよう.第 3 表は 4種類の手法(a,b,c,d)を評価問題(A,B,C,D)に適用し,4

種類の手法の間に有意な性能差があるかどうかを検定する例である.(step 1)同じ評価問題で 4手法(a,b,c,d)の性能競争ができるので(すなわち,データに対応関係があるので),第 8 図のように評価問題ごとに性能順位を求め,順位表(第 4 表)に書き直す.(step 2)この順位表から 3種類の数値を求めると,k=4

グループ,n= 4 データ,(R1,R2,R3,R4) =(15, 6, 7,

12).

(step 3)これらの数値を (2)式に代入する.

χ2r =

12

nk(k+1)

k∑i=1

R2i −3n(k+1)

=12

4∗4∗(4+1)

(152+62+72+122

)−3∗4∗(4+1)

= 8.1

(step 4)得られた χ2r =8.1を付録第 A2表の Friedman

検定表に照らし合わせると,「危険率 5%の有意点 (7.8) <

8.1 <危険率1%の有意点 (9.6)」なので,危険率1%で有意な差があるとはいえないが,危険率5%で四つのデータグループの間のどこかに有意な差があるといえる.データグループ数が k=5以上の場合は,4.1で述べたようにχ2検定表かExcelのCHISQ.INV.RT()関数を使って有意差判定を行う.「どこに」有意な差があるかを調べるには次節の多重比較を行う.

5. 多重比較本解説で紹介したすべての検定方法で,有意差があり

と判定された場合は多群間のどこかに有意な差がある,という表現をした.これは,「多群間に有意な差はない」という帰無仮説が否定されても「どこに」有意な差があることを示すことにはならないためである.しかし現実問題として,自分の提案手法が従来法よりも優れていることを実験的に示したいがために統計検定をする読者にとって,「どこかに有意差がある」といわれても困る.連載第 1回目の解説 [1]で 2群の平均値の差の検定方

法を学んだのだから,それぞれの平均値間にこの検定法を適用すれば「どこに」有意な差があるのかが簡単にわかるではないか,との声が聞こえてきそうである.しかし,単純に 2群の検定手法を複数回適用して 3群以上の場合の検定の代用としてはいけない.m回適用して 1回でも有意差を検出したら本解説の 3群以上の場合の検定方法 1回で有意差検出をしたことに相当するので,この場合の信頼水準は(2群の差の検定の信頼水準)mになってしまう.たとえば,三つの平均値間に危険率 5%の t-

検定を 3回適用すれば,危険率 14%(=1−(1−0.05)3)の分散分析をしたことに相当するので,甘い検定をしていることになる1.では,2群の判定を厳しくして複数回適用し,全体と

してちょうどよい有意水準になるようにすればよいのではないか,という考えが生まれよう.これが多重比較である.これまで多くの多重比較法が提案されており,どの手

法を使うべきか迷ってしまう.まずは全体像が見えるように,すべての群間の対比較(データグループのすべて

1有意というべきでない状況を有意と判断してしまう誤りを第1種の過り(または偽陽性,α過誤)という.その逆に有意というべき状況を有意ではないという誤りを第 2種の過り(または偽陰性,β過誤)という.

– 42 –

Page 7: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

高木:使える!統計検定・機械学習 — II 437

第 5 表 文献 [4]の表 1.3の一部を抜き出し加筆した多重比較法.*は等分散性/非等分散性にかかわらず適用可能な手法で,そのほかは等分散性データへの適用手法.◎○□△の記号は有意差の検出力の高い順を示す.比較 1:すべての群間の対比較への適用,比較 2:対照群との対比較への適用,分布 1:データが正規分布している場合への適用,分布 2:データが正規分布以外の分布をしている場合への適用.手法 比較 1 比較 2 分布 1 分布 2

Tukey-Kramer法 □ ○Dunnett法 □ ○Sheffe法 △ △ ○Steel-Dwass法 □ ○Steel法 □ ○Bonferroni法 ∗ △ △ ○ ○Holm法 ∗ □ □ ○ ○Shaffer法 ∗ ○ ○ ○Holland-Copenhaver法 ○ ○ ○Tukey-Welsch法 ○ ○ ○Peritz法 ◎ ○ ○Dunnettの ◎ ○ ○逐次既客型検定法

の二つの平均値間の差の検定)をする場合の代表的な多重比較法と,対照群との対比較(一つのデータグループとその他すべてのデータグループとの平均値間の差の検定)をする代表的な多重比較法を第 5 表に示す.文献 [5]

にも同様に多重比較法の選択フローチャートがある.第 5 表を眺めると,Bonferroni法とその改良版であ

るHolm法が使えるようになれば,オールマイティに利用できそうである.ほかの手法を使いたい場合は,統計パッケージに各検定方法に合った多重比較法がセットにされていることが多いので,その中から使えばよい.フリーのソフト1もある.Bonferroni法の計算は非常に簡単なので統計ソフトを

探す必要はない.データグループ(群)数を kとしよう.連載第 1回目 [1]の 2群の検定手法を適用する回数(すべての群間対比較なら kC2 回,対照群との対比較ならk−1回)で有意水準を割って検定を厳しく補正するだけである(逆に p値にこの回数を掛けても同じこと).たとえば,4群の検定を行うために 6回の 2群の検定手法を適用して 6個の p値を求めた場合は,これらの p値を0.05/6および 0.01/6と比較することで,危険率 5%および 1%で有意差があるかどうかを検定する.Bonferroni

の補正は簡単であるが,検定結果が厳しくなる傾向にある.Holmの方法はBonferroni法のこの点を改良したもの

で,Excelや電卓で簡単に計算できる.データグループ

1たとえば,執筆時現在,http://www.vector.co.jp/にフリーの多重検定ツールがある.

第 6 表 4群にHolm法を適用した例2群間 p値 補正 p値式 補正 p値群 1–群 2 0.0076 =p値*6 0.0456

群 2–群 4 0.0095 =p値*5 0.0475

群 2–群 3 0.0280 =p値*4 0.1120

群 1–群 3 0.0320 =p値*3 0.0960

群 3–群 4 0.0380 =p値*2 0.0760

群 1–群 4 0.0410 =p値*1 0.0410

(群)数を k,2群用の検定を適用する回数を rとしよう.(step 1) データグループ(群)のすべての群間に,

第 1 図の 2 群の検定手法を適用し p 値を求める.適用する検定手法は連載第 1回目 [1]を参照のこと.

(step 2) 得られた p値を昇べき順に並べ替える.(step 3) iを並べ替えた順とすると,補正 p値 = p値

×(r+1− i)を求める.(step 4) 並び替えた順に補正 p値が危険率 5%,また

は,1%で有意差判定を行う.有意水準を超えた段階で判定をやめ,それ以降の群間には有意差なしとする.

k = 4 群の場合の適用例を示す.(step 2) の状態が第 6 表の第 1 列,第 2 列であるとしよう.第 3 列が,r= kC2 =6とする (step 3)の 計算式で,第 4列がその結果である.危険率 5%の場合,(群 1–群 2)と(群 2–群4)のみが有意差ありと判断する.(群 1–群 4)の補正 p

値は 0.05未満であるが,(step 4)にしたがって補正 p値上位第 2位までのみを有意な差と判断する.

6. おわりに講座連載第 2回目の本解説は,3群以上の場合の平均

値間に有意な差があるかどうかを検定する手法の選択方法と使い方について説明した.連載第 1回目と第 2回目をご覧いただければ,まずはどの検定手法を使えばよいかの判断がつき,具体的に計算ができると思う.講座連載第 3回目は,主観評価実験によく使われる検定手法について解説する予定である.

謝 辞

本解説は数理統計学がご専門の永田靖教授(早稲田大学創造理工学部)に監修をいただいた.御礼申し上げる.また九大大学院芸術工学研究院の大草孝介助教には資料提供とコメントをいただいた.御礼申し上げる.

(2014年 6月 2日受付)

参 考 文 献

[1] 高木: 使える!統計検定・機械学習 — I —2群間の有意差検定; システム/制御/情報, Vol. 58, No. 8, pp.

345–351 (2014)

[2] http://www.design.kyushu-u.ac.jp/˜takagi/

TAKAGI/downloadablefileJ.html

– 43 –

Page 8: 使える!統計検定・機械学習 : II : 3群以上の場合 の有意差検定 · は,F 検定を用いて正規分布するデータの等分散性を調 べ,分散が等しい場合のt-検定,または,等しくない場

438 システム/制御/情報 第 58 巻 第 10 号  (2014)

[3] 市原: バイオサイエンスの統計学―正しく活用するための実践理論, 南江堂 (1990)

[4] 永田,吉田: 統計的多重比較法の基礎, サイエンティスト社 (1997)

[5] 対馬: 多重比較法, http://www.hs.hirosaki-u.ac.jp/

˜pteiki/research/stat/multi.pdf

付 録

第 A1 表 Kruskal-Wallisの検定表.危険率 5%と 1%のH

の有意点.n1, n2, n3 は群数 3の場合のデータ個数([3]のデータをもとに本表を作成).

データ数 危険率 データ数 危険率n1 n2 n3 5% 1% n1 n2 n3 5% 1%

2 2 2 – – 3 3 3 5.606 7.2

2 2 3 4.714 – 3 3 4 5.791 6.746

2 2 4 5.333 – 3 3 5 6.649 7.079

2 2 5 5.16 6.533 3 3 6 5.615 7.41

2 2 6 5.346 6.655 3 3 7 5.62 7.228

2 2 7 5.143 7 3 3 8 5.617 7.35

2 2 8 5.356 6.664 3 3 9 5.589 7.422

2 2 9 5.26 6.897 3 3 10 5.588 7.372

2 2 10 5.12 6.537 3 3 11 5.583 7.418

2 2 11 5.164 6.766 3 4 4 5.599 7.144

2 2 12 5.173 6.761 3 4 5 5.656 7.445

2 2 13 5.199 6.792 3 4 6 5.61 7.5

2 3 3 5.361 - 3 4 7 5.623 7.55

2 3 4 5.444 6.444 3 4 8 5.623 7.585

2 3 5 5.251 6.909 3 4 9 5.652 7.614

2 3 6 5.349 6.97 3 4 10 5.661 7.617

2 3 7 5.357 6.839 3 5 5 5.706 7.578

2 3 8 5.316 7.022 3 5 6 5.602 7.591

2 3 9 5.34 7.006 3 5 7 5.607 7.697

2 3 10 5.362 7.042 3 5 8 5.614 7.706

2 3 11 5.374 7.094 3 5 9 5.67 7.733

2 3 12 5.35 7.134 3 6 6 5.625 7.725

2 4 4 5.455 7.036 3 6 7 5.689 7.756

2 4 5 5.273 7.205 3 6 8 5.678 7.796

2 4 6 5.34 7.34 3 7 7 5.688 7.81

2 4 7 5.376 7.321 4 4 4 5.692 7.654

2 4 8 5.393 7.35 4 4 5 5.657 7.76

2 4 9 5.4 7.364 4 4 6 6.681 7.795

2 4 10 5.345 7.357 4 4 7 5.65 7.814

2 4 11 5.365 7.396 4 4 8 5.779 7.853

2 5 5 5.339 7.339 4 4 9 5.704 7.91

2 5 6 5.339 7.376 4 5 5 5.666 7.823

2 5 7 5.393 7.45 4 5 6 5.661 7.936

2 5 8 5.415 7.44 4 5 7 5.733 7.931

2 5 9 5.396 7.447 4 5 8 5.718 7.992

2 5 10 5.42 7.514 4 6 6 5.724 8

2 6 6 5.41 7.467 4 6 7 5.706 8.039

2 6 7 5.357 7.491 5 5 5 5.78 8

2 6 8 5.404 7.522 5 5 6 5.729 8.028

2 6 9 5.392 7.566 5 5 7 5.708 8.108

2 7 7 5.398 7.491 5 6 6 5.765 8.124

2 7 8 5.403 7.571

第 A2 表 Friedman検定表.危険率 5%と 1%の χ2r の有意

点.kは群数, nはデータ個数.([3]のデータをもとに本表を作成).

k n p< 0.05 p< 0.01

3 6.0 –

4 6.5 8.0

5 6.4 8.4

3 6 7.0 9.0

7 7.14 8.86

8 6.25 9.0

9 6.22 9.56

∞ 5.99 9.21

3 7.4 9.0

4 4 7.8 9.6

5 7.8 9.96

∞ 7.81 11.34

著 者 略 歴たか高

ぎ木

  

ひで英

ゆき行

1956年 7月生. 1981年九州芸術工科大学修士課程修了.1981~1995年松下電器産業(株),1991~1993年UC Berkeley

客員研究員,1995年九州芸術工科大学助教授,2003年統合により九州大学助教授,現在九州大学教授.人間要素を取り込む計

算知能等の研究に従事.博士(工学).信学会篠原記念学術奨励賞 (1989),知能情報ファジィ学会論文賞 (2003),最優秀論文賞 (KES’97, IIZUKA’98, ICOIN-15, ICGEC’12),功労賞 (スロバキア人工知能学会 2002,IEEE SMC学会 2003),IEEE SMC 学会 Best Associate Editor 賞 (2005),2009

IEEE Most Active SMC Technical Committee賞 (2010),各受賞.日本ファジィ学会理事・監事 (1999–2003),IEEE

SMC学会 Vice-President (2006–2009),進化計算学会理事(2010–2012),IEEE SMC学会日本支部長 (2014–2015).

– 44 –