みどりぼん 1章「データを理解するために統計モデルを作る」

データ解析のための統計モデリング入門　1章 2014/5/13 やまかつ (@yamakatu) #みどりぼん第1回

おまだれ

•  やまかつ (@yamakatu)

•  お仕事：検索方面

•  自称フルスタックイクメンエンジニア •  開発、インフラ、機械学習、統計、検索、育児

•  gihyo.jp 連載「Mahoutで体感する機械学習の実践」 •  合言葉は「読まずにはてブだけして」

1章データを理解するために統計モデルを作る

最初に一言

1章は内容が少ないので、すぐ終わる（お、俺は悪くないよ。。

1.1 統計モデル •  統計モデルとは何か？ •  観測されたデータに上手く当てはめられるような数理モデル（P.1）

見た方が早い

見た方が早い

•  2-‐5 図2.5 (P.32)から

真の分布（確率分布）観測されたデータ

統計モデル

観測モデリング

1.1 統計モデル（再掲） •  統計モデルとは何か？ •  観測されたデータに上手く当てはめられるような数理モデル（P.1）

•  もうちょい具体的に（以下、P.2） 1.  観測によってデータ化された現象を説明するために作られる

2.  確率分布が基本的な部品である •  データに見られるばらつきを表現するための手段（詳しくは2章で）

3.  モデルがデータにどれくらい良くあてはまっているかを定量的に評価できる

1章は内容少ないんで脱線して確率分布の基本的な話でもする自由でごめんねー

確率分布

•  確率分布＝確率の分布 •  サイコロの目が出る確率 •  それぞれ1/6（0.167）

•  図引用 h?p://www.kisc.meiji.ac.jp/~nino/2010/1020.html

確率分布（正規分布）

•  サイコロを2つ振ったときの、出た目の和の確率分布

•  正規分布

•  図引用 h?p://www.cis.twcu.ac.jp/~konishi/stat11/stat11g.html

目の和

2 3 4 5 6 7 8 9 10 11 12

確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

確率分布とばらつき

•  確率分布が基本的な部品である •  データに見られるばらつきを表現するための手段（詳しくは2章で）

•  確率のばらつきを表現することでデータのばらつきを表現する •  ポアソン分布 •  縦軸:確率

統計モデルによって何ができるか 1.  観測されたパターンを上手く説明（P.1） 2.  現象の背後にある法則性（パターン）を利用した予測（P.1） •  教師あり学習的な

なぜ統計モデルが有効か？1/2 •  自然科学を例に考える(P.3) •  自然科学において、得られたデータから「自然のしくみ」を理解しようとする場合、以下の2段階の情報消失(情報圧縮)が発生する

•  統計モデリングは2段階目の情報消失を行う

自然科学研究における二段階の情報損失第一段階: 自然現象→ 数値データ• 観察・実験による情報損失• 人間が自然現象からとりだせる数値データはごくわずか• (とくに野外調査では) 厳密に「同じ」データを再びとれない

2012–01–23 6/ 55

なぜ統計モデルが有効か？2/2 •  Why 2回？ •  1度情報消失している観測データでも、それでも人には情報量が複雑すぎる •  統計モデリングによって、情報を整理

•  なぜ統計モデル？ •  確率分布の利用

•  ばらつき、欠測、誤差を表現できる •  モデルの信頼度、予測精度の限界なども定量的に示せる •  詳しくは2章で

1.2 「ブラックボックスな統計解析」の悪夢 •  統計ソフトにデータを放り込めばそれらしい出力が得られる •  統計モデルに対する理解不足 •  統計モデルの存在に気づかない

➡ブラックボックス統計学

•  都合のいい分析 •  有意差が出るまで検定手法とひたすらとりかえる •  新しい指標をでっちあげる •  などなど

•  こういうのはやめようね •  データ構造に合致した統計モデルを

1.3 この本の内容 1.  一般化線形モデル ( GLM : generalized linear model ) •  線形モデル ( LM : linear model ) は等分散正規分布を仮定

•  しかしすべてが正規分布ではない

•  GLMは正規分布以外の確率分布へ対応 •  2章で詳しく

2.  一般化線形混合モデル ( GLMM ) 3.  マルコフ連鎖モンテカルロ ( MCMC ) 4.  GLM のベイズ化 5.  GLMM のベイズ化

統計モデル勉強のプラン: 線形モデルを発展させる2012–01–23 21/ 55

1.3.1 各章の内容 •  2章　確率分布と最尤推定の説明 •  3章　ポアソン回帰で使う一般化線形モデルの説明 •  4章　AICを使ったモデル選択 •  5章　最大対数尤度と尤度比検定の紹介 •  6章　二項分布、正規分布、ガンマ分布を使ったGLM •  7章　一般化線形混合モデルの説明 •  8章　マルコフ連鎖モンテカルロ法の説明 •  9章　GLMのベイズモデル化 •  10章　GLMMのベイズモデル化（階層ベイズ） •  11章　空間構造を考慮した階層ベイズ

1.4 この本に登場する訳語・記号・記法 •  理解する内容ではないので適宜参照してください

おわり

Technology

みどりぼん 1章「データを理解するために統計モデルを作る」