19
データ解析のための 統計モデリング入門 1 2014/5/13 やまかつ (@yamakatu) #みどりぼん 第1

みどりぼん 1章「データを理解するために統計モデルを作る」

Embed Size (px)

DESCRIPTION

第1回「データ解析のための統計モデリング入門」読書会 1章「データを理解するために統計モデルを作る」 2014/5/13 @IIJ

Citation preview

Page 1: みどりぼん 1章「データを理解するために統計モデルを作る」

データ解析のための統計モデリング入門 1章 2014/5/13  やまかつ  (@yamakatu)  #みどりぼん 第1回

Page 2: みどりぼん 1章「データを理解するために統計モデルを作る」

おまだれ

•  やまかつ  (@yamakatu)  

•  お仕事:検索方面  

•  自称フルスタックイクメンエンジニア  •  開発、インフラ、機械学習、統計、検索、育児  

•  gihyo.jp  連載「Mahoutで体感する機械学習の実践」  •  合言葉は「読まずにはてブだけして」  

Page 3: みどりぼん 1章「データを理解するために統計モデルを作る」

1章 データを理解するために統計モデルを作る

Page 4: みどりぼん 1章「データを理解するために統計モデルを作る」

最初に一言

1章は内容が少ないので、すぐ終わる(お、俺は悪くないよ。。  

Page 5: みどりぼん 1章「データを理解するために統計モデルを作る」

1.1  統計モデル •  統計モデルとは何か?  •  観測されたデータに上手く当てはめられるような数理モデル(P.1)  

   

見た方が早い  

Page 6: みどりぼん 1章「データを理解するために統計モデルを作る」

見た方が早い

•  2-­‐5  図2.5  (P.32)から

真の分布(確率分布)   観測されたデータ

統計モデル

観測 モデリ  ング

Page 7: みどりぼん 1章「データを理解するために統計モデルを作る」

1.1  統計モデル(再掲) •  統計モデルとは何か?  •  観測されたデータに上手く当てはめられるような数理モデル(P.1)  

•  もうちょい具体的に(以下、P.2)  1.  観測によってデータ化された現象を説明するために作られる  

2.  確率分布が基本的な部品である  •  データに見られるばらつきを表現するための手段(詳しくは2章で)  

3.  モデルがデータにどれくらい良くあてはまっているかを定量的に評価できる  

Page 8: みどりぼん 1章「データを理解するために統計モデルを作る」

1章は内容少ないんで脱線して確率分布の基本的な話でもする 自由でごめんねー

Page 9: みどりぼん 1章「データを理解するために統計モデルを作る」

確率分布

•  確率分布=確率の分布  •  サイコロの目が出る確率  •  それぞれ1/6(0.167)  

•  図引用 h?p://www.kisc.meiji.ac.jp/~nino/2010/1020.html  

Page 10: みどりぼん 1章「データを理解するために統計モデルを作る」

確率分布(正規分布)

•  サイコロを2つ振ったときの、出た目の和の確率分布  

•  正規分布  

         •  図引用 h?p://www.cis.twcu.ac.jp/~konishi/stat11/stat11g.html  

目の和

2 3 4 5 6 7 8 9 10 11 12

確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Page 11: みどりぼん 1章「データを理解するために統計モデルを作る」

確率分布とばらつき

•  確率分布が基本的な部品である  •  データに見られるばらつきを表現するための手段(詳しくは2章で)  

•  確率のばらつきを表現することでデータのばらつきを表現する  •  ポアソン分布  •  縦軸:確率    

Page 12: みどりぼん 1章「データを理解するために統計モデルを作る」

統計モデルによって何ができるか 1.  観測されたパターンを上手く説明(P.1)  2.  現象の背後にある法則性(パターン)を利用した予測(P.1)  •  教師あり学習的な  

Page 13: みどりぼん 1章「データを理解するために統計モデルを作る」

なぜ統計モデルが有効か?1/2 •  自然科学を例に考える(P.3)  •  自然科学において、得られたデータから「自然のしくみ」を理解しようとする場合、以下の2段階の情報消失(情報圧縮)が発生する  

               •  統計モデリングは2段階目の情報消失を行う  

自然科学研究における二段階の情報損失第一段階: 自然現象→ 数値データ• 観察・実験による情報損失• 人間が自然現象からとりだせる数値データはごくわずか• (とくに野外調査では) 厳密に「同じ」データを再びとれない

2012–01–23 6/ 55

Page 14: みどりぼん 1章「データを理解するために統計モデルを作る」

なぜ統計モデルが有効か?2/2 •  Why  2回?  •  1度情報消失している観測データでも、それでも人には情報量が複雑すぎる  •  統計モデリングによって、情報を整理  

•  なぜ統計モデル?  •  確率分布の利用  

•  ばらつき、欠測、誤差を表現できる  •  モデルの信頼度、予測精度の限界なども定量的に示せる  •  詳しくは2章で  

Page 15: みどりぼん 1章「データを理解するために統計モデルを作る」

1.2  「ブラックボックスな統計解析」の悪夢 •  統計ソフトにデータを放り込めばそれらしい出力が得られる  •  統計モデルに対する理解不足  •  統計モデルの存在に気づかない  

➡ブラックボックス統計学  

•  都合のいい分析  •  有意差が出るまで検定手法とひたすらとりかえる  •  新しい指標をでっちあげる  •  などなど  

 •  こういうのはやめようね  •  データ構造に合致した統計モデルを  

Page 16: みどりぼん 1章「データを理解するために統計モデルを作る」

1.3  この本の内容 1.  一般化線形モデル  (  GLM  :  generalized  linear  model  )  •  線形モデル (  LM  :  linear  model  )  は等分散正規分布を仮定  

•  しかしすべてが正規分布ではない  

•  GLMは正規分布以外の確率分布へ対応  •  2章で詳しく  

2.  一般化線形混合モデル  (  GLMM  )  3.  マルコフ連鎖モンテカルロ  (  MCMC  )  4.  GLM  のベイズ化  5.  GLMM  のベイズ化  

統計モデル勉強のプラン: 線形モデルを発展させる2012–01–23 21/ 55

Page 17: みどりぼん 1章「データを理解するために統計モデルを作る」

1.3.1  各章の内容 •  2章 確率分布と最尤推定の説明  •  3章 ポアソン回帰で使う一般化線形モデルの説明  •  4章 AICを使ったモデル選択  •  5章 最大対数尤度と尤度比検定の紹介  •  6章 二項分布、正規分布、ガンマ分布を使ったGLM  •  7章 一般化線形混合モデルの説明  •  8章 マルコフ連鎖モンテカルロ法の説明  •  9章 GLMのベイズモデル化  •  10章 GLMMのベイズモデル化(階層ベイズ)  •  11章 空間構造を考慮した階層ベイズ  

Page 18: みどりぼん 1章「データを理解するために統計モデルを作る」

1.4  この本に登場する訳語・記号・記法 •  理解する内容ではないので適宜参照してください

Page 19: みどりぼん 1章「データを理解するために統計モデルを作る」

おわり