Upload
katsushi-yamashita
View
1.707
Download
5
Embed Size (px)
DESCRIPTION
第1回「データ解析のための統計モデリング入門」読書会 1章「データを理解するために統計モデルを作る」 2014/5/13 @IIJ
Citation preview
データ解析のための統計モデリング入門 1章 2014/5/13 やまかつ (@yamakatu) #みどりぼん 第1回
おまだれ
• やまかつ (@yamakatu)
• お仕事:検索方面
• 自称フルスタックイクメンエンジニア • 開発、インフラ、機械学習、統計、検索、育児
• gihyo.jp 連載「Mahoutで体感する機械学習の実践」 • 合言葉は「読まずにはてブだけして」
1章 データを理解するために統計モデルを作る
最初に一言
1章は内容が少ないので、すぐ終わる(お、俺は悪くないよ。。
1.1 統計モデル • 統計モデルとは何か? • 観測されたデータに上手く当てはめられるような数理モデル(P.1)
見た方が早い
見た方が早い
• 2-‐5 図2.5 (P.32)から
真の分布(確率分布) 観測されたデータ
統計モデル
観測 モデリ ング
1.1 統計モデル(再掲) • 統計モデルとは何か? • 観測されたデータに上手く当てはめられるような数理モデル(P.1)
• もうちょい具体的に(以下、P.2) 1. 観測によってデータ化された現象を説明するために作られる
2. 確率分布が基本的な部品である • データに見られるばらつきを表現するための手段(詳しくは2章で)
3. モデルがデータにどれくらい良くあてはまっているかを定量的に評価できる
1章は内容少ないんで脱線して確率分布の基本的な話でもする 自由でごめんねー
確率分布
• 確率分布=確率の分布 • サイコロの目が出る確率 • それぞれ1/6(0.167)
• 図引用 h?p://www.kisc.meiji.ac.jp/~nino/2010/1020.html
確率分布(正規分布)
• サイコロを2つ振ったときの、出た目の和の確率分布
• 正規分布
• 図引用 h?p://www.cis.twcu.ac.jp/~konishi/stat11/stat11g.html
目の和
2 3 4 5 6 7 8 9 10 11 12
確率 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
確率分布とばらつき
• 確率分布が基本的な部品である • データに見られるばらつきを表現するための手段(詳しくは2章で)
• 確率のばらつきを表現することでデータのばらつきを表現する • ポアソン分布 • 縦軸:確率
統計モデルによって何ができるか 1. 観測されたパターンを上手く説明(P.1) 2. 現象の背後にある法則性(パターン)を利用した予測(P.1) • 教師あり学習的な
なぜ統計モデルが有効か?1/2 • 自然科学を例に考える(P.3) • 自然科学において、得られたデータから「自然のしくみ」を理解しようとする場合、以下の2段階の情報消失(情報圧縮)が発生する
• 統計モデリングは2段階目の情報消失を行う
自然科学研究における二段階の情報損失第一段階: 自然現象→ 数値データ• 観察・実験による情報損失• 人間が自然現象からとりだせる数値データはごくわずか• (とくに野外調査では) 厳密に「同じ」データを再びとれない
2012–01–23 6/ 55
なぜ統計モデルが有効か?2/2 • Why 2回? • 1度情報消失している観測データでも、それでも人には情報量が複雑すぎる • 統計モデリングによって、情報を整理
• なぜ統計モデル? • 確率分布の利用
• ばらつき、欠測、誤差を表現できる • モデルの信頼度、予測精度の限界なども定量的に示せる • 詳しくは2章で
1.2 「ブラックボックスな統計解析」の悪夢 • 統計ソフトにデータを放り込めばそれらしい出力が得られる • 統計モデルに対する理解不足 • 統計モデルの存在に気づかない
➡ブラックボックス統計学
• 都合のいい分析 • 有意差が出るまで検定手法とひたすらとりかえる • 新しい指標をでっちあげる • などなど
• こういうのはやめようね • データ構造に合致した統計モデルを
1.3 この本の内容 1. 一般化線形モデル ( GLM : generalized linear model ) • 線形モデル ( LM : linear model ) は等分散正規分布を仮定
• しかしすべてが正規分布ではない
• GLMは正規分布以外の確率分布へ対応 • 2章で詳しく
2. 一般化線形混合モデル ( GLMM ) 3. マルコフ連鎖モンテカルロ ( MCMC ) 4. GLM のベイズ化 5. GLMM のベイズ化
統計モデル勉強のプラン: 線形モデルを発展させる2012–01–23 21/ 55
1.3.1 各章の内容 • 2章 確率分布と最尤推定の説明 • 3章 ポアソン回帰で使う一般化線形モデルの説明 • 4章 AICを使ったモデル選択 • 5章 最大対数尤度と尤度比検定の紹介 • 6章 二項分布、正規分布、ガンマ分布を使ったGLM • 7章 一般化線形混合モデルの説明 • 8章 マルコフ連鎖モンテカルロ法の説明 • 9章 GLMのベイズモデル化 • 10章 GLMMのベイズモデル化(階層ベイズ) • 11章 空間構造を考慮した階層ベイズ
1.4 この本に登場する訳語・記号・記法 • 理解する内容ではないので適宜参照してください
おわり