26
Doing Bayesian Data Analysis Part 3 一般化線形モデル(GLM)への応用 Chapter 14 一般化線形モデルの概要 07/SEP/13 Haru Negami

Doing Bayesian Data Analysis; Chapter 14

Embed Size (px)

DESCRIPTION

東京大学松尾研 2013年夏の勉強会

Citation preview

Page 1: Doing Bayesian Data Analysis; Chapter 14

Doing Bayesian Data AnalysisPart 3一般化線形モデル(GLM)への応用

Chapter 14一般化線形モデルの概要

07/SEP/13Haru Negami

Page 2: Doing Bayesian Data Analysis; Chapter 14

詩(お約束のようなので。)

Straight and proportionate, deep in your core

All is orthogonal, ceiling to floor.

But on the outside the vines creep and twist

'round all the parapets shrouded in mist.

心の中にはまっすぐな想いがあるのに、

彼女はなぜか意地っ張り。

いつも想いとは裏腹なことばっかり言ってしまう。

という乙女心の複雑さを詠んだ詩です。

(投げやり。)

Page 3: Doing Bayesian Data Analysis; Chapter 14

目標

• テキストでは・・・

– 一般化線形モデルの概要を、式を通じて学ぶ

– 詳細はのちの章で詳しく解説されています。

• 補足として・・・

– 一般化線形モデルと線形モデルの関連を知る

– 参考:http://www012.upp.so-net.ne.jp/doi/biostat/CT39/glm.pdf

Page 4: Doing Bayesian Data Analysis; Chapter 14

一般化線形モデル(GLM) とは

• 線形モデルの拡張

– (一般)線形モデル (General Linear Model)

• 確率密度関数が正規分布などに従うもの。分散分析(ANOVA)、共分散分析(ANCOVA)、線形回帰、t

検定などいくつかの統計モデルに組み込まれている。

– 一般化線形モデル (Generalized Linear Model)

• 確率密度関数としてさらに様々な種類の分布を取れる。上に加えて、ポアソン回帰、ロジスティクス回帰などが含まれる。

Page 5: Doing Bayesian Data Analysis; Chapter 14

本日のラインナップ

一般化のプロセス

用語の確認一般化線形

モデル

LOOP!

Page 6: Doing Bayesian Data Analysis; Chapter 14

シグモイド関数など

線形モデルの一般化のプロセス

説明変数 応答変数

一次結合

説明変数 応答変数

一般化

正規分布

データの分布

指数型分布族

データの分布

一次結合

一次結合+変換

拡張

1

2

Link Function

Link Function

pdf

pdf

Page 7: Doing Bayesian Data Analysis; Chapter 14

シグモイド関数など

線形モデルの一般化のプロセス

説明変数 応答変数

一次結合

説明変数 応答変数

一般化

正規分布

データの分布

指数型分布族

データの分布

一次結合

一次結合+変換

拡張

1

2

Link Function

Link Function

pdf

pdf

Page 8: Doing Bayesian Data Analysis; Chapter 14

用語の確認

(広義の)線形関数 :

変数X1, X2, … に対してある定数β0, β1, β2,…が存在

して、ある変数Yとの間に

Y = β0+β1X1+β2X2+・・・

という関係があるとき、X1, X2, …に対する作用を線形関数という。

※数学における線形性の定義(β0がない)とは異なることに注意!

Page 9: Doing Bayesian Data Analysis; Chapter 14

用語の確認

• Predictor Variables (説明変数) :

X1, X2, …

• Predicted Variables (応答変数) :

Y

ただし、Y = β0+β1X1+β2X2+・・・

※和訳は様々あるようですが、上に統一します。

Page 10: Doing Bayesian Data Analysis; Chapter 14

用語の確認(補足)

このように式変形し、x-θ=x’とすると、

数学的な意味でも線形であることが分かる。

このようなθをThresholdとして、直感的に理解することもできる。

多変数の場合も同様の議論ができる。

1変数の場合 多変数の場合

Page 11: Doing Bayesian Data Analysis; Chapter 14

シグモイド関数など

用語の確認

説明変数 応答変数

一次結合

説明変数 応答変数

一般化

正規分布

データの分布

指数型分布族

データの分布

一次結合

一次結合+変換

拡張

1

2

Link Function

Link Function

pdf

pdf

Page 12: Doing Bayesian Data Analysis; Chapter 14

一般化線形モデルと実験データ

説明変数 応答変数データの

分布

実験的に得られるデータ

ノイズを含むため、確率密度関数となる。

pdfLink Function

y ~ pdf(μ, *, τ, …+)y = f(xの一次結合)

βなどのパラメーターは最尤法により決定。

ノイズを含むため、確率密度関数となる。

Page 13: Doing Bayesian Data Analysis; Chapter 14

シグモイド関数など

用語の確認

説明変数 応答変数

一次結合

説明変数 応答変数

一般化

正規分布

データの分布

指数型分布族

データの分布

一次結合

一次結合+変換

拡張

1

2

Link Function

Link Function

pdf

pdf

Page 14: Doing Bayesian Data Analysis; Chapter 14

用語の確認

Page 15: Doing Bayesian Data Analysis; Chapter 14

一般化線形モデルの俯瞰

Page 16: Doing Bayesian Data Analysis; Chapter 14

1. 線形モデル

• 例1:血圧の分布(その1)

1. 説明変数(X1, X2, … ,Xn)をn人の血圧の平均とし、

2. 応答変数(μ)を全員の血圧の平均値とする。

3. μ = (X1+X2+…)/n

4. 血圧が正規分布に従うとして分布を生成する。

5. Y 〜 N(μ, σ)

Page 17: Doing Bayesian Data Analysis; Chapter 14

1. 線形モデル

• 例2 : 血圧の分布(その2)

1. 説明変数(Xi,1, Xi,2, … ,Xi,n)をiさんの血圧とし、

2. 応答変数(μi)を i さんの血圧の平均値とする。

3. μi = (Xi,1+Xi,2+…)/ni

4. 血圧が正規分布に従うとして分布を生成する。

5. Yi〜 N(μi, σi)

6. 結果を統合する。

Page 18: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

1. 1変数の場合

γ : gain。β1に対応する。

θ : threshold。-β0/β1に対応する。

Page 19: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

1. 1変数の場合

Page 20: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

2. 多変数の場合

Page 21: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

2. 多変数の場合

Page 22: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

1. p.d.f. 2値の分布になることに注意する。

詳細は以降の章で解説するので省きます。

Page 23: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

1. シグモイド関数

1. p.d.f.

Page 24: Doing Bayesian Data Analysis; Chapter 14

2. 一般化線形モデル

2. 正規累積分布関数

– シグモイド関数と似た概形。

– 扱いやすさや数学的処理のしやすさで選ぶ。

– Chapter 21にて詳しく扱う。

Page 25: Doing Bayesian Data Analysis; Chapter 14

3. EXERCISES

• 問のポイント

• 14.1.

– 説明変数、応答変数のデータ型が何かを知る。

• 14.2.

– 現象からモデルの構造を把握する。

Page 26: Doing Bayesian Data Analysis; Chapter 14

3. EXERCISES

• 14.1.

1. A

– predictor (Metric)

• money per pupil spent by each of the 51 states

– predicted (Metric)

• percentage of eligible students took SAT

– pdf

• Normal distribution