Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
祝RNF植生データの解析山梨県富士山科学研究所 安田泰輔
植生データの解析
呑みながら話す機会を作っていただきありがとうございます。すでに呑んでますので、呂律が回らなくなってもご容赦ください。
GLMMに関する良い資料はネットで多数ヒットします。今回は、GLMMの入り口について話します。
2015年度 一般化線形モデルGLM
2016年度 一般化線形混合モデルGLMM
植生データの構造
GLMM
植生データの構造:Yが1つのとき
基本はY:応答変数とX:説明変数
Y X1 X2 X3
10 1.2 0 0.32
15 5.6 0 0.8923 9.7 1 0.16
0 12.5 1 0.01
9 6.3 0 0.98
… … … …
・Yが1つ、Xが複数・Xは連続変数、離散変数、ダミー変数
このような状況であればGLMが選択しの1つ・Yの確率分布を考える・線形予測子を考える
e.g. mu = a+bX1+cX2+dX3・リンク関数でYと線形予測子を繋げる
e.g. Y = mu, log(Y) = mu・RでGLM : fit<-glm(…)
植生データの構造:Yがたくさんある
植生データはYが多次元
種あ
種い
種う
1つのコドラート
コドラート番号1種名 被度(%)あ 30
い 15.3
う 80
… …
なにを解析するか?
種の“まとまり” and/or 種ごと
種あ
種い
種う
種う=Y
X
・非計量多次元尺度構成法(NMDS)、etc.
・多変量分類木(mvpart):サポートが切れて、CRANからも削除された。自前でインストールの必要あり
一般化線形モデル(GLM)など
Yが多次元
まとまり
非計量多次元尺度構成法、etc.
多次元でよくわからない、想像もできない
1~3程度の低次元に落とすと見やすくなる
傾向らしきものが出てくるので、Xとの関係から解釈
種ごと
種を取り出してきて、Xとの関係を解析、解釈
今回はこちら
GLMからGLMMへ
GLMでは対処できない場合がある
架空の人物KKさんのデータを用いて解説
久保拓弥(2012)データ解析のための統計モデリング入門第7章を参考に、草地植生版として説明してみる
ここでの野外調査設定~KKさんの例
目的
ある草地の種数や種構成など平均的な状況を把握したい
土壌硬度と種(個体群)の出現率の関係を明らかにしたい
調査
1m*1mのコドラートを13個設置
コドラートは4*4=16個に分割されている(小コドラート)
小コドラートに出現した種を記載~出現頻度、occurrence
補足
優占度の指標として被度
ヒトが目視で図る場合 と 点格子板で図る場合
点格子板で、100点測定し(あるなし)、62点あったときは被度=62点/100点=62%としている。
このデータも、n回中k回観察されたデータとして、二項分布を基礎とした以下の解析を適用できる。
GLMおさらい
R:架空のデータセットを作ってGLM
本当
本当→データ生成→推定
“架空のデータセットを作ってGLM:vol.1” の実行結果
> summary(fit)
Call:
glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.27942 -0.15775 0.06343 0.58500 1.69979
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.0496 0.4898 -6.226 4.79e-10 ***
x 1.6451 0.2267 7.256 3.98e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 97.488 on 12 degrees of freedom
Residual deviance: 10.258 on 11 degrees of freedom
AIC: 43.92
Number of Fisher Scoring iterations: 4
β0 = -2.45
β1 = 1.52
架空の研究者KKさん
このような架空データを使って、これからやろうとしている野外調査の解析を検討しました。
で、調査終了後、解析を始めました…
野外調査の解析結果“架空のデータセットを作ってGLM:vol.2” の実行結果
データのばらつきが大きいようですが
> summary(fit)
Call:
glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.5591 -1.4163 0.8775 1.9062 4.2947
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.6264 0.3968 -4.099 4.14e-05 ***
x 1.1139 0.1879 5.929 3.06e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 109.352 on 12 degrees of freedom
Residual deviance: 61.676 on 11 degrees of freedom
AIC: 92.663
Number of Fisher Scoring iterations: 4
β0 = -2.45
β1 = 1.52
summary(fit)の比較
Test: Residual deviance: 10.258 on 11 degrees of freedom
Residual deviance/df = 10.258/11=0.933
Real: Residual deviance: 61.676 on 11 degrees of freedom
Residual deviance/df = 61.676/11=5.607 >1
過(大)分散 Over-dispersion
・データのばらつきは二項分布での範囲内と仮定・もしそうなら、residual deviance/df ~ 1
・しかし、実際のデータの residual deviance/df > 1
草地植生のデータはこのケースが多い
GLMM
一般化線形混合モデル
全体の変動を表す土壌硬度の効果~固定効果
コドラートごとの“何らかの効果”~ランダム効果
場所間差:パッチ構造、ほかの物理的要因、etc.
このおかげで、期待した確率分布(二項分布)よりもデータのばらつきが大きくなっていると考えられる
モデル組み立て
1. 確率分布: yi ~ Binomial(pi, n=16)
2. リンク関数: logit(pi) = log(pi/(1-pi))=線形予測子
3. 線形予測子:β0 + β1*xi + ri ri ~ ランダム効果
GLMM
“架空のデータセットを作ってGLMM” の実行結果 “架空のデータセットを作ってGLM:vol.2” の実行結果
> fit
Call: glmmML(formula = cbind(y, n - y) ~ x, family = binomial("logit"),
data = dt001, cluster = id)
coef se(coef) z Pr(>|z|)
(Intercept) -2.608 1.1935 -2.185 0.02890
x 1.761 0.5566 3.164 0.00155
Scale parameter in mixing distribution: 1.425 gaussian
Std. Error: 0.4047
LR p-value for H_0: sigma = 0: 1.01e-08
Residual deviance: 30.2 on 10 degrees of freedom AIC: 36.2
β0 = -2.45
β1 = 1.52
s = 1.7
まとめ
植生データは多次元
多変量解析
種ごと
GLMM
二項分布・ポアソン分布での過分散
ランダム効果を含むGLMM~実際の場面で必要
データをプールしないこと