祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造：Yが1つのとき基本はY：応答変数とX：説明変数 y x1 x2

祝ＲＮＦ植生データの解析山梨県富士山科学研究所安田泰輔

植生データの解析

呑みながら話す機会を作っていただきありがとうございます。すでに呑んでますので、呂律が回らなくなってもご容赦ください。

ＧＬＭＭに関する良い資料はネットで多数ヒットします。今回は、ＧＬＭＭの入り口について話します。

2015年度一般化線形モデルＧＬＭ

2016年度一般化線形混合モデルＧＬＭＭ

植生データの構造

GLMM

植生データの構造：Ｙが１つのとき

基本はＹ：応答変数とＸ：説明変数

Y X1 X2 X3

10 1.2 0 0.32

15 5.6 0 0.8923 9.7 1 0.16

0 12.5 1 0.01

9 6.3 0 0.98

… … … …

・Ｙが１つ、Ｘが複数・Ｘは連続変数、離散変数、ダミー変数

このような状況であればＧＬＭが選択しの１つ・Ｙの確率分布を考える・線形予測子を考える

e.g. mu = a+bX1+cX2+dX3・リンク関数でＹと線形予測子を繋げる

e.g. Y = mu, log(Y) = mu・ＲでGLM : fit<-glm(…）

植生データの構造：Ｙがたくさんある

植生データはＹが多次元

種あ

種い

種う

1つのコドラート

コドラート番号１種名被度（％）あ 30

い 15.3

う 80

… …

なにを解析するか？

種の“まとまり” and/or 種ごと

種あ

種い

種う

種う＝Ｙ

Ｘ

・非計量多次元尺度構成法（NMDS）、etc.

・多変量分類木（mvpart）:サポートが切れて、ＣＲＡＮからも削除された。自前でインストールの必要あり

一般化線形モデル（GLM）など

Ｙが多次元

まとまり

非計量多次元尺度構成法、etc.

多次元でよくわからない、想像もできない

１～３程度の低次元に落とすと見やすくなる

傾向らしきものが出てくるので、Ｘとの関係から解釈

種ごと

種を取り出してきて、Ｘとの関係を解析、解釈

今回はこちら

GLMからGLMMへ

GLMでは対処できない場合がある

架空の人物ＫＫさんのデータを用いて解説

久保拓弥（2012）データ解析のための統計モデリング入門第７章を参考に、草地植生版として説明してみる

ここでの野外調査設定～ＫＫさんの例

目的

ある草地の種数や種構成など平均的な状況を把握したい

土壌硬度と種（個体群）の出現率の関係を明らかにしたい

調査

1m*1mのコドラートを13個設置

コドラートは4*4＝16個に分割されている（小コドラート）

小コドラートに出現した種を記載～出現頻度、occurrence

補足

優占度の指標として被度

ヒトが目視で図る場合と点格子板で図る場合

点格子板で、100点測定し（あるなし）、62点あったときは被度＝62点/100点＝62％としている。

このデータも、n回中k回観察されたデータとして、二項分布を基礎とした以下の解析を適用できる。

ＧＬＭおさらい

Ｒ：架空のデータセットを作ってＧＬＭ

本当

本当→データ生成→推定

“架空のデータセットを作ってＧＬＭ：vol.1” の実行結果

> summary(fit)

Call:

glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)

Deviance Residuals:

Min 1Q Median 3Q Max

-1.27942 -0.15775 0.06343 0.58500 1.69979

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.0496 0.4898 -6.226 4.79e-10 ***

x 1.6451 0.2267 7.256 3.98e-13 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 97.488 on 12 degrees of freedom

Residual deviance: 10.258 on 11 degrees of freedom

AIC: 43.92

Number of Fisher Scoring iterations: 4

β0 = -2.45

β1 = 1.52

架空の研究者ＫＫさん

このような架空データを使って、これからやろうとしている野外調査の解析を検討しました。

で、調査終了後、解析を始めました…

野外調査の解析結果“架空のデータセットを作ってＧＬＭ：vol.２” の実行結果

データのばらつきが大きいようですが

> summary(fit)

Call:

glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.5591 -1.4163 0.8775 1.9062 4.2947

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.6264 0.3968 -4.099 4.14e-05 ***

x 1.1139 0.1879 5.929 3.06e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 109.352 on 12 degrees of freedom

Residual deviance: 61.676 on 11 degrees of freedom

AIC: 92.663

Number of Fisher Scoring iterations: 4

β0 = -2.45

β1 = 1.52

summary(fit)の比較

Test: Residual deviance: 10.258 on 11 degrees of freedom

Residual deviance/df = 10.258/11=0.933

Real: Residual deviance: 61.676 on 11 degrees of freedom

Residual deviance/df = 61.676/11=5.607 >1

過（大）分散 Over-dispersion

・データのばらつきは二項分布での範囲内と仮定・もしそうなら、residual deviance/df ~ 1

・しかし、実際のデータの residual deviance/df > 1

草地植生のデータはこのケースが多い

GLMM

一般化線形混合モデル

全体の変動を表す土壌硬度の効果～固定効果

コドラートごとの“何らかの効果”～ランダム効果

場所間差：パッチ構造、ほかの物理的要因、etc.

このおかげで、期待した確率分布（二項分布）よりもデータのばらつきが大きくなっていると考えられる

モデル組み立て

1. 確率分布： yi ~ Binomial(pi, n=16)

2. リンク関数： logit(pi) = log(pi/(1-pi))=線形予測子

3. 線形予測子：β0 + β1*xi + ri ri ~ ランダム効果

ＧＬＭＭ

“架空のデータセットを作ってＧＬＭＭ” の実行結果 “架空のデータセットを作ってＧＬＭ：vol.２” の実行結果

> fit

Call: glmmML(formula = cbind(y, n - y) ~ x, family = binomial("logit"),

data = dt001, cluster = id)

coef se(coef) z Pr(>|z|)

(Intercept) -2.608 1.1935 -2.185 0.02890

x 1.761 0.5566 3.164 0.00155

Scale parameter in mixing distribution: 1.425 gaussian

Std. Error: 0.4047

LR p-value for H_0: sigma = 0: 1.01e-08

Residual deviance: 30.2 on 10 degrees of freedom AIC: 36.2

β0 = -2.45

β1 = 1.52

s = 1.7

まとめ

植生データは多次元

多変量解析

種ごと

GLMM

二項分布・ポアソン分布での過分散

ランダム効果を含むＧＬＭＭ～実際の場面で必要

データをプールしないこと

Documents

祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造：Yが1つのとき 基本はY：応答変数とX：説明変数 y x1 x2

祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造：Yが1つのとき基本はY：応答変数とX：説明変数 y x1 x2