13
Rを用いた一般化線形モデル(仮説検定編) 誌名 誌名 雑草研究 ISSN ISSN 0372798X 巻/号 巻/号 554 掲載ページ 掲載ページ p. 275-286 発行年月 発行年月 2010年12月 農林水産省 農林水産技術会議事務局筑波産学連携支援センター Tsukuba Business-Academia Cooperation Support Center, Agriculture, Forestry and Fisheries Research Council Secretariat

Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

Rを用いた一般化線形モデル(仮説検定編)

誌名誌名 雑草研究

ISSNISSN 0372798X

巻/号巻/号 554

掲載ページ掲載ページ p. 275-286

発行年月発行年月 2010年12月

農林水産省 農林水産技術会議事務局筑波産学連携支援センターTsukuba Business-Academia Cooperation Support Center, Agriculture, Forestry and Fisheries Research CouncilSecretariat

Page 2: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

雑草研究 Vol. 55(4) 275 ~ 286 (2010) J. Weed Sci. Tech. k~~ 説

特集統計解析(再7)入門

Rを用いた一般化線形モデル(仮説検定編):割合データを例に

今泉智通*

キーワード:一般化線形モデル,割合データ,二項分

布,逸脱度分析,尤度比検定

Keywords: generalized linear model, proportion data,

binomial distribution, analysis of deviance, likelifood

ratlO t巴st

はじめに

雑草研究において,生育条件により雑草の種子生

産数が変化するかどうかなど,ある要閣が測定データ

に与える影響の統計学的裳付けを得るため,分散分

析が使われてきた。分散分析は,①データのばらつき

が正規分布に従うこと,②要因間の分散が等しいこと

(等分散性)を仮定している。しかし,我々が扱うデー

タの中には,この 2つの仮定を満たさないものも多いo

:<jq高で扱う都合データでいえば,次のような性質を持つ

ため分散分析の仮定を満たさない。

①割合なので¥データの取りうる範囲は Oから lであ

る(正規分布の取る範囲は一∞から∞)。

@平均値がOもしくは 1に近づくほど分散が小さくな

り,要因問の分散が等しくならない。

近年,データのばらつきを正規分布以外の確率分

布でも表現できるように拡張した,一般化線形モデル

(Generalized Linear Model,以下 GLM)が普及して

いる。本稿では,分散分析による仮説検定を拡張した

手法として, GLMを用いた仮説検定をフリー統計ソフト

ウェア iRJ (R Development Core Team 2009) の使

い方を示しながら解説する。

特に本稿では,割合データの解析方法を中心に解

説する。本稿でいう割合とは.全試行数(発芽試験

に供試した種子数や除草剤を散布した僧体数など)

のうちの,着目した事象が起きた数(発芽や除草剤に

よる死滅など)の割合のことである。このようなデータの

ネ(独)農研機構 中央農業総合研究センター

千 305ω8666 茨城県つくば市観音台 3-1-1

[email protected]

ToshiYllki Imaizllmi: An introdllctory gllide to statistica1

ana1ysis叩 generalizedlinear models for proportion data llsing

R.

(2010年 10月 19B受理)

ことを本稿では割合データと呼ぶ。

ここで注意したいのは,単位面積あたりの発生雑草

数など, is.Jj定伎を調査面積で割ったデータは本稿で、扱

う割合データとは異なるという点である。なぜなら,単

位面積あたりの発生雑草数に換算するのは,国場内

の発生雑草数を推定するためや異なる調査面積の

データを比較するためであり,解析されるのは密度の形

で表された雑草の“数"だからである(このようなケー

スの解析例は,下野 (2010) で、オフセットを用いた

GLMとして紹介されている)。一方,割合データでは,

発芽した数と発芽しなかった数など,着目した事象が起

きた数と起きなかった数がわかるため,着目した事象が

起きた“確率"を解析することになる。

本稿で用いるデ…タ

本稿では,とある変雑草にこでは仮に夏雑草Aと

する)を材T4¥こして行った発芽試験の架空データを例

に, GLMによる仮説検定について説明する。用いる

データは,発芽前処理として低混湿潤処理を行うことに

より夏雑草 Aの発芽率が増加するかどうかを調査した

結果である(第 1表)0Aは夏雑草であることから,

低温湿潤処理により冬を経験したのと閉じ効果が期待

され,種子休日民の程度が浅くなり.発芽率が増加する

と予想される。またこの試験では,光条件の違いが夏

雑草 Aの発芽率に与える影響についても調査してい

る。

Rへデータを読み込むためのファイルの準備は,第 i

表のような入力形式のデータシートをエクセルなどの表

計算ソフトで作成し,タフゃ匹切りのテキストファイルで、保

存する(ここでは natsuA.txt)0 そして, Rに下記のよう

に入力することで、保存したファイルをデータリストとして R

に読み込むことができる。

i …d“州ωωde制ω仙己eli山Ii知H山I

read. delimはファイルを読み込むためのコマンドである。

データを読み込む方法の詳細は,本稿のおわりに補足

情報として掲載したので,そちらを参照していただきた

Page 3: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

主主主主研究 Vol.55 (2010) 276

本稿で用いるデータ(夏雑草 Aの発芽試験結23長)第 1表口light

臼dark

100

一円口一

Eヨ80

警60

竺 40

20

rate not

Control Stratification

発芽前処理と発芽条件が発茅ネに与える影響発芳三前処理は Control(無処理)と Strati長catlon

(低滋i益法j処理l.発芽条件は light(明条件)とdark (際条件)のそれぞ、れ2水準で実験を行った。

*iliの中央の綴線(太線)は中央値,絡の上端は第 3限分{立点, 箱の 1下ご:端椅和lは土第l[悶瓜分{佼立j

{官仲f月中|ドjびび、る点4線!泉iの先2端出はi最i泣占大値および、i糸没小{値直を示す。

GLMをあてはめる擦に指定する,

誤差構造とリンク関数

データへ GLMをあてはめる (GLMを用いてデータ

を解析する)捺に必要になるのが,誤差構造とリンク

関数の指定である。誤差構造とはデータのばらつきを

表す権率分布のことである。例えば分散分析では,

誤差構造に正規分布を仮定しているとし、うことができ

る。 GLMは誤差構造に指定した確率分布をもとにモ

デルの推定や逸脱皮分析に用いる統計量を計算する

ため,データに適した誤差構造を指定しないと GLM

の結果から間違った解釈をする可能性がある。どの誤

差構造を指定するかはデータの性質によりおおよその目

安があり(大東 2010),発芽率などの割合データの場

合は,二項分布がよく用いられる。本来lえ自分がとっ

たデータをながめ,誤差構造にどのような硲率分布を用

いるべきか検討する必要があるが,ここでは発芽試験

のデータがこ項分布に従うと仮定して解析を行う。

もうひとつの指定項目であるリンク関数とは, GLMに

あてはめたデータを線形化するために用いる変換関数

のことである。割合データの解析によく用いられるロジ

スティックモデ、)vを例にリンク関数の役割を説明しよう。

ロジスティックモデルは,成功確率pを要因 Xの関数と

して,次のように表現される。

。ノ

rOQOOY

勺J

/

UOY

/

υ4M

ぺ3

1

u

A

υ

A守

1-

づ&nvAυ

〆O

Q

ノハV

1

A

Z

I

-

-

a

2

2

2

2

2

ヲM

I

l

i

-

-

2

24.0

36.0

28.0

60.9

29.2

72.0

70.8

75.0

64‘0

72.0

77.8

80.0

8.0

4.2

20.0

0.0

12.0

8.0

50.0

60.0

38.5

33.3

24.0

23.1

germinated

O

第 1図

〆b

o

F

A守

tQO

っ,

GO

OQOTAnu

h1i

VAv-d

ν

ハυQOAυfo

t

l

l

a

-

-

1

1

1

1

1

2

M

2

i

1

1

1

z

conditioη

加・M

M

い山・M

M

M

M

M

M

M

M

oeobσbobobcむ

σboboむ

o

b

o

b

o

u

a

a

a

a

a

a

a

a

a

a

a

a

uHUU

μUHVHUH-LHVH

いれ

uvhurHHuusGJUAusGJUJUAUAUJUJUJUJU

treatment

control

control

coηtrol

control

control

control

stratification

stratl長cation

stratification

stratl自catlon

stratification

strall日catlon

control

control

control

control

control

contro1

stral!品catlon

stratification

strati自catlon

stratification

stratification

strall自cation

treatmentは発'!lo前処理Il(contro1は到底処理l.stratificationは

低減滋潟処理).condition (おき芽条n(lightはl別条件.darkは陪条i!l二).

germinatedは発芳三種子数.not (土未発芽種子数.rate (立発芽率(%)を示す。

e<α+b.¥1 芋五五可

い。「くω 」は,オフ守ジ、エクトのf各車I~を指定するコマンド

で.[' natsuA.txtj 内にあるデータを ['aJ というオブ

ジ、エクトに格納しろという指定で、ある。ここで、はオフ守ジ、エ

クトの名前を ['aJとしたが,オフゃジ、エクト名は自由につ

けられる。いろいろな19H庁を Rでf子う1¥祭,デ、…タリストのオフ守ジ、エクトを指定する必要があるので¥読み込んだ

データリストを短い丈字数のオフツ、ェクトに格納した方

が使利である。

このデータの箱ひげ図(第 l国)を見ると.予想通

り低話湿潤処理 (stratification) により発芽率が増加

する傾向]が認められる。また,明条件Oight) の方が

発芽率が高くなるようである。発芽前処理と発芽条件

の交互作用はなさそうである。 以降では,このデータを

用いて, GLMによる仮説検定を実行する方法を解説

する。

Page 4: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

今泉:割合データを用いた GLM 277

ロジスティックモデルを含む統計モデルで、は,ある変数

(観測値や処理など)の変動を別の変数で説明できる

という関係式を作る。要因 xのようにある変数の変動

を説明する変数を説明変数,成功確率pのように説明

変数に応答して変動する要問を応答変数という。ロジ

スティックモデルが割合データの表現に適している点は,

pをOから iの範閣内で表現できることである (α+bx

→一∞で、p=O.α+bx→∞で、p=1となる)0_t式を用

いて(成功確率)/(失敗確率)を変形すると,失致確

率は 1-pなので,次のように表される。

~=~竺竺-fl-~竺竺-1 120(針 bx)l-p 1-←e計制 l' 1十e叶同

ここで両辺の自然対数をとると,

iI1(fy)=σ+お

となり,成功確率pを線形式で表現することができる。

このようにpをIn(pl (I -p) )の形に変換することをロジツ

ト変換という。したがって,リンク関数にロジット変換を

用いた GLMでは,データをロジスティックモデルにあて

はめた後,ロジット変換により線形化しているということ

ができる。誤差構造に二項分布.リンク関数にロジット

変換を用いた GLMのことを,ロジスティック回帰分析と

いうこともある。

Rにおける GLMのあてはめは.glmという関数を用

いて次のように実行する。

resultく glm(cbind (germinated, not) -treatl11ent十

condition十tτeatl11ent:condition,data口 a,

fal11ily=binomial (Iink=“logit") )

さきほどのデータリストの読み込みの時と同様に,

GLMのあてはめ結果を用いて各種の解析を行うため,

GLMのあてはめ結巣を任意のオブジェクト(ここでは

resultと指定)に格納しておくと便利である。

I cbind (genninated, not)-treatment十condition十位eat

ment: conditionJ の部分は.I発芽数 (genninated)

と未発芽数 (not) を応答変数,発芽前処理 (treat但

ment)と光条件 (condition)を説明変数としてモデル

にあてはめるjという意味で.I treatl11ent: conditionJ

は交互作用項の指定である。 cbind(gerl11inatedラ

not) は発芽数と未発芽数の行列で,発芽率そのもの

ではなく,発芽数と未発芽数を用いることで¥データ毎

の標本数の違いを考慮してモデルにあてはめることが

できる。 Idata=aJ の部分は,解析するデータの指定

であり,この指定により aというオフqジ、ェクトにJ格納されて

いるデータセット中の gerl11inated. not . treatl11ent . con働

ditionを応答変数および、説明変数として用いることがで

きる。最後の Ifal11i1y=binol11ial (Iink=“!ogit") J の

部分は,誤差構造(二項分布は binol11ial)とリンク

関数(ロジット変換は link=“logit")の指定である。

二項分布を仮定した GLMでは,フ。ロビ¥yト変換およ

びcOl11plementarylog-Iog変換をリンク関数に用いるこ

とができる (Rでの実行方法は.Iink=“probit"および、

“cloglog") 0 後述の過分散の対応策として,リンク鰐

数をロジット変換から complel11entarylog-Iog変換に変

更することがあるが,恭本的にはこれら 3つのリンク関

数に大きな違いはなく (ColIett2002, Faraway 2006).

多くの場合はロジ、ツト変換で、問題ない。リンク関数の違

いの詳細は.ColIett (2002)や Dobson(2008)など

を参照して欲しい。

以上の方法でGLMを用いて割合データを解析する

ことができるが,従来行われてきた変数変換を用いて

分散分析を行う方法と何が違うのだろうか? 割合デー

タの解析では,応答変数を角変換し等分散正規分布

に近づけた後,分散分析を行うという方法が良く用いら

れてきた。しかし,角変換はサンプルサイズ(試行回

数)が異なることによる分散の不等性は改善しない

(Snedecor and Coclu加 1972)0そのため,サンプルサ

イズが大きく異なるテゃータにそのまま適用しない方がよ

い。また,角変換を用いても割合を応、答変数としている

ことにかわりはないため,サンプルサイズの情報が失わ

れた形で解析が行われる。

これに対して,誤差構造に二項分布を仮定した

GLMでは,等分散性や正規性の仮定は必要なく,有

界の応答変数 (O~I) をサンプルサイズの情報を失

わずに解析することができる。また,変数変換が生

データを一定のアルゴリズムで数値変換した後に統計

モデルにあてはめるのに対して,リンク関数による変換

は,モデルを線形式で表現するためだけに使われてお

り,モデルへのあてはめは生データがそのまま使われて

いる点も異なっている。

2. 逸説度分析による恨説検定

GLMにあてはめたデータの仮説検定は.I検定した

い要因を含んだモデルJと「検定したい要因を除いた

モデル」の「逸脱皮 (deviance) の差jを検定統

計量とした逸税度分析 (analysisof deviance)により

行われる。逸脱皮とはモデルのあてはまりの悪さを表

Page 5: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

278 雑草研究 Vol.55 (2010)

す尺度である。あてはまりの悪いモデルとは,観測デー

タを十分に説明できていないモデルのことをいう。モデ

ルに組み込む要国が少ないほど逸脱度が大きくなる

(あてはまりが悪くなる)ため, i逸脱度の差jは,検定

したい要因を除くことによりどの程度あてはまりの悪いモ

デルになったかを示している。逸脱度の詳細について

は後述することにして,まずは逸脱度分析による仮説

検定の考え方を説明しよう。逸脱皮分析では次のよう

な手順で要因の有意性を検定してし喝。

①「検定したい要国を含んだモデル」と「要国を除

いたモデル」の「逸脱度の差」を求め,この値

を検定統計量とする。

②2つのモデルの f逸脱度の差j以上の億が,X;

分布において得られる確率(有意確率)を求め

る。

③有意確率が小さければ(通常は 5%以下), 2つ

のモデルの「逸脱度の差jは滅多に観察されな

いほど大きな値であると判断する。

④2つのモデルの「逸脱度の差jが大きいことか

ら,すなわち,要因を除くことでモデルのあてはまり

が十分に悪くなることから,その要菌は有意な要

国であると判断する。

t分布を用いて確率を計算しているのは, i逸脱度

の差jがど分布に近似できるためである。ただし誤

差構造に二項分布やポアソン分布以外の分布を仮定

したモデルの場合, F分布を用いて有意確率を計算す

ることになる。 F分布を用いる理由については後述す

る。

Rによる逸税度分析は,さきほどの GLMをあてはめ

たオブジェクト (result) をanova関数で解析すること

で実行できる(第 2閤)。

戸石孟, test="Chisq")

test口 "Chisq"は, X2分布を用いて逸脱度の差を検定し

ろという指定である。

本稿のデータにおいて各要因が有意だったかどうか

について見ると,各要因の有意確率は p(>IChil) と

して表示されており, treatmentとconditionに有意

が認められたがいく0.05),交互作用には有意差が認

められなかった (p=0.2299) (第 2函)0 Resid. Dev

はResidual Deviance (残差逸脱度)のことで,各モ

デルの逸脱度を示している。下から見た方がわかりや

すいので下から説明すると,交互作用も含むすべての

要因を入れたモデル(すなわちフルモデル)の逸税度

Anulysis of Deviance Table

Model: binom悶1, link: logit

Response: cbind(germinated, not)

Tcl'回sadded sequentially (first to lasU

Df Devinnce Resid. Df ResId. Dev P(> I Chi 1)

NULL 23 184.738

treatment 58.901 22 125.837 1.658c"14 ***

condition 82.143 21 43.694 < 2.2c'16 *骨脅

treatroent:condition 1 1.441 20 42.253 0.2299

Signif. codes: 0 '合**' 0.00] '**' 0.01情, 0,05・, 0.1‘, 1

第 2関逸脱皮分析の出力結果

(treatment: condition, 42.253),交互作用を除いた

tretmentとconditionのモデルの逸脱皮(condition,

43,694), conditionを除いた treatmentのみのモデル

の逸脱度(treatn淀川, 125.837),要因をすべて除いた

モデルの逸脱度 (NULL,184.738) である(第 2

図)。これらの逸脱度の差を用いて各要因の検定を

行っており,逸脱皮の差は Devianceとして表示されて

いる。したがって Rにおける逸脱度分析では,逸脱度

をResid.Devと表し,逸脱皮の謹を Devianceと表して

いる点に注意してもらいたい。交互作用 (treatment:

condition) の有意確率 (p=0,2299)は,交正作用を

含んだモデルの逸脱度と除いたモデルの逸脱度の差

である1.441 (残差逸脱度が42.253から 43.694に増

加)がt分布から得られる確率として求めることがで

きる。同様に, conditionを含んだモデルと除去したモ

デルの逸脱度の差である 82.143,treatmentを含んだ

モデルと除去したモデルの逸脱度の差である 58.901

を用いて,それぞれの有意確率を求めている。

ここで注意したいのは,逸脱皮の差(第 2園でいう

Deviance) の計算方法である。分散分析における平

方和の計算方法と同様に,逸脱皮分析における逸脱

度の差の計算方法にも Type I, Type H, Type III,

Type IVの4種類の計算方法がある。これらの計算

方法の違いの詳細は,高橋ら(1989) を参照して欲

しい。anova関数は Type1の計算方法 (Type1検定)

しかできない。 Type 1検定は,主効果の有意性を検

定する際に,すべての主効果を含むモデルからひとつず

つ主効果を除いていき逸脱度の差を求めるため,反後

数の異なる非釣り合い型のデータでは要因の除去)1)真

序により逸税度の増加量が変わる(第 2表)0 Rでは,

あてはめたモデルにおける要因の順番でその除去順

序が決まるので,本稿のデータであれば下の 2つのモ

Page 6: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

今泉:割合データを用いた GLM 279

テやルで、結果が異なってしまう。

<①(発芽率)~(発芽前処理)+(光条件)の順番で

指定(第 2表の Type1検定①)>

定統計量としているのに対し②のモテゃルで、は, r光条

件のみを要因としたモデル」と f要因をすべて除いた

モデル」の逸脱度の差を検定統計量としている。

resultくωglm(cbind (germinated, not) -treatment

十condition+treatment:condition,data口 a,

family~binomial (link="logit"))

<①(発芽率)=(光条件)+(発芽前処理)の順番で

指定(第 2表の Type1検定②)>

resultくωglm(cbind (genぉinated,not) -condition

十treatl11巴nt+treatl11ent:condition,data=a,

一般的に,要自の除去順序に影響されない TypeII

検定が推薦されている(高橋ら 1989)0 Type II検定

では,すべての主効果を含むモデルから検定したい主

効果を除いて逸脱度の差を計算するため.要国の除

去順序に影響されない(第 2表)0 Rで TypeII検定

を指定する場合には, car パッケージ、(パッケージとは,

Rで実行できる解析方法を追加する拡張機能)の

Anova関数を用いて,次のように指定して実行できる

(第 3図)。

fal11i1y=binomial (Iink口“logitづ)l伽 ary(car)

Anova (result, test=“LR", type="2") 光条件を例にして説明すると,上の①のモデルでは,

f発芽前処理と光条件を要因としたモデルJと「発芽

前処理のみを要因としたモデル」の逸脱度の惹を検 library (car) は, CaJノfッケージ、を追加するコマンドで、

姿凶

Type 1検定

第 2表 逸脱皮分析における Typel検定と TypeII検定の途い

逸脱皮の差の計算方法

①(発芽率)= (発芽前処理)+ (光条約二)の般に指定した場合

treatment (tre

condition (con)

交友作用 (trex con)

(要因なしモデル 1) の逸脱皮)ー(treのみモデル引の逸脱皮)

(treのみモデルの逸脱皮)ω(tre+conモデル 3iの逸脱皮)

(tre十conモデルの逸脱皮)(tre+con+treXconモデルヰ)の逸脱皮)

②(発芽本)出(光条件)+ (発芽前処理)の順に指定した場合

condition (con)

treatlτlent (tre)

交互作用 (trex con)

乃peII検定

(要因なしそテゃルの逸脱皮)一(conのみモデルめの逸脱皮)

(conのみモデルの逸脱皮)ー(tre十conモデルの逸脱皮)

(tre+conモデルの逸脱皮ト(tre+con十treXconモデルの逸脱皮)

ヨ)(発芽芸名)= (発芽前処理)+ (光条件)のJII~に指定した場合

treatm巴nt(tre)

condition (con)

交互作用 (treX con)

(conのみそデルの逸脱皮)ぺtre+conモデルの逸脱皮)

(treのみモデルの逸脱皮)-(tre十conモデルの逸脱皮)

(tre十conモデルの逸脱皮)-(tl肘 con+treXconモデルの逸脱皮)

②(発芽率)= (光条件)+ (発芽前処竣)のJII貨に指定した場合

condition (con) (treのみモデルの逸脱皮)一(tre十conモデルの逸脱皮)

treatment (tre) (conのみモデルの逸脱皮)一(tre十conモデルの逸脱皮)

交互作用 (treX con) (tre+conモデルの逸脱皮)-(tre+con+trexconモデルの逸脱皮)

逸脱皮の増加量

58.901

82.143

1.441

73.472

67.572

1.441

67.572

82.143

1.441

82.143

67.572

1.441

1 ) すべての姿図を含まないモデルである。すなわち,発芽率は発芽前処理と光条件の影響を受けないというモデル。

2) 発芽前処理のみを婆国としたモデル。3) 発芽前処理と光条件を要図としたモテ、ル。

4) 発芽前処理,光条件,交互作用を姿図としたモデル(フルモデル)

5) 光条件のみを要因としたモデル。

Page 7: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

280 雑等研究 Vol.55 (2010)

Anova Table ('τ'ype II tests)

丑esponse:cbind(germinated. noU

LR Chisq Df Pr(>Chisq)

treatment

cond枕wn

67.572

82.143

<2(>-16女 ..

<2c'16 ***

廿'eat四 ent:condition 1.441 0.2299

Signif. codes: 0‘***'0.001叫が 0.01'*' 0.05 '.' 0.1‘'1

第3図 Type [[検定を用いた逸脱皮分市rrの出力結果

ある。 Anova関数は,小文字の anovaではなく,大文

字の Anovaであることに注意してもらいたい。また,

test=“LR"は尤度比検定(Jikefoodratio test)を指定

するコ マ ン ド で¥anova関数でのχx2検定

(付te郎st炉=

が,逸脱皮の差は「検定したい要E誌を含んだモデル

の尤度」と「含まないモデルの尤度jのよ七であるの

で¥χ2分布を用いた逸脱皮分析のことを尤度比検定と

もいう。

3. 逸脱度の計算に用いられる,尤度・

飽和モデル・ dispertionparameter (φ)

j主税皮の計算には尤度が用いられている。尤度と

は,パラメータに特定の債を仮定したモデルにおいて観

測データが得られる確率を表し仮定したモデルの尤も

らしさを表す尺度として用いられる。

誤差構造にニ項分布を指定したモデル(J2J、下,二

項分布モデル)の場合,仮定するパラメータは「着百

している事象が起きる確率(成功確率)Jである。尤

度はパラメータの推定にも利用され,尤度を最も大きく

するパラメータが,観測データを説明するのにふさわし

いパラメータとして採用される。 N自の試行を行った器

にy聞の成功が起きたというデータが得られたとき,成

功確率をpと仮定した二;項分布モデルの尤度は次のよ

うに表される。

成功僻p の尤度 {Y!(:~Y)J〆(l-p)N-

¥0回の試行を行ったところ成功回数が2拐で、あった

データの場合,例えば,成功確率pを0.5とした時の

尤度は 0.044,Pを0.2とした時の尤度は 0.302となる。

このような計算を Oく:p<lの範閣で行うことで,尤度が最

も大きくなる成功確率pを求めることができる。この例

ではp=0.2の時に尤度が最も大きくなる(第 4図の実

線)。尤度を最大にする成功確率pを最尤推定値と

マ。

組 N

'R d

。C診

0.0 0.2 0.4 0.6 0.8 1.0

成功確率

第4函 10問の試行川口10)において成功間数が2@]および61到の二項分布の尤皮肉数実線は成功回数 2 聞の尤&rkJ数,点ïÎ~R'立成功回数6聞の尤度J1JJ数を示す。

いい,この最尤推定債をニ項分布モデルにおけるパラ

メータとして用いる。また,この時の尤度を最大尤震と

し、つO

あてはめたモデルの逸脱震は,この最大尤度を用い

て次のように定義される (McCullagh and Nelder

1989)。

(逸脱度)=2φ{log(飽和モデルの最大尤度)

-Iog(あてはめたモデルの最大尤度)}

実際のデータから逸脱度を計算する場合は,上の式を

変形して得られる第 3表の式に代入して計算してい

るO 第 3表では,正規分布,二項分布,ポアソン分布

における逸脱皮の言十算式のみを示した。これらの計算

式を導く方法や他の確率分布を誤差構造に仮定した

時の逸脱度の言1-算式については, McCullagh and

Neld巴r(1989)や Dobson (2008)などを参照して欲

しい。

飽和モデル (saturated modeJ)とは,得られた全

データを要留としたモデルのことで,第 l表のデータで

は, 1I番目のデータはお聞の試行で6回発芽したこ

項分布をあてはめ, 2番践のデータは 25聞の試行で9

題発芽したこ項分布をあてはめ, 3番目のデータは 25

聞の試行で7自発芽したこ項分布をあてはめ,…」

というように, 24倒のデータすべてを要因としたモデル

のことである。

モデルのあてはまりという観点からいえば,会データ

Page 8: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

今泉 割合データを用いた GLM 281

第3表 iEjJ立分;{Ji二耳l分布,ポアソン分布における逸脱皮

誤差構造 逸脱皮の計:t):'r~

正規分靖 L,ij(Y;,-μ;)'ニ項分布 2エパyijlog(Y/Il;)+(1l1日Yij)log( (ll1-Yij)/(ll1…μ))]

ポアソン分;(Ii 2エグ[y)og(yuI;t;)-(y;一片)]

μ,1土水i¥f:;iの平均.Y'll土水懲:のj苦,11のデータを示す。二耳i分布の m

iま試1i IUJ数で,平均 μ, 1立~,~m x (成功E在来)で浮かれる成功回数の平

均依で主ふ。

を要因として用いた麹和モデルが最もあてはまりのよい

モデルである。したがって,逸脱度は,最もあてはまり

のよいモデルと比べることで「あてはめたモデルJのあ

てはまりの良さを示しているのであり,逸脱度の小さな

モデルほどあてはまりの良いモデルであるといえる。飽

和モデルのことを最大モデル (maximal model)また

はフルモデル (fullmodel)と呼ぶこともある。最大モ

デルまたはフルモデルは,交互作用を含むすべての嬰

尽を入れたモデルのことを指す場合もあるので,注意

が必要である。本稿では,全データを要閣としたモデ

ルを飽和モデル,交互作用を含むすべての要因を入

れたモデルをフルモデルとしている。

φとは dispertion parameterのことで¥応答変数の

分散を規定するパラメータのひとつで、あるo dispertion

parameterの訳語として拡散パラメータや過分散係数な

どが使われることがあるが,訳語を用いずに disp巴l1ion

parameterと表現することが多いようである。 φと応答

変数の分散は,次のような関係にある (Everitt and

Hothorn 2010)。

(応答変数の分散)φx(分散関数)

分散開数は分散が平均にどのように依存するかを規定

する関数で, φ・分散i努数ともに,仮定する確率分布

によって値が決められる。正競分布では, φ=分散,

分散関数=1であり,分散は平均に依存しない。二項

分布ではゆ叶,分散関数出平均(ト王子均).ポアソ

ン分布では φ=1,分散関数口平均となり,二項分布

ヤポアソン分布を仮定した GLMでは分散は平均に

よって完全に決められてしまう。

先に,逸脱度分析では逸脱震の増加量がど分布

に近似できるという性質を利用して検定を行うと述べた

が,正しくは,逸脱度をφで、諮った「尺度っき逸脱度

(scaled deviance) Jの増加量がx2分布に近似できる

という性質を利用している。二項分布やポアソン分布

を用いた GLMではφ叫に間定されているため,逸脱

皮と尺度っき逸脱度の俸は等しい。そのため,第 3表

の式を用いてデータから尺度っき逸脱度を産接計算で

き, X2分布を用いて逸脱度分析を行うことができる。

しかし,二項分布やポアソン分布以外の確率分布

(正規分布やガンマ分布,ベータ分布や負の二項分布

など)を用いた GLMでは, φの棄の値は不可知であ

り,推定値しか求められない。したがって,尺度っき逸

脱度は推定値となるので,真の値とのずれが検定結果

に影響しないよう.F分布を用いて逸脱皮分析を行うこ

とになる (Faraway2006) 0 すなわち,次式で求められ

るF債を用いることで,未知のパラメータである φを除

くことがでできる。

F=

((2つのモデルの逸脱度の羨)/品)/(2つのモデルの自由度の笈)((ブルモデルの遡民度)/品)/(フルモデルの自由度)

(2つのモデルのiき脱皮の差)/(2つのモデルの自由度の羨)(フルモデルの逸脱度)/(フルモデルの自由度)

2つのそデルとは,先に説明した「検定したい要閣を

含んだモデルJと「徐いたモデルjのことである。 F

分布を用いた検定を行う場合は, test=“Chisq"もしくは

test=“LR"の部分を test=“F"と指定する。正規分布

を仮定した GLMにおいて, F検定を用いた逸脱度分

析で、行われていることは,分散分析と完全に閉じであ

る。

4. 必ず確認過分散

二項分布を誤差構造に指定した GLMで必、ず確認

したいのが,過分散(overdispersion)になっていない

かどうかである。過分散とは,二項分布で想定されて

いるよりもデータのばらつきが大きい状態をいう。先に述

べたように,二項分布は平均に依存して分散が決まっ

ているので,データのばらつきに合わせて分布の分散

を決定することができず,過分散になりやすい。これは

ポアソン分布においても同様である。

過分散とはどんな状態なのか,屈で表してみよう。

第5図(左)は 10間の試行において,成功回数の

平均が3.98と7.25(すなわち成功確率 0.398と

0.725)で、あったデータの度数分布図で、あるO 平均値

だけを見ると 2つのデータに差はありそうだ、が,度数分

布図を見ると,成功回数 4~7 の範屈で半分以上の

観察値が重なっており.2つのデータに差があるとは言

い難い。このデータに対して二項分布をあてはめた時

の相対期待頻度が第 5図(右)である。この図だけ

を見ると, 2つのデータの重なりは実際のデータに比べ

てずっと少なくなっており,差があるように思えてしまう。

このように,過分散になっているとあてはめたモテ守ルで、

Page 9: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

雑草研究 Vol.55 (2010) 282

SS量

ESS開

--E

・E・E・E-EasJ剥••

0.3

機 0.2対期待綴君主

0.1

-1111

still-

1

1

1

1

0.3

0.2

0.1

Q

銃剣綴度

10 9

試行回数 10,成功額数の平均値が3.98および 7.おとなったデータの度分布図(左)と二項分布モデルの相対郊待頻度(右)実線が平均 3.98,点線が7.25のデータを示す。

s 4 6

成功関数

。Q

10 9 8 7 4 岳

民生功関数

a

第 5図

Call

ghn(formula = cbind(germinatecl. not) -t附 um叩 t* conditioll

familv = binomial. data =:U

Mnx

3.0857

日cvinnccResiduals

nHn lQ 1¥1cdian 3Q

2.1007 -1.07悶 0.1-152 0.59叩

は本来のばらつきを過小評価していることになり,第一

種の過誤(本来は有意差のないものを有意差ありとし

てしまう間違い)が起きやすくなる。

解析したデータが過分散かどうかは, summary関数

を用いて表示できる GLMのあてはめ結果から確認で

きる (第 6図)。 Coef:日cwuts

Estimate Std. Error z valuc Pr(> I z 1)

(Intercept) '2.3,103 0.2似)4 -8.059 7.67c-16州安

tl'eatl羽田1tstrn.tificntlon 1.8508 0.3356 5.515 3A9e-08を

conditionlight U)969 0.3352 5.958 2.5Ge'09台骨合

treatmcntstratification:conditionlight -OA957 0.4 180 -1.186 0.236

Signjf. codcs: 0会合脅 0.001'合*'0.01<*'0.05<:0.1 "1

<Dispcrsion paramcter fo1' binominl family tnkcn to be 1)

18.1.738 011 23 dcgl'cesoffrccdom

42.253 on 20 degrccs of freedom

::¥Iull dt>v同 ncc

ResiduaJ dcviance

AIC: 126.28

rsumJ は( )内の債を合計するコマンドであるた

め, r sum (residua1s (resu1t, type="pearson") ̂2) J

でピアソン残差の平方和が求められる。上のコマンド

で求められた本データのピアソンのf統計量は 40.668

であり, dispersion parameterの推定値(ピアソンのx2

統計ー量/残差自由度)は 40.668/20'"2.0となる。 dis-

persion parameterの推定値が既定の値から大きくずれ

ているため,本データは過分散であるといえる。

dispersion parameter・の推定値が既定の値からどの

程度ずれていたら過分散,といった明確な基準はない

誤差構造に二項分布を指定した GLMの解析結果第 6図

過分散かどうかは, GLMのあてはめ結果から求めた

dispersion parameter・の推定値が,既定の値(二項分

布では1)と一致しているかどうかで確認する(大東

2010)。

dispersion parameterの推定値の簡易的な言r算方

法は,残差逸脱皮を残差自由度で割ることである。残

差逸脱皮と残差自由度は,第 6国の一番下の Resid“

ual devianceの欄に表示されており,残差逸税震が

42.253,残差自由度が20である。この場合,

42.253/20'" 2.1となり,過分散であるといえる。ただし

この方法は安定性に問題があるため,残差逸脱度の

かわりにどアソンの f統計量を用いた方が正確であ

る。ピアソンのf統計量はピアソン残差の平方和なの

で¥Rでは次のように入力することでピアソンのf統計

量が求められる。

i summa

r residuals (result, type'"“pearson") Jの部分は,result

(GLMをあてはめたオフゃジ、エクト)のピアソン残差を計

算するコマンド, r八2J は数値を 2乗するコマンド,

sum (residuals (result, type=“pearson") ̂2)

Page 10: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

今泉 説会データを用いた GLM 283

(McCullagh and Nelder・1989)0Crawley(2008)では,

GLMを用いた割合データの解析を説明する議の例題

で, dispersion parameterの推定値(残差逸脱度を用

いて計算)が1.96であったデータに対して,かなり過

分散なデータであると表現している。既定値 lに対し

て,実際のデータの推定値が1.96であれば,あまりず

れていないように思ってしまうかも知れない(ずれは

0,96だけなので)。しかし,dispersionparameterが1.96

とし、うことは実際のデータの分散はあてはめたモテ'ルの

分散の1.96倍ということになるので,実際のデータとあ

てはめたモデルの分散は大きくずれているといえる。

二項分布を仮定した GLMで、過分散になった時の

対処法として,誤差構造にベータニ項分布を仮定した

GLMへあてはめる方法と dispersion parameterの推

定値を用いて分散を補正する方法がある(Collett

2002, Faraway 2006) 0ベータニ項分布を仮定した

GLMは, aodパッケージ、の betabin関数で実行するこ

とができる。しかし,ベータニ項分布を用いる方法は適

応できる場面が少なく,過分散の対処法として一般的

には勧められない (McCullaghand Nelder 1989, Col-

lett 2002)。

ここでは, dispersion parameterの推定値で分散を

補正する方法のみを紹介する。この方法は誤差構造

に疑似二項 (quasi-binomiaJ)分布を仮定した GLM

であり, Rにおいて疑似二項分布を仮定した GLMに

あてはめ,逸脱度分析を行うには,次のように入力す

る。

result2くωglm(cbind (germinated, not) ~treatment

+condition+tr・eatment:condition,data出 aラ

family=quasibinomial (Jink=“logit") )

Anova (result2, test=“F", type=“2づ

GLMのあてはめでは,誤

I family=quasibinomiaU に変更しただけである。疑

似二項分布ではφの真の値が不可知なので, F分布

を用いた検定で逸脱度分析を行う。このことは,ポアソ

ン分布における過分散の対処法である,疑似ポアソン

(quasiωpoisson) 分布を仮定した GLMでも同様であ

る。

疑似二墳、分布を用いた GLMは処理問の観測数の

違いを考慮していないため,処理聞の観測数が大きく

異なるデータを解析する場合には適切ではない。処理

問の観測数の違いを考慮して分散を補正する方法

(Wiliams 1982)は, dispmodパッケージ、の glm.bino-

mial.disp関数で実行することができる。

最後に,過分散になる原因について,Collett(2002)

で解説されている内容を簡単に紹介したい。 Collett

(2002) は過分散の原因色指定したモデルに原因が

ある場合とデータに原因がある場合に分けている。指

定したモデルに原因がある場合とは,必要な交互作用

壌がモデルに入っていない,外れ値がある,説明変数

とリンク関数で、変換した応答変数が線形関係になって

いない,データに適切なリンク関数を用いていない,な

どが挙げられている。はじめの 2つに関しては,交互

作用項や外れ値を検討することで過分散が解消される

かもしれない。 3つめの線形関係については,説明変

数を対数化することで解決で、きることがある。最後のリ

ンク関数については,ロジット変換をリンク関数に用いて

いる場合は, complementary log寸og変換を用いること

で過分散を解消でさることがあると説明している。これ

らの,指定したモデルが原田で、過分散になった場合は,

データに適したそテソレをあてはめなかったために起きる

過分散であり,データが過分散なのかどうかを疑う前に

まず検討する必要がある。

データに原悶がある場合として,反復関の試験条{牛

が均一で、ない場合や着百事象が起きるかどうかが独立

でない場合が考えられる。発芽試験を剖に考えてみよ

う。反復聞の不均一性は,恒温器内に置かれたシャー

レの場所で、光条件や温度条件が異なる場合などが挙

げられる。着目事象の非独立性は,発芽に{半い発芽

を促進する植物ホルモンが生成され,シャーレ内の他

の種子の発芽を促す場合などが考えられる。この 2つ

の原因は厳密に分けられるものではなく,どちらも応答

変数を説明するのに必要な実験設計がとれていなかっ

たために生じる。すなわち,制御すべき要路あるいは

測定すべき要閣があったために生じると考えられる(例

えば,発芽を促進する植物ホルモンの影響を受けない

ような実験設計がとれなかった,シャーレ内の植物ホル

モン量を測定しなかったなとと)0

おわりに

本稿では,分散分析による仮説検定を拡張した手

法として, GLMによる仮説検定(逸脱度分析)を割

合データを例に紹介した。応答変数の性質や仮定す

る誤差構造が変わった場合で、も,逸説度分析の実行

方法および、見方は基本的に同じである。分散分析で

あれ逸脱度分析であれ,仮説検定で行える統計学的

解釈は,応答変数を増減させる効果を持っているかとa

Page 11: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

284 雑草研究 Vol.55 (2010)

うかであり,その効果の大きさについては解釈できない。

しかし,雑草学が扱うデータにおいて,要因に効巣が

あるかどうかではなく,要閣が持つ効果の大きさが重要

になることは多いだろう (Rinellaand lames 2010) 0 効

果の大きさを推定することも GLMは可能であり,下野

(2010) に解説されているので、そちらを参照して欲し

しミ。

また仮説検定は, r帰無仮説 vs対立仮説Jという

2つの仮説(モデル)の比較しかできない。そのため,

複数闘場を調査した雑草答のデータなど,実験的に制

御できない要菌が複数あるデータでは,複数のモデル

を同時に比較し最適なモデルを選ぶ, rモデル選択Jという統計手法の方が適している (Johnson and

Om1and 2004, lasieniuk et α1, 2008)。モデル選択が

仮説検定より優れた統計手法であるという訳ではない

が,研究対象および、目的によってはモデル選択の方が

適した場面も多くあるだろう。モデル選択の詳縮につい

ては下平 (2004) などを参照して欲しい。

筆者を含め,統計解析といえば仮説検定という人は

多いと思うので, GLMのはじめの一歩として,仮説検

定を中心に GLMを紹介した。仮説検定以外にも,効

果の大きさの推定やモデル選択など, GLMを用いて

表現できる統計解析は他にもある。本稿が,雑草の特

性を正しく捉え,現場に即したデータ解析を可能にする

一助となれば幸いである。

謝辞

本稿は,雑草学会第 49回大会 f若手の会jの

内容についてまとめたものです。若手の会開催にあた

り,ご協力頂いた大会関係者の皆様に感謝いたしま

す。また,本格を読み,貴重なこ、意見をくださった下野

嘉子さん,水口亜樹さん,大東健太郎さん,本稿の補

足情報にご意見をくだ、さった安達康弘さんに感謝し、た

します。

引用文献

Collett, D, 2002. Modelling Binary Data 2nd Edト

tion. Chapman & Hall/CRC, Boca Raton, pp. 45-101, pp.

195-213

Crawley, M.J. 2008 統計会学 :Rを用いた入門書. !J!J!iJJ口

謙太郎・菊池泰樹共訳,共立出版,東京, pp. 269

286

。obson,A.J. 2008. 一般化線形モデル入門殿、若第 21版

問中塗・森!II敏彦 'UJ中竹若手・富田誠共訳,共立出

版東京, pp.81-l01

Everitt, B.S. and Hothorn, T. 2010. Rによる統計会解析ハン

ドブック第 21波 大門賞志・古川俊博・手良向聡共

訳,メデイカル・パブリケーションズ,東京, pp.

123-145.

Faraway, J.1. 2006. Extending the Linear Model with R: Gen-

eralized Linear, Mixed Effects and Nonparametric Regres-

sion Models. Chapman & Hall/CRC, Boca Raton, pp・

25-54, pp. 115-133

Jasieniuk, M., Taper, M.L., Wanger, N.C. Stougaard, R.N.

Bre1sford, M. and Maxwell, B.D. 2008. Selection of a

barley yield model using 口ぬrl1lation-theoretic crite-

ria. Weed Sci., 56, 628-636.

Johnson and Omland 2004. Model selection in ecology and

evolution. 刀'endsEcol. Evol., 19ヲ IOH08.

McCullagh, P., J.A. Nelder 1989. Generalized Linear Mod-

els, 2nd Edition. Chapman & Hall, London, pp. 21-47.

大東{佐太郎 2010 線形モデルから一般化線形モデル

(GLM)へ雑草研究 55,268-274

R Development Core Team 2009. R: A language and envi-

ronl1lent for statistical computing. R Foundation for Sta時

tistical COl1lputing, Vienna, Austria. ISBN 3ーヲ00051-07“

0, URL http://www.R-project.org

Rinella, M.J. and Jal1les, J.J. 2010. lnvasive plant researchers

should calculate effect sizes, not P-values. [nvas. Plant

Sci. and Manag. 3,106-112.

Snedecor, G.w. and Cochran, W.G. 1972 統計局的方法.刈l

十l又好・奥野忠一・津村哲'flJlj与言!ーと岩波書}λ 東武

pp.309-314

下野嘉子 2010. Rをmいた一般化線形モデル(閲熔係

主主総)・カウントデータを例に おElji研究 55,287-294

下乎英寿 2004 情報翠:規準によるモデル選択とその信

j良性評却Ji. 1:1'利俊一・竹内啓-竹村1if~:ì設-伊庭幸人

「統計科学のフロンティア 3 モデル選択一予iJliJ.検

定-推定の交差点J岩波会!乱東京, pp. 1-74.

お綴行雄・大様埼t.fii.芳賀敏m11989. SASによる実験

データの解析 東京大学出版会,東京, pp. 289-305

Williams, D.A. 1982. Extra-binomial variation in logistic

linear models. Appl. Statist. 31, 144-148.

構足:デ…タファイルの読み込み

Eミを用いて統計解析を行うためには,まず,解析した

いデータを Rへ読み込ませないといけない。しかし, R

へデータを読み込ませるという作業は, R初心者には

思いのほか難しい作業である。ただ,データを読み込

ませるだけなのに。ここでは,エクセルなどの表言1-算ソ

フトを用いて作成したデータを Rへ読み込ませる方法を

紹介する。

1. Rで読み込むデータの作成

Rで解析するためには,第 1表のような形式でデー

タを作成する。すなわち,一番上の行に見出しとなる

Page 12: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

今泉 割合データを斤jいた GLM 285

説明変数や応答変数の名前を入力し,ひとつのサンプ

ルの情報を横一弾(向じ行)に入力するのである。し

たがって,第 1表の 1番上のサンプルの情報は, r要国出atmentの水準がcontrol,要悶 conditionの水

準がIightで,発芽稜子数が6,未発芽種子数が 19,

発芽率が 24%J ということを意味する。第 1表では,

説明変数が名義変数の場合のみだが,説明変数が

順序変数や連続変数の場合も,同様である。欠測備

がある場合,欠mlJ部分を空欄にしておくと Rは読み込

むことができないので,欠i服部分には rNAJと入力す

る。 欠isIJ値があっても解析方法は変わらないが,非釣

り合い裂のデータになってしまうので, r逸税度の差j

の計算方法で説明したとおり, Type IIの計算方法を

用いる必要がある。

2. クリップボード経由の読み込み

作成したデータを弐へ読み込むための簡単な方法

は,ク1)ツプボード経由の読み込みである。とはいえ,多

くの、ノフトウェアと異なり, Rではコピー&ペーストで読

み込ませるということはできない。ク1}-;;ブ。ボード経由で

データを読み込ませるためには, r r巴ad.delimJという関

数を使用する。手}II長は,データリストをコピーし,

i r叫 elim(仏clipb吋ち)

と入力すればよいοclipboardは r"(ダヲゾレクオート)J

で閤む必要がある。この方法は Windowsの場合で,

Macを使用している場合は,次のように入力する。

匂ぜ削叫"勺引)υ ) i readω州州ω d必似ωel凶li叫 p戸E州匂伽伽aお蹴M吋s批が州叫

3. 保存したファイルの読み込み

作成したデータリストを txt形式で保存すれば.デー

タファイルを夜接読み込むこともで、きる (xls形式は読み

込めない)。エクセルを使用している場合は, r名前を

付けて保存jを選び, rファイルの種類Jを「テキスト

(タブ[R切り)Jとすればよい。作成したデータファイル

をRで読み込むためには,まず, Rの作業ディレクトリに

テ‘ータファイルを置く必要がある。作業ディレクトリとは,

Rがファイルを読み込んだ、り,書き出したりするための

フォルダのことで,作業ディレクトリ内にあるファイJレしか

読み込むことができない。 作業ディレクトリを干確認するた

めには,次のように入力する。

このコマンドを入力すると

などと表示され,作業ディレクトリに設定されているフォル

ダがわかる。データを読み込むためには,この作業ディ

レクトリとなっているフォルダ、内にデータファイルを移動す

るか,読み込むデータが保存されている場所に作業

ディレクトリを変更する必要がある。作業ディレクトリの

場所を変更する場合は,RConsole上部のメニューから

「ファイル→ディレクト1)の変更jを選ぶことで¥デスクトッ

プなど任意の場所を作業ディレクトリとすることができる

(Macの場合は, rその他→ディレクトリの変更J)。

作業テ守イレクトリとデータファイルを同じ場所にした後,

下記のように入力することで、データファイルを Rに読み

込むことができる(ファイル名が rnatsuA.txtj の場

合)。

先ほとcのクリッフ。ボード経由の時と同様に,ファイル名を

で潤む必要がある。また, csv形式のファイルを読

み込む場合は,次のように入力する。

4. 作業スペースの保存

Rを終了しようとすると, r作業スペースを保存します

か?Jと表示される。ここで注意したいのは、作業ス

ペースを保存しても Rで、行った解析の出力結果が保

存されるわけで、はないということで、あるO 作業スペース

とは.作業ご、とに独自の設定を保存することのできるファ

イルのことで,作業中に設定した変数やオフ守ジ、エクトの

情報が保存されるファイルで、あるO 多くのソフトウェアで、

保存されるファイルとは保存内容が違うのでわかりにく

いが,作業スペースを保存しても解析結果は保存され

ないと認識してもらいたい。 解析結果を保存する方法

は, rファイル→ファイルを保存jと選択することで,コ

マンドや解析結果をテキストファイルで保存することがで

きる。

作業スペースには変更した Rの設定内容も保存でき

るので,作業ディレクトリを自分の好きな場所に変更し

保存しておくと,告主題作業ディレクトリを変更する必要が

なく,使利である。作業ディレクトリをデスクトッフヲこ変更

した場合を例にすると, 1作ノ乍ド業デデ、イレクトリを変更した後,RミConsole上音剖部1Iのメニユ一カか、ら 「フアイjルレ→{作/乍戸業スペ一

スのf呆右存三リJをi選室び、テやスクトツブ

トツフ。上に作業テデやイレクトリを変吏したf作乍業スペ一スが{保呆

存でき, Rのアイコンが表示される (Macのf場易合lは比まえ,

「ワ一クスペ一ス→ワ一クスペ一スのf保呆存jρ)0次聞から

は,そのアイコンから Rを起動することで,始めから作

Page 13: Rを用いた一般化線形モデル(仮説検定編) · 特に本稿では,割合データの解析方法を中心に解 説する。本稿でいう割合とは.全試行数(発芽試験

286 雑主主研究 Vol.55 (2010)

業ディレクトリがテースクトッフ。になった状態で、起動されるた

め,毎間作業ディレクトリを変更する必要がない。作業

スペースはいくつでも保存できるので,データファイルの

あるフォルダ毎に作業スペースを保存しでもよいだろう。

保存する際は.r.RDataJという拡張子をつけないと正

しく保存されない(ファイル名を空欄のまま保存すると,

拡張子の設定は必要ないようだ)。

以上の方法で解析結果や作業内容・設定内容を

保存することができるが.Rで作業した際に最も保存し

ておきたい情報は,入力したコマンドだ、ろう。入力した

コマンドがあれば,作業内容は繰り返すことができるし

解析結果も鰭単に得られる。「ファイル→履歴の保存」

を選択することで,入力したコマンドのみをテキストファイ

ルで保存することができる。