Mitmetasandiline lineaarne regressioon

Mitmetasandiline lineaarne regressioon

Mihkel SolvakRiigiteaduste Instituut

Tartu Ülikool01.11.2013

1

Tavaline lineaarne regressioon

2

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %


3

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %


4

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2


5

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2


6

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2


7

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

y=4,6 + 0,7x

R2=0,79


• Sellisel regressioonil on rida eeldusi• Kaks neist on eriti relevantsed hierarhilise

andmestruktuuri juures:– Keskmiste sõltumatus (mean independence)– Vigade mittekorreleeritus ehk inimkeeli juhtumite

sõltumatus

8

Mitmene lineaarne regressioon- eeldused (I)

• Keskmiste sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε

– Vea ε keskmine ei sõltu x-de väärtustest – Vea ε keskmine on null– Teisisõnu, regressioonimudelis on korrektsed tunnused– Vaid siis on konstant ja koefitsiendid kallutamata– Eelduse rikkumise tagajärjed on:

• kallutatud parameetrid

9

Mitmene lineaarne regressioon- eeldused (II)

• Juhtumite sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε

– Viga ε ei ole juhtumite vahel korreleeritud – Lihtsamalt öeldes – juhtumid on sõltumatud– Eelduse rikkumise tagajärjed on:

• OLS on ebaefektiivne seose kirjeldamisel• Liiga väikesed standardvead

10

MLM

• Juhtumite sõltumatuse eelduse rikkumine tähendab:– Juhtumist saadav info kattub või on dubleeritud teiste

juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud

– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust

– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib

suurem I tüüpi vea tegemise tõenäosus

11

MLM

H0 on tõene H0 on vale

Lükkate H0 tagasi

I tüüpi viga Kõik hästi

Ei lükka H0 tagasi Kõik hästi II tüüpi viga

12

MLM• Juhtumite sõltumatuse eelduse rikkumine tähendab:

– Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud

– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust

– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib suurem

I tüüpi vea tegemise tõenäosus– Sõltuvust tekitava faktori väljajätmine annab valesti

spetsifitseeritud mudeli (nn omitted variable bias)

13

MLM

• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse

• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus

14

Miks MLM?

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Miks MLM?

16

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Üldine seos x ja y vahel

Miks MLM?

17

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y


Grupisisene seos x ja y vahel

Miks MLM?

18

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y



Gruppideülene seos x ja y vahel

MLM

• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse

• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus

– Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse

– Ehk mitmetasandiliselt

19

Kuidas sõltuvus tekkida võib

• Korduvad mõõtmised– Eksperimendid– Paneeluuringud– Aegread

• Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)

20

Mitmetasandiline analüüs

• Hierarhiad andmetes leiab iga nähtuse puhul:– Tark õpilane õpib paremini tugevama tasemega

koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides)

– Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides)

– Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)

Mitmetasandiline analüüs

• Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil

• Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib:– Sõltuvus andmetes– Kontseptuaalne segadus põhjuslikkuse analüüsimisel:

• Nn ökoloogiline eksitus (ecological fallacy)• Nn individualistlik eksitus (individualist fallacy)

22

Miks MLM?

23

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y



Gruppideülene seos x ja y vahel

Miks MLM - analüüsitasand

(Merlo et al 2005. J. Epidemiology and Community Health)

24


(Merlo et al 2005. J. Epidemiology and Community Health)

25


(Merlo et al 2005. J. Epidemiology and Community Health) 26

27

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1

AUT 04 AUT 09 AUT 99 BGR 09 CYP 04 CYP 09 CZE 04 CZE 09

DEN 04 DEN 09 DEN 99 ESP 04 ESP 09 ESP 99 EST 04 EST 09

FIN 04 FIN 09 FIN 99 FRA 04 FRA 09 FRA 99 GBR 04 GBR 09

GBR 99 GER 04 GER 09 GER 99 GRC 04 GRC 09 HUN 04 HUN 09

IRE 04 IRE 99 ITA 04 ITA 09 ITA 99 LAT 09 LIT 09 MLT 09

NI 04 NLD 04 NLD 09 NLD 99 POL 04 POL 09 PRT 04 PRT 09

PRT 99 ROU 09 SVK 04 SVK 09 SVN 04 SVN 09 SWE 09 SWE 99

95% CI probability of participation

Share of parties

Miks MLM - analüüsitasand• Ühendame indiviidi ja linnaosa informatsiooni

(Merlo et al 2005. J. Epidemiology and Community Health) 28

MLM• Variatsioon eelmisel graafil oli:

– Kõikide indiviidide väärtused üldise keskmise suhtes– Kõikide gruppide keskmised üldise keskmise suhtes (varn)– Kõikide indiviidide väärtused nende grupi keskmise

suhtes (vari)

• Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne)

ICC= varn /(varn + vari)

29

MLM

• Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta:– Koosseisust tingitud efektid – teise tasandi ühikud

erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad

– Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees

30

MLM

• Kui ICC on väike, siis:– Pääseb ehk õnneks MLM-ist!– Grupi tasandi efektid ei pruugi olla olematud, vaid

teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi

31

MLM• Lahendus on mitmetasandiline modelleerimine (multi-level

modelling) aka HLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (või mixed effects models)

• Hinnatakse 1. indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi

sõltuvale tunnusele2. konteksti/grupi mõju:

• indiviidi tasandi sõltuvale tunnusele• indiviidi tasandi sõltumatute tunnuste efektidele

sõltuvale tunnusele (nn cross-level interaction)

32

MLM

• Mitmetasandiline lineaarne modelleerimine võtab andmete klastreid arvesse: 1) lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV

suhe) varieeruda kõrgema tasandi ühikute lõikes2) varieerumine saavutatakse koheldes indiviidi tasandi

vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane))

• Suur eelis:– saab lisada sõltumatuid tunnuseid igal tasandil

33

Mida MLM teeb• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:

Yij=βoj + β1jXij+εij

Yij – on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j

Xij – on esimese tasandi prediktor

βoj - on grupi j vabaliige

β1j - on sõltuva tunnuse ja esimese tasandi prediktori vaheline seos (sirge tõus) grupis j

εij - on esimese tasandi valemi ennustusviga

Mida MLM teeb

• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:


• Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega:

βoj =γ00+ γ01Wj+u0j

β1j =γ10+ γ11Wj+u1j

Mida MLM teeb (I)• Ennustame esimese tasandi vabaliiget teise tasandi tunnustega:

βoj =γ00+ γ01Wj+u0j

γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0

γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi vabaliikme (DV) vahel

Wj – teise tasandi prediktor

u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi j unikaalne efekt vabaliikmele

Mida MLM teeb (II)

• Ennustame esimese tasandi koefitsienti teise tasandi tunnustega:

β1j =γ10+ γ11Wj+u1j

γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0

γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi koefitsiendi (DV) vahelise seose kohta

u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule

MLM• Nüüd saame asendada:

βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j


Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij

γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj)γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij)γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij)u0j+u1jXij+εij - asendatud valemi juhusliku vea osa

38

MLM

• Esimene mudel on ainult vabaliikmega mudel (tühi mudel, empty model):– milline on keskmine erinevus gruppide vahel

sõltuvas tunnuses• Teises mudelis lisatakse esimese tasandi

prediktor vabaliikmega mudelile (esimese tasandi mudel)

• Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)

39

MLM - eeldused

• Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees)

• Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist

• Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)

40

MLM - spetsifitseerimisotsused

• Kui palju konteksti tunnuseid lisada?– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?

• Kas kõrgema tasandi ühikuid saab mõista juhuvalimina?

• Kas ikka kasutada MLM-i?– Ignoreerida teise tasandi ühikuid– Kasutada teise ühiku tunnuseid esimese ühiku

tunnustena– Korrigeerida standardvigu (clustered, robust s.e.)

41

MLM - spetsifitseerimisotsused

• Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij

– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?– Kas tõlgendamine ei lähe liiga keerukaks?

• Ainult fikseeritud efektidega mudelid ei arvesta klastrite sisu

• Juhuslike mõjudega mudelid (random coefficient models)– Kui βoj sõltub grupist, siis on tegemist nn random intercept mudeliga– Kui β1j sõltub grupist, siis on tegemist nn random slope mudeliga

– Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist

42

MLM – praktilised probleemid• Gruppide arv N ja gruppide suurus nj

– Põletavam probleem kui tavalises OLS-is– Gruppide arv N:

• Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012)

– Gruppide suurus nj :• Isegi ühe juhtumiga grupid võimalikud, kui ülejäänud grupid suuremad

(Snijders & Bosker 2012)

– Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj =30 grupi suurused

– Ehk “20/30” reegel– Mida keerulisem mudel, seda suurem valim vajalik

43

MLM

• Allikaid:– R. Bickel. Multilevel analysis for applied research: It’s

just regression! Guilford Press, 2007.– T. Snijders & R. Bosker. Multilevel analysis: An

introduction to basic and advanced multilevel modeling. Sage, 2012.

– J. Hox. Multilevel analysis: Techniques and applications. Routledge, 2010.

– B. Tabachnick & L. Fidell. Using Multivariate Statistics. Pearson, 2007.

44

Documents

Mitmetasandiline lineaarne regressioon