44
Mitmetasandiline lineaarne regressioon Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013 1

Mitmetasandiline lineaarne regressioon

  • Upload
    min

  • View
    183

  • Download
    0

Embed Size (px)

DESCRIPTION

Mitmetasandiline lineaarne regressioon. Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. - PowerPoint PPT Presentation

Citation preview

Page 1: Mitmetasandiline lineaarne regressioon

Mitmetasandiline lineaarne regressioon

Mihkel SolvakRiigiteaduste Instituut

Tartu Ülikool01.11.2013

1

Page 2: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

2

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

Page 3: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

3

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

Page 4: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

4

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2

Page 5: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

5

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2

Page 6: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

6

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

d1 d2

Page 7: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

7

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

Kampaaniakulud %

Hääl

ed %

y=4,6 + 0,7x

R2=0,79

Page 8: Mitmetasandiline lineaarne regressioon

Tavaline lineaarne regressioon

• Sellisel regressioonil on rida eeldusi• Kaks neist on eriti relevantsed hierarhilise

andmestruktuuri juures:– Keskmiste sõltumatus (mean independence)– Vigade mittekorreleeritus ehk inimkeeli juhtumite

sõltumatus

8

Page 9: Mitmetasandiline lineaarne regressioon

Mitmene lineaarne regressioon- eeldused (I)

• Keskmiste sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε

– Vea ε keskmine ei sõltu x-de väärtustest – Vea ε keskmine on null– Teisisõnu, regressioonimudelis on korrektsed tunnused– Vaid siis on konstant ja koefitsiendid kallutamata– Eelduse rikkumise tagajärjed on:

• kallutatud parameetrid

9

Page 10: Mitmetasandiline lineaarne regressioon

Mitmene lineaarne regressioon- eeldused (II)

• Juhtumite sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε

– Viga ε ei ole juhtumite vahel korreleeritud – Lihtsamalt öeldes – juhtumid on sõltumatud– Eelduse rikkumise tagajärjed on:

• OLS on ebaefektiivne seose kirjeldamisel• Liiga väikesed standardvead

10

Page 11: Mitmetasandiline lineaarne regressioon

MLM

• Juhtumite sõltumatuse eelduse rikkumine tähendab:– Juhtumist saadav info kattub või on dubleeritud teiste

juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud

– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust

– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib

suurem I tüüpi vea tegemise tõenäosus

11

Page 12: Mitmetasandiline lineaarne regressioon

MLM

H0 on tõene H0 on vale

Lükkate H0 tagasi

I tüüpi viga Kõik hästi

Ei lükka H0 tagasi Kõik hästi II tüüpi viga

12

Page 13: Mitmetasandiline lineaarne regressioon

MLM• Juhtumite sõltumatuse eelduse rikkumine tähendab:

– Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud

– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust

– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib suurem

I tüüpi vea tegemise tõenäosus– Sõltuvust tekitava faktori väljajätmine annab valesti

spetsifitseeritud mudeli (nn omitted variable bias)

13

Page 14: Mitmetasandiline lineaarne regressioon

MLM

• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse

• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus

14

Page 15: Mitmetasandiline lineaarne regressioon

Miks MLM?

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Page 16: Mitmetasandiline lineaarne regressioon

Miks MLM?

16

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Üldine seos x ja y vahel

Page 17: Mitmetasandiline lineaarne regressioon

Miks MLM?

17

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Üldine seos x ja y vahel

Grupisisene seos x ja y vahel

Page 18: Mitmetasandiline lineaarne regressioon

Miks MLM?

18

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Üldine seos x ja y vahel

Grupisisene seos x ja y vahel

Gruppideülene seos x ja y vahel

Page 19: Mitmetasandiline lineaarne regressioon

MLM

• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse

• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus

– Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse

– Ehk mitmetasandiliselt

19

Page 20: Mitmetasandiline lineaarne regressioon

Kuidas sõltuvus tekkida võib

• Korduvad mõõtmised– Eksperimendid– Paneeluuringud– Aegread

• Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)

20

Page 21: Mitmetasandiline lineaarne regressioon

Mitmetasandiline analüüs

• Hierarhiad andmetes leiab iga nähtuse puhul:– Tark õpilane õpib paremini tugevama tasemega

koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides)

– Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides)

– Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)

Page 22: Mitmetasandiline lineaarne regressioon

Mitmetasandiline analüüs

• Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil

• Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib:– Sõltuvus andmetes– Kontseptuaalne segadus põhjuslikkuse analüüsimisel:

• Nn ökoloogiline eksitus (ecological fallacy)• Nn individualistlik eksitus (individualist fallacy)

22

Page 23: Mitmetasandiline lineaarne regressioon

Miks MLM?

23

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

2

4

6

8

10

12

X

Y

Üldine seos x ja y vahel

Grupisisene seos x ja y vahel

Gruppideülene seos x ja y vahel

Page 24: Mitmetasandiline lineaarne regressioon

Miks MLM - analüüsitasand

(Merlo et al 2005. J. Epidemiology and Community Health)

24

Page 25: Mitmetasandiline lineaarne regressioon

Miks MLM - analüüsitasand

(Merlo et al 2005. J. Epidemiology and Community Health)

25

Page 26: Mitmetasandiline lineaarne regressioon

Miks MLM - analüüsitasand

(Merlo et al 2005. J. Epidemiology and Community Health) 26

Page 27: Mitmetasandiline lineaarne regressioon

27

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

.4.6

.81

0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1

AUT 04 AUT 09 AUT 99 BGR 09 CYP 04 CYP 09 CZE 04 CZE 09

DEN 04 DEN 09 DEN 99 ESP 04 ESP 09 ESP 99 EST 04 EST 09

FIN 04 FIN 09 FIN 99 FRA 04 FRA 09 FRA 99 GBR 04 GBR 09

GBR 99 GER 04 GER 09 GER 99 GRC 04 GRC 09 HUN 04 HUN 09

IRE 04 IRE 99 ITA 04 ITA 09 ITA 99 LAT 09 LIT 09 MLT 09

NI 04 NLD 04 NLD 09 NLD 99 POL 04 POL 09 PRT 04 PRT 09

PRT 99 ROU 09 SVK 04 SVK 09 SVN 04 SVN 09 SWE 09 SWE 99

95% CI probability of participation

Share of parties

Page 28: Mitmetasandiline lineaarne regressioon

Miks MLM - analüüsitasand• Ühendame indiviidi ja linnaosa informatsiooni

(Merlo et al 2005. J. Epidemiology and Community Health) 28

Page 29: Mitmetasandiline lineaarne regressioon

MLM• Variatsioon eelmisel graafil oli:

– Kõikide indiviidide väärtused üldise keskmise suhtes– Kõikide gruppide keskmised üldise keskmise suhtes (varn)– Kõikide indiviidide väärtused nende grupi keskmise

suhtes (vari)

• Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne)

ICC= varn /(varn + vari)

29

Page 30: Mitmetasandiline lineaarne regressioon

MLM

• Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta:– Koosseisust tingitud efektid – teise tasandi ühikud

erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad

– Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees

30

Page 31: Mitmetasandiline lineaarne regressioon

MLM

• Kui ICC on väike, siis:– Pääseb ehk õnneks MLM-ist!– Grupi tasandi efektid ei pruugi olla olematud, vaid

teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi

31

Page 32: Mitmetasandiline lineaarne regressioon

MLM• Lahendus on mitmetasandiline modelleerimine (multi-level

modelling) aka HLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (või mixed effects models)

• Hinnatakse 1. indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi

sõltuvale tunnusele2. konteksti/grupi mõju:

• indiviidi tasandi sõltuvale tunnusele• indiviidi tasandi sõltumatute tunnuste efektidele

sõltuvale tunnusele (nn cross-level interaction)

32

Page 33: Mitmetasandiline lineaarne regressioon

MLM

• Mitmetasandiline lineaarne modelleerimine võtab andmete klastreid arvesse: 1) lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV

suhe) varieeruda kõrgema tasandi ühikute lõikes2) varieerumine saavutatakse koheldes indiviidi tasandi

vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane))

• Suur eelis:– saab lisada sõltumatuid tunnuseid igal tasandil

33

Page 34: Mitmetasandiline lineaarne regressioon

Mida MLM teeb• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:

Yij=βoj + β1jXij+εij

Yij – on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j

Xij – on esimese tasandi prediktor

βoj - on grupi j vabaliige

β1j - on sõltuva tunnuse ja esimese tasandi prediktori vaheline seos (sirge tõus) grupis j

εij - on esimese tasandi valemi ennustusviga

Page 35: Mitmetasandiline lineaarne regressioon

Mida MLM teeb

• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:

Yij=βoj + β1jXij+εij

• Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega:

βoj =γ00+ γ01Wj+u0j

β1j =γ10+ γ11Wj+u1j

Page 36: Mitmetasandiline lineaarne regressioon

Mida MLM teeb (I)• Ennustame esimese tasandi vabaliiget teise tasandi tunnustega:

βoj =γ00+ γ01Wj+u0j

γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0

γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi vabaliikme (DV) vahel

Wj – teise tasandi prediktor

u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi j unikaalne efekt vabaliikmele

Page 37: Mitmetasandiline lineaarne regressioon

Mida MLM teeb (II)

• Ennustame esimese tasandi koefitsienti teise tasandi tunnustega:

β1j =γ10+ γ11Wj+u1j

γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0

γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi koefitsiendi (DV) vahelise seose kohta

u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule

Page 38: Mitmetasandiline lineaarne regressioon

MLM• Nüüd saame asendada:

βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j

Yij=βoj + β1jXij+εij

Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij

γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj)γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij)γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij)u0j+u1jXij+εij - asendatud valemi juhusliku vea osa

38

Page 39: Mitmetasandiline lineaarne regressioon

MLM

• Esimene mudel on ainult vabaliikmega mudel (tühi mudel, empty model):– milline on keskmine erinevus gruppide vahel

sõltuvas tunnuses• Teises mudelis lisatakse esimese tasandi

prediktor vabaliikmega mudelile (esimese tasandi mudel)

• Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)

39

Page 40: Mitmetasandiline lineaarne regressioon

MLM - eeldused

• Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees)

• Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist

• Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)

40

Page 41: Mitmetasandiline lineaarne regressioon

MLM - spetsifitseerimisotsused

• Kui palju konteksti tunnuseid lisada?– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?

• Kas kõrgema tasandi ühikuid saab mõista juhuvalimina?

• Kas ikka kasutada MLM-i?– Ignoreerida teise tasandi ühikuid– Kasutada teise ühiku tunnuseid esimese ühiku

tunnustena– Korrigeerida standardvigu (clustered, robust s.e.)

41

Page 42: Mitmetasandiline lineaarne regressioon

MLM - spetsifitseerimisotsused

• Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij

– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?– Kas tõlgendamine ei lähe liiga keerukaks?

• Ainult fikseeritud efektidega mudelid ei arvesta klastrite sisu

• Juhuslike mõjudega mudelid (random coefficient models)– Kui βoj sõltub grupist, siis on tegemist nn random intercept mudeliga– Kui β1j sõltub grupist, siis on tegemist nn random slope mudeliga

– Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist

42

Page 43: Mitmetasandiline lineaarne regressioon

MLM – praktilised probleemid• Gruppide arv N ja gruppide suurus nj

– Põletavam probleem kui tavalises OLS-is– Gruppide arv N:

• Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012)

– Gruppide suurus nj :• Isegi ühe juhtumiga grupid võimalikud, kui ülejäänud grupid suuremad

(Snijders & Bosker 2012)

– Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj =30 grupi suurused

– Ehk “20/30” reegel– Mida keerulisem mudel, seda suurem valim vajalik

43

Page 44: Mitmetasandiline lineaarne regressioon

MLM

• Allikaid:– R. Bickel. Multilevel analysis for applied research: It’s

just regression! Guilford Press, 2007.– T. Snijders & R. Bosker. Multilevel analysis: An

introduction to basic and advanced multilevel modeling. Sage, 2012.

– J. Hox. Multilevel analysis: Techniques and applications. Routledge, 2010.

– B. Tabachnick & L. Fidell. Using Multivariate Statistics. Pearson, 2007.

44