Upload
min
View
183
Download
0
Embed Size (px)
DESCRIPTION
Mitmetasandiline lineaarne regressioon. Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool 01.11.2013. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. d 1. d 2. Tavaline lineaarne regressioon. - PowerPoint PPT Presentation
Citation preview
Mitmetasandiline lineaarne regressioon
Mihkel SolvakRiigiteaduste Instituut
Tartu Ülikool01.11.2013
1
Tavaline lineaarne regressioon
2
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
Tavaline lineaarne regressioon
3
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
Tavaline lineaarne regressioon
4
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
d1 d2
Tavaline lineaarne regressioon
5
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
d1 d2
Tavaline lineaarne regressioon
6
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
d1 d2
Tavaline lineaarne regressioon
7
0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.000.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
Kampaaniakulud %
Hääl
ed %
y=4,6 + 0,7x
R2=0,79
Tavaline lineaarne regressioon
• Sellisel regressioonil on rida eeldusi• Kaks neist on eriti relevantsed hierarhilise
andmestruktuuri juures:– Keskmiste sõltumatus (mean independence)– Vigade mittekorreleeritus ehk inimkeeli juhtumite
sõltumatus
8
Mitmene lineaarne regressioon- eeldused (I)
• Keskmiste sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε
– Vea ε keskmine ei sõltu x-de väärtustest – Vea ε keskmine on null– Teisisõnu, regressioonimudelis on korrektsed tunnused– Vaid siis on konstant ja koefitsiendid kallutamata– Eelduse rikkumise tagajärjed on:
• kallutatud parameetrid
9
Mitmene lineaarne regressioon- eeldused (II)
• Juhtumite sõltumatus:y= β0+ β1X1 + β2X2 +… +βnXn+ε
– Viga ε ei ole juhtumite vahel korreleeritud – Lihtsamalt öeldes – juhtumid on sõltumatud– Eelduse rikkumise tagajärjed on:
• OLS on ebaefektiivne seose kirjeldamisel• Liiga väikesed standardvead
10
MLM
• Juhtumite sõltumatuse eelduse rikkumine tähendab:– Juhtumist saadav info kattub või on dubleeritud teiste
juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud
– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust
– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib
suurem I tüüpi vea tegemise tõenäosus
11
MLM
H0 on tõene H0 on vale
Lükkate H0 tagasi
I tüüpi viga Kõik hästi
Ei lükka H0 tagasi Kõik hästi II tüüpi viga
12
MLM• Juhtumite sõltumatuse eelduse rikkumine tähendab:
– Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud
– “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust
– Standardvead on liiga väikesed– Olulisuse nivoo eksitab (nn alpha inflation), tekib suurem
I tüüpi vea tegemise tõenäosus– Sõltuvust tekitava faktori väljajätmine annab valesti
spetsifitseeritud mudeli (nn omitted variable bias)
13
MLM
• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse
• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus
14
Miks MLM?
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
2
4
6
8
10
12
X
Y
Miks MLM?
16
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
2
4
6
8
10
12
X
Y
Üldine seos x ja y vahel
Miks MLM?
17
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
2
4
6
8
10
12
X
Y
Üldine seos x ja y vahel
Grupisisene seos x ja y vahel
Miks MLM?
18
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
2
4
6
8
10
12
X
Y
Üldine seos x ja y vahel
Grupisisene seos x ja y vahel
Gruppideülene seos x ja y vahel
MLM
• Lahendused:– Kaasata sõltuvust tekitav faktor mudelisse
• y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+εkus W1 on teise tasandi tunnus
– Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse
– Ehk mitmetasandiliselt
19
Kuidas sõltuvus tekkida võib
• Korduvad mõõtmised– Eksperimendid– Paneeluuringud– Aegread
• Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)
20
Mitmetasandiline analüüs
• Hierarhiad andmetes leiab iga nähtuse puhul:– Tark õpilane õpib paremini tugevama tasemega
koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides)
– Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides)
– Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)
Mitmetasandiline analüüs
• Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil
• Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib:– Sõltuvus andmetes– Kontseptuaalne segadus põhjuslikkuse analüüsimisel:
• Nn ökoloogiline eksitus (ecological fallacy)• Nn individualistlik eksitus (individualist fallacy)
22
Miks MLM?
23
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
2
4
6
8
10
12
X
Y
Üldine seos x ja y vahel
Grupisisene seos x ja y vahel
Gruppideülene seos x ja y vahel
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health)
24
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health)
25
Miks MLM - analüüsitasand
(Merlo et al 2005. J. Epidemiology and Community Health) 26
27
.4.6
.81
.4.6
.81
.4.6
.81
.4.6
.81
.4.6
.81
.4.6
.81
.4.6
.81
0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1 0 .5 1
AUT 04 AUT 09 AUT 99 BGR 09 CYP 04 CYP 09 CZE 04 CZE 09
DEN 04 DEN 09 DEN 99 ESP 04 ESP 09 ESP 99 EST 04 EST 09
FIN 04 FIN 09 FIN 99 FRA 04 FRA 09 FRA 99 GBR 04 GBR 09
GBR 99 GER 04 GER 09 GER 99 GRC 04 GRC 09 HUN 04 HUN 09
IRE 04 IRE 99 ITA 04 ITA 09 ITA 99 LAT 09 LIT 09 MLT 09
NI 04 NLD 04 NLD 09 NLD 99 POL 04 POL 09 PRT 04 PRT 09
PRT 99 ROU 09 SVK 04 SVK 09 SVN 04 SVN 09 SWE 09 SWE 99
95% CI probability of participation
Share of parties
Miks MLM - analüüsitasand• Ühendame indiviidi ja linnaosa informatsiooni
(Merlo et al 2005. J. Epidemiology and Community Health) 28
MLM• Variatsioon eelmisel graafil oli:
– Kõikide indiviidide väärtused üldise keskmise suhtes– Kõikide gruppide keskmised üldise keskmise suhtes (varn)– Kõikide indiviidide väärtused nende grupi keskmise
suhtes (vari)
• Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne)
ICC= varn /(varn + vari)
29
MLM
• Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta:– Koosseisust tingitud efektid – teise tasandi ühikud
erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad
– Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees
30
MLM
• Kui ICC on väike, siis:– Pääseb ehk õnneks MLM-ist!– Grupi tasandi efektid ei pruugi olla olematud, vaid
teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi
31
MLM• Lahendus on mitmetasandiline modelleerimine (multi-level
modelling) aka HLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (või mixed effects models)
• Hinnatakse 1. indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi
sõltuvale tunnusele2. konteksti/grupi mõju:
• indiviidi tasandi sõltuvale tunnusele• indiviidi tasandi sõltumatute tunnuste efektidele
sõltuvale tunnusele (nn cross-level interaction)
32
MLM
• Mitmetasandiline lineaarne modelleerimine võtab andmete klastreid arvesse: 1) lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV
suhe) varieeruda kõrgema tasandi ühikute lõikes2) varieerumine saavutatakse koheldes indiviidi tasandi
vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane))
• Suur eelis:– saab lisada sõltumatuid tunnuseid igal tasandil
33
Mida MLM teeb• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:
Yij=βoj + β1jXij+εij
Yij – on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j
Xij – on esimese tasandi prediktor
βoj - on grupi j vabaliige
β1j - on sõltuva tunnuse ja esimese tasandi prediktori vaheline seos (sirge tõus) grupis j
εij - on esimese tasandi valemi ennustusviga
Mida MLM teeb
• MLM alustab samuti lineaarsest seosest kahe tunnuse vahel:
Yij=βoj + β1jXij+εij
• Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega:
βoj =γ00+ γ01Wj+u0j
β1j =γ10+ γ11Wj+u1j
Mida MLM teeb (I)• Ennustame esimese tasandi vabaliiget teise tasandi tunnustega:
βoj =γ00+ γ01Wj+u0j
γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0
γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi vabaliikme (DV) vahel
Wj – teise tasandi prediktor
u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi j unikaalne efekt vabaliikmele
Mida MLM teeb (II)
• Ennustame esimese tasandi koefitsienti teise tasandi tunnustega:
β1j =γ10+ γ11Wj+u1j
γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0
γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi koefitsiendi (DV) vahelise seose kohta
u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule
MLM• Nüüd saame asendada:
βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j
Yij=βoj + β1jXij+εij
Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij
γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj)γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij)γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij)u0j+u1jXij+εij - asendatud valemi juhusliku vea osa
38
MLM
• Esimene mudel on ainult vabaliikmega mudel (tühi mudel, empty model):– milline on keskmine erinevus gruppide vahel
sõltuvas tunnuses• Teises mudelis lisatakse esimese tasandi
prediktor vabaliikmega mudelile (esimese tasandi mudel)
• Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)
39
MLM - eeldused
• Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees)
• Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist
• Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)
40
MLM - spetsifitseerimisotsused
• Kui palju konteksti tunnuseid lisada?– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?
• Kas kõrgema tasandi ühikuid saab mõista juhuvalimina?
• Kas ikka kasutada MLM-i?– Ignoreerida teise tasandi ühikuid– Kasutada teise ühiku tunnuseid esimese ühiku
tunnustena– Korrigeerida standardvigu (clustered, robust s.e.)
41
MLM - spetsifitseerimisotsused
• Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij
– Mida teooria ütleb?– Kas mudel ei lähe liiga “keerukaks”?– Kas tõlgendamine ei lähe liiga keerukaks?
• Ainult fikseeritud efektidega mudelid ei arvesta klastrite sisu
• Juhuslike mõjudega mudelid (random coefficient models)– Kui βoj sõltub grupist, siis on tegemist nn random intercept mudeliga– Kui β1j sõltub grupist, siis on tegemist nn random slope mudeliga
– Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist
42
MLM – praktilised probleemid• Gruppide arv N ja gruppide suurus nj
– Põletavam probleem kui tavalises OLS-is– Gruppide arv N:
• Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012)
– Gruppide suurus nj :• Isegi ühe juhtumiga grupid võimalikud, kui ülejäänud grupid suuremad
(Snijders & Bosker 2012)
– Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj =30 grupi suurused
– Ehk “20/30” reegel– Mida keerulisem mudel, seda suurem valim vajalik
43
MLM
• Allikaid:– R. Bickel. Multilevel analysis for applied research: It’s
just regression! Guilford Press, 2007.– T. Snijders & R. Bosker. Multilevel analysis: An
introduction to basic and advanced multilevel modeling. Sage, 2012.
– J. Hox. Multilevel analysis: Techniques and applications. Routledge, 2010.
– B. Tabachnick & L. Fidell. Using Multivariate Statistics. Pearson, 2007.
44