Upload
xena-hernandez
View
68
Download
3
Embed Size (px)
DESCRIPTION
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.10 Regressione e inferenza: il modello lineare. In questa lezione. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. - PowerPoint PPT Presentation
Citation preview
Lezione B10
Regressione e inferenza il modello lineare
TQuArs ndash aa 201011Tecniche quantitative per lrsquoanalisi nella ricerca sociale
Giuseppe A Micheli
In questa lezione
In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale
Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significativitagrave delle relazioni stimate
Il modello lineare e sue ipotesi
Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo
Yi = + βXi + εi
ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare
Facendo scendere in campo X possiamo arricchire il modello nel seguente modo
Yi = microi + εi
microi = f(Xi) componente sistematica
εi ~ N(0 σ2) errore casuale
La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X
Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale
Inoltre i valori xi sono considerati fissi e misurati con precisione
Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)
Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime
n
i
n
ii
XYX
xx
yyxxb
xbya
11
2
11
)(
))((varcov
Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(
Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii
2i
Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Con le formule appena viste otteniamo
b=304 a=16035 s2 = 795
I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β
Dal punto di vista tecnico finora dunque nulla di nuovo
Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
In questa lezione
In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale
Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significativitagrave delle relazioni stimate
Il modello lineare e sue ipotesi
Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo
Yi = + βXi + εi
ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare
Facendo scendere in campo X possiamo arricchire il modello nel seguente modo
Yi = microi + εi
microi = f(Xi) componente sistematica
εi ~ N(0 σ2) errore casuale
La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X
Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale
Inoltre i valori xi sono considerati fissi e misurati con precisione
Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)
Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime
n
i
n
ii
XYX
xx
yyxxb
xbya
11
2
11
)(
))((varcov
Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(
Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii
2i
Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Con le formule appena viste otteniamo
b=304 a=16035 s2 = 795
I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β
Dal punto di vista tecnico finora dunque nulla di nuovo
Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Il modello lineare e sue ipotesi
Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo
Yi = + βXi + εi
ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare
Facendo scendere in campo X possiamo arricchire il modello nel seguente modo
Yi = microi + εi
microi = f(Xi) componente sistematica
εi ~ N(0 σ2) errore casuale
La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X
Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale
Inoltre i valori xi sono considerati fissi e misurati con precisione
Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)
Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime
n
i
n
ii
XYX
xx
yyxxb
xbya
11
2
11
)(
))((varcov
Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(
Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii
2i
Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Con le formule appena viste otteniamo
b=304 a=16035 s2 = 795
I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β
Dal punto di vista tecnico finora dunque nulla di nuovo
Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)
Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime
n
i
n
ii
XYX
xx
yyxxb
xbya
11
2
11
)(
))((varcov
Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(
Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii
2i
Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Con le formule appena viste otteniamo
b=304 a=16035 s2 = 795
I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β
Dal punto di vista tecnico finora dunque nulla di nuovo
Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Con le formule appena viste otteniamo
b=304 a=16035 s2 = 795
I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β
Dal punto di vista tecnico finora dunque nulla di nuovo
Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Incertezza sui parametri
Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente
2
i
2
)x-(xbVar
)(
2i
2i
2
)x-(x
s
)x-(x
sbes )(
Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere
2
i
2
)x-(x
sb)var(
Stimatore dellrsquoerrore standard di conseguenza saragrave
Nel nostro esempioes(b) = radic(795184) = 0657
Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)
Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Intervalli di confidenza
)(bes
b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave
Pertanto un intervallo di confidenza al 95 per β saragrave dato da
IDC(β) = b plusmn tn-2005 es(b)
Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β
btn-2005 es(b) tn-2005 es(b)
Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto
IDC(β) = 304 plusmn 151
Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)
304151
0151
15
3
45
5
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test
Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro
Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)
t = b es(b)
che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)
Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0
Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y
Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y
X (Etagrave) Salto (Y)
18 212
18 218
18 215
19 218
19 220
20 218
20 224
21 220
21 226
22 229
Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave
IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi
t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile
04
05
06
07
08
09
03 04 05 06 07 08
Statistica totale
N 12
R2XY
033
A +092
B -0555
Es(B) 0249
t student -2231
Sign 050
Idc 95 inf -1110
Idc 95 sup -0001
regione X Y
Italia 042 082
Portogallo 059 076
Gran Bret 065 074
Grecia 044 068
Spagna 032 067
Irlanda 039 067
Olanda 060 061
Austria 056 051
Belgio 060 050
Germania 053 050
Finlandia 072 045
Danimarca 078 042
X= donne lavoro Y=disuguaglianza
0
-4 -3 -2 -1 0 1 2 3 4
Mah
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Es 2 contesti di disoccupazione spingono al suicidio
regione X Y
Piemonte 088 114
Lombardia 088 075
Trentino 091 100
Veneto 089 085
Friuli 085 123
Liguria 080 096
Emilia 088 129
Toscana 084 086
Umbria 083 101
X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)
03
05
07
09
11
13
05 06 07 08 09 1
Statistica Italia Nord Sud
N 19 9 10
R2XY
058 001 026
A -051 087 -000
B +172 0157 0911
Es(B) 0354 1978 0540
t student 4862 0079 1687
Sign 000 939 130
Idc 95 inf 973 -452 -334
Idc 95 sup 2465 +483 +216
0
-4 -3 -2 -1 0 1 2 3 4
regione X Y
Marche 084 082
Lazio 070 060
Abruzzi 076 061
Molise 071 058
Campania 058 038
Puglie 070 048
Basilicata 064 067
Calabria 055 046
Sicilia 063 067
Sardegna 065 086
Solo nord-sud
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze
regione X Y
Piemonte 90 56
Lombardia 86 50
Trentino 71 50
Veneto 37 38
Friuli 53 54
Liguria 118 55
Emilia 97 60
Toscana 65 42
X=Divorzi al 1988 Y=convivenze al 2001
0
10
20
30
40
50
60
0 20 40 60 80 100 120
regione X Y
Umbria 48 26
Marche 36 27
Lazio 44 40
AbruzziMol 17 16
Campania 31 16
Puglie 26 17
Basilicata 25 9
Calabria 21 14
Sicilia 36 20
Sardegna 33 24
0
-4 -3 -2 -1 0 1 2 3 4
Statistica Italia NC Sud Nord CS
N 18 11 7 8 10
R2XY
77 61 33 52 59
A 747 227 583 348 -95
B 051 033 398 205 689
Es(B) 007 089 254 081 201
t student 745 373 156 253 342
Sign 000 005 178 044 009
Idc 95 inf 367 131 -25 007 225
Idc 95 sup 600 535 105 403 115
Ancora nord-sud
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Es 4 la diffusione dei compu-ter spiega quella dei cellulari
Country X Y
Austria 25 18
Belgio 25 12
Francia 23 12
Germania 23 13
Olanda 29 13
Svizzera 30 17
Grecia 7 9
Italia 16 24
Portogallo 10 18
Spagna 12 14
Danimarca 35 31
Finlandia 35 46
Svezia 35 41
UK 29 16
Norvegia 36 41
05101520253035404550
0 5 10 15 20 25 30 35 40
X= computer Y=cellulariStatistica Europa Nord Sud Centro
N 15 5 4 6
R2XY
423 789 787 167
A 128 -92 -53 485
B 826 375 149 0361
Es(B) 267 112 548 0402
t student 309 335 272 0897
Sign 009 044 113 421
Idc 95 inf 248 192 -87 -76
Idc 95 sup 140 731 385 148
0
-4 -3 -2 -1 0 1 2 3 4
Tre europe differenti
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Dalla regressione semplice a quella multipla
due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi
microi(Z) = + YZ Zi
o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi
Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla
Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre
Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Coefficienti parziali
Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo
microi(XZ) = + YXz Xi + YZx Zi
dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y
al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)
In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-
cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 1 da che dipende esser ricchi
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) +008 004 +1928 054 000 015
Dim Famiglia -149 064 -2319 021 -274 -023
N Figli in famiglia -088 073 -1205 228 -232 +-055
Dim Urbana +039 045 +0869 385 -049 +126
Tit Studio madre +313 061 +5089 000 +192 +433
Tit Studio interv +508 059 +8671 000 +393 +623
N = 966 R2 =211 F = 4287 Sign 000
Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 2 da che dipende essere istruiti
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023
N Figli in famiglia +013 024 +0538 591 -034 +060
Dim Urbana +101 023 +4322 000 +055 +146
Tit Studio madre +378 031 +12324 000 +318 +438
Reddito eq Famigl +142 016 +8608 000 +109 +174
N = 966 R2 =477 F =17553 Sign 000
Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 3 cosa causa disagio relazionale
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) -016 009 -1769 077
Reddito eq Famigl -251 075 -3360 001
Dim Famiglia -390 149 -2627 009
Ormai avete capito come funzionano gli Idc
N Figli in famiglia +241 167 +1440 150
Tit Studio interv -279 143 -1955 051
N Legami forti -188 077 -2448 015
Peso neighb in rete -007 003 -2162 031
Dim Urbana -018 101 -0178 859
Grado postfamilism -086 042 -2055 040
Tit Studio madre -113 144 -0787 431
N = 811 R2 =068 F =4145 Sign 000
Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 010 002 +5023 000
Reddito eq Famigl -008 016 -0468 640
Dim Famiglia -038 032 -1185 236
Ormai avete capito come funzionano gli Idc
N Figli in famiglia -010 037 -0273 785
Tit Studio interv 000 031 -0012 990
N Legami forti 044 016 +2669 008
Dim Urbana 045 022 +2003 045
Densitagrave della rete 013 023 +0570 569
Tit Studio madre -033 031 -1060 289
Disagio relazionale 013 008 +1625 105
N = 902 R2 =075 F =6578 Sign 000
Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne
Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare
Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup
Etagrave (classi 10 anni) 109 039 +2786 005
Ormai avete capito come funzionano gli Idc
N Figli in famiglia 557 464 +1201 230
Dim Urbana 1894 451 +4198 000
Reddito eq Famigl -008 332 -0025 980
Tit Studio interv 324 590 +0550 583
N = 1060 R2 = 028 F =5985 Sign 000
Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne