Upload
leandra-winters
View
41
Download
2
Embed Size (px)
DESCRIPTION
“Analisi di dati categoriali”. Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti. Gli odds ratio. Le relazioni tra variabili possono essere analizzate in termini probabilistici. - PowerPoint PPT Presentation
Citation preview
1
“Analisi di dati categoriali”
Corso di Laurea in SociologiaFacoltà di Sociologia
Università Milano-Bicocca
Ottobre 2009Simone Sarti
2
Gli odds ratio
Le relazioni tra variabili possono essere analizzate in termini probabilistici.L’odds ratio è una misura dell’associazione tra due variabili.
L’odds è un rapporto di probabilità.L’odds ratio è un rapporto di odds.
3
OddsUn odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria.
Freq.
Laureati 471
Non laureati 685
Tot. 1156
Odd= 471/685 = 0,688 (in decimali)
Prob.= 471/1156 = 0,407 = 40,7%
Le probabilità variano da 0 a 1Gli odds variano da 0 a +inf.
Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”
4
Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi
Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi
Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.
5
La relazione tra odds e probabilità è la seguente:
i
ii p
pOdds
1
6
Odds e Odds ratio
SEX * EDUC Crosstabulation
237 271 508
46.7% 53.3% 100.0%
234 414 648
36.1% 63.9% 100.0%
471 685 1156
40.7% 59.3% 100.0%
Count
% within SEX
Count
% within SEX
Count
% within SEX
male
female
SEX
Total
coll less
EDUC
Total
7
Odds marginali
L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688
L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.
8
Odds condizionali
La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271.
Per le donne i corrispondenti odds si attestano a 0.565 =234/414
9
Odds ratioIl modo in cui i due odds condizionali
differiscono l’uno dall’altro può essere espresso dal loro rapporto:
0.875/0.565=(237/271)/(234/414)=1.547
L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria.
L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.
10
Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:
a
a
b
a
p
p
p
p
b
aOdds
111
cb
da
dc
ba
Oddsratio
2
1
21
21
a b
c d
X
Y
11
Age -sex- educationHagenaars model
SEX * EDUC * AGE Crosstabulation
100 83 183
54.6% 45.4% 100.0%
91 101 192
47.4% 52.6% 100.0%
191 184 375
50.9% 49.1% 100.0%
92 96 188
48.9% 51.1% 100.0%
78 142 220
35.5% 64.5% 100.0%
170 238 408
41.7% 58.3% 100.0%
45 92 137
32.8% 67.2% 100.0%
65 171 236
27.5% 72.5% 100.0%
110 263 373
29.5% 70.5% 100.0%
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
male
female
SEX
Total
male
female
SEX
Total
male
female
SEX
Total
AGE16-34
35-57
58-91
coll less
EDUC
Total
12
Odds ratio di secondo ordine
Calcoliamo gli odds ratio condizionali per ciascun gruppo di età
Per il gruppo più giovane è pari a 1.337 (100/83)/(91/101)Per il gruppo di mezzo è 1.745Per il gruppo più anziano è 1.287Il modo in cui questi tre odds ratio condizionali
differiscono uno dall’altro può essere espresso dal odds ratio di secondo ordine che è ottenuto dal rapporto di odds ratio di primo ordine.
L’odds ratio di secondo ordine esprime in che misura l’associazione tra due variabili varia in relazione alle categorie di una terza variabile.
13
Confrontiamo gli odds ratio condizionali dei giovani rispetto ai soggetti in età centrale e otteniamo
0.766=(1.337/1.745)Compariamo i giovani con gli anziani1.039=(1.337/.1287)Ed infine l’età di mezzo con gli anziani1.356=(1.745/1.287).Gli odds ratio condizionali ci indicano che in tutti i tre
gruppi le probabilità di conseguire un alto livello di istruzione sono più sfavorevoli per le donne rispetto agli uomini.
In più la discrepanza tra le opportunità di istruzione tra uomini e donne è massima nel gruppo di soggetti in età centrale
14
ODDS PARZIALI Gli odds parziali odds parziali sono medie di odds condizionali, dove la media geometrica è usata come misura di tendenza centrale
Partial odds “high/low educ” tab.2.1 =
Tale valore non è identico a 0.688 ottenuto dagli odds marginali corrispondenti.
703,0565,0875,0
15
Odds ratios parzialiI Gli odds ratio parziali sono definiti come una
media geometrica dei corrispondenti odds ratio condizionali.
Partial odds ratio “sex by educ” tab.2.2 =
Tale valore non è identico a 1.547 ottenuto dal corrispondente odds ratio marginale.
443,1287,1745,1337,13
16
Il problema dell’asimmetria
Quando interpretiamo la forza degli odds e degli odds ratio dobbiamo ricordare che i valori degli odds sono asimmetricamente situati attorno ad 1, che è il valore dell’assenza di differenza.
Il limite massimo negativo è 0 mentre il limite massimo positivo è +infinito. L’asimmetria scompare quando lavoriamo con i logaritmi naturali degli odds e degli odds ratios. Il limite negativo diventa -infinito, quello positivo + infinito
Il logaritmo naturale dell’odds riceve la denominazione di logit.
17
i
iLOGIT
1
ln
ODDSLOGIT ln
18
logit (-∞,+∞) odds (0,+∞)
1
0logit(π)Assenza di effetto 0Effetto
negativo
Effetto positivo
Assenza
Effetto negativo
Effetto positivo
y=logit(π) 0<π <1 y= π /(1- π) 0<π<1
π
y y
10,5
Il problema dell’asimmetria
19
Effetti assoluti ed effetti relativi
Le differenze percentuali (o di probabilità) danno una misura assoluta della relazione tra modalità di due variabili, mentre gli odds ratio danno una misura relativa.
Ciò significa che anche in presenza di odds ratio elevati possiamo avere effetti, in termini assoluti, sostanzialmente deboli.
20
No Si tot
M 104 6 110
F 405 35 440
tot 509 41 550
Effetti assoluti ed effetti relativi: esempio
Genere e soddisfazione per la democrazia
5,16405
351042
1
cb
da
No Si tot
M 0,945 0,055 1
F 0,920 0,080 1
tot 0,925 0,075 1
dyx= + 0,025
% condizionate
21
22
LOGICA TRIVARIATA
CONTROLLO PER UNA TERZA VARIABILE
23
Logica trivariata
Quando ad una relazione bivariata aggiungiamo una terza variabile operiamo un’analisi trivariata.
24
Perché considerare una terza variabile?
Quando consideriamo un’ipotesi causale tra due fenomeni ed empiricamente corroboriamo l’esistenza di una relazione, non possiamo tuttavia escludere che i due fenomeni non siano dovuti ad un terzo che non abbiamo preso in considerazione.
25
La causa di un fenomeno in senso generico può essere definita come la somma totale delle condizioni , la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999)
Tuttavia, “Nulla può meglio mostrare l’assenza di qualsiasi fondamento scientifico per la distinzione fra la causa d’un fenomeno e le sue condizioni della maniera capricciosa in cui scegliamo fra le condizioni quella che preferiamo chiamare causa “ (J.S.Mill)
26
1.Il numero di pompieri impegnati nello spegnere un incendio è correlato con la stima finale dei danni provocati dall’incendio stesso.
2.I bambini nelle cui case vi sono più finestre mostrano migliori rendimenti scolastici.
Cause ed effetti ?
27
1. Considerando le dimensioni dell’incendio, la relazione tra numero di vigili del fuoco e stima dei danni sparisce.
2.Considerando la ricchezza patrimoniale dei genitori, la relazione tra numero di finestre e rendimento scolastico sparisce.
Presenza di un effetto SPURIO, cioè di una terza variabile, antecedente alle due, che
è la “vera” causa della relazione!
28
Posizione delle variabili
Una volta ipotizzata una relazione tra due variabili X “indipendente” e Y “dipendente”, l’altra o le altre variabili considerate possono assumere quattro posizioni:
variabili antecedenti, variabili intervenienti,variabili susseguenti,variabili concomitanti.
29
Variabili antecedenti
Quelle variabili che nell’ordine causale precedono sia X che Y.
X Y
A
30
LOGICA degli effetti
EFFETTO SPURIO:
l’inserimento di una variabile di controllo Z, annulla la relazione tra X e Y.
X Y
Z
X Y
31
LOGICA degli effetti
EFFETTO SOPPRESSO:
l’inserimento di una variabile di controllo Z, rende palese la relazione tra X e Y.
X Y
Z
X Y
32
SCOMPOSIZIONE degli effetti
Variabili categoriali e
differenze di probabilità
33
ESEMPIO 1. tra variabili dicotomiche.
Incrocio tra titolo di studio e fiducia nel sistema giudiziario …
X Y
X Titolo di studio (L – H)
Y Fiducia nel sistema giudiziario (S – N)
Esempio 1
34
… controllato per la variabile antecedente Z
X Y
Z
Z Coorte di nascita (G – A)
Esempio 1
35
Effetto bivariato XY= Effetto causale netto + Effetto spurio
dyx = dyx.z + d(yx)z
Esempio 1
X Y
Z
X Y
dyx.z
dyx
d(yx)z
36
Fonte: EB 60.1 Italia (30 e più anni)
Tavola di contingenza educ * fidu
231 299 530
43.6% 56.4% 100.0%
90 65 155
58.1% 41.9% 100.0%
321 364 685
46.9% 53.1% 100.0%
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Medio-bassa
2 Alta
educ
Totale
1 Si 2 No
fidu
Totale
Esempio 1
37
dyx Effetto bivariato: educaz. e fiducia giustizia
In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità (equivale al coefficiente di regressione quando le
variabili sono 0 e 1) .
dyx equivale alla differenza di probabilità sull’avere fiducia nella giustizia dato l’avere un titolo di studio alto piuttosto che basso.
Esempio 1
38
dyx Effetto bivariato: educaz. e fiducia giustizia
Pr (Y=1 | X=2) – Pr (Y=1 | X=1)
Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x)
La categoria di riferimento è la “SI” (Y=1).
dyx = 0,581 - 0,436 = 0,145
Esempio 1
39
dyx = 0,581 - 0,436 = 0,145
La relazione tra possesso della laurea (piuttosto che un titolo di studio inferiore) e fiducia nella giustizia (“si” piuttosto che “no”) è positiva.
Esempio 1
40
Tavola di contingenza educ * fidua
119 161 280
42.5% 57.5% 100.0%
64 44 108
59.3% 40.7% 100.0%
183 205 388
47.2% 52.8% 100.0%
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Medio-bassa
2 Alta
educ
Totale
1 Si 2 No
fidu
Totale
eta = 1 Giovania.
GIOVANI Z=1
Tavola di contingenza educ * fidua
112 138 250
44.8% 55.2% 100.0%
26 21 47
55.3% 44.7% 100.0%
138 159 297
46.5% 53.5% 100.0%
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Medio-bassa
2 Alta
educ
Totale
1 Si 2 No
fidu
Totale
eta = 2 Anziania.
ANZIANI Z=2
Esempio 1
41
Effetti condizionati di Z
Considerando Z, troviamo diversi effetti di X su Y.
dyx|z=1 = 0,593 -0,425 = 0,168
dyx|z=2 = 0,553 -0,448 = 0,105
Esempio 1
42
Effetto condizionato complessivo di Z
Considerando che le numerosità in Z tra giovani ed anziani sono diverse, occorre ponderare gli effetti condizionati.
Giovani= 388/685 = 0,567 quota di giovani (qg)
Anziani= 297/685 = 0,433 quota di anziani (1 - qg)
dyx.z = (0,168*0,567) + (0,105*0,433) = 0,141
Esempio 1
43
Effetto bivariato = Effetto causale + Effetto spurio
dyx = dyx.z + d(yx)z
d(yx)z =dyx – dyx.z = 0,145 – (0,141) = 0,004
d(yx)z Effetto spurio
Esempio 1
44
L’effetto della variabile Z è sostanzialmente nullo, ossia la relazione tra titolo di studio e fiducia nella giustizia permane immutata anche a parità di fascia d’età. Non c’è effetto SPURIO.
X Y
Z
+
~ 0 ~ 0
Esempio 1
45
46
L’effetto di interazione
47
L’effetto di interazione
Quando l’effetto causale esercitato dalla variabile indipendente X sulla variabile indipendente Y si manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z.
X Y
Z
48
100 100
100 300
10 90
90 5090 10
10 250
Z=0 Z=1
X=0
X=0 X=0
X=1
X=1 X=1
Y=0 Y=1
Y=0 Y=1 Y=0 Y=1
dyx= - 0,25
Pr (Y=0 | X=1) – Pr (Y=0 | X=0)
dyx|z=0= +0,54 dyx|z=1= -0,86
49
X
Y
X
Y
X
Y
Z=0 Z=1
Effetto di interazione di Z (dicotomica) su X e Y (cardinali)
β>0
βz=0>0 βz=1<0
50
Esempi di effetti di interazione (titolo*età)
51
52
SCOMPOSIZIONE degli effetti
Se le variabili sono dicotomiche ed attribuiamo i valori 0 e 1 alle
modalità di ciascuna, la relazione tra le due può essere misurata con il
coefficiente di correlazione di Pearson (r), che in una tavola 2x2 è
equivalente al V di Cramer.
53
Ipotizziamo che la variabile Z influenzi la relazione tra Y e X.
Come misurare l’effetto di X su Y al netto di Z ?
X Y
Z
X YZYXr .
YXr
54
XY
YXYX SS
Sr
Correlazioni tra le variabili:
X Y
ZX Z Y
X 1.453
.322
Z .453
1.596
Y .322
.596
1
Matrice di correlazione, r.. osservati
ZYXr .
XZ
XZXZ SS
Sr
YZ
YZYZ SS
Sr
55
22.11 YZXZ
YZXZYXZYX
RR
rrrr
E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo
costante” Z:
NB: rxy.z non tiene conto degli effetti di interazione !
56
Coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:
Correlazione bivariata Correlazione di Z su X e Y
Residui di Z-X e Z-Y
22.11 YZXZ
YZXZYXZYX
RR
rrrr
Più la Z spiega X eY, più grande è il denominatore
Misura quanto Z spiega di X eY
57
X Y
Z
X Z Y
X 1.453
.322
Z .453
1.596
Y .322
.596
1
Matrice di correlazione, r.. osservati
E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo
costante” Z:
ZYXr .
073,011 22.
YZXZ
YZXZYXZYX
RR
rrrr
073,0. ZYXr322,0YXr
58
X Y
Z
ZYXr .
073,0. ZYXr322,0YXr
La correlazione tra X e Y tenendo sotto controllo Z diventa molto piccola.
C’è effetto spurio!
Effetto bivariato = Effetto causale + Effetto spurio
ryx = ryx.z + r(yx)z
59
Parziale effetto spurio
Parziale effetto soppresso
Effetto di Z quasi nullo
13,0YXr53,0YZr23,0XZr
12,0YXr19,0YZr82,0XZr
44,0YXr18,0YZr
15,0XZr
42,0. ZYXr
49,0. ZYXr
01,0. ZYXr
60
Correlations
1 -.247** .168**
. .000 .000
1414 1414 1414
-.247** 1 .211**
.000 . .000
1414 1414 1414
.168** .211** 1
.000 .000 .
1414 1414 1414
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
eta
ascoli Anni di scolarità
reddito Redditomensile (euro)
etaascoli Annidi scolarità
reddito Redditomensile(euro)
Correlation is significant at the 0.01 level (2-tailed).**.
Correlazioni fra tre variabili (dicotomizzate 0/1)
Calcolare la correlazione parziale tra anni di scolarità e reddito