1
“Teoria e metodi della ricerca sociale e organizzativa”
Corso di Laurea in Scienze dell’OrganizzazioneFacoltà di Sociologia
Università Milano-Bicocca
2009Simone Sarti
2
Relazioni tra variabili
La relazione tra variabili può essere caratterizzata da:
forma forza direzione.
3
Forma della relazione
La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati.La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).
4
ESEMPIO: forma di una relazione
Percentuali di riga (di cella e marginali)
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
66.2% 27.7% 6.1% 100.0%
67.7% 27.0% 5.3% 100.0%
66.9% 27.3% 5.7% 100.0%
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
I maschi sono più istruiti delle donne.
5
Presenza di malattie per fascia d’età
Elaborazioni Multiscopo AVQ 2003
0
10
20
30
40
50
60
70
80
90
100
15-24 anni 25-34 anni 35-44 anni 45-54 anni 55-64 anni 65-74 anni 75 anni e+
1 Molto gravi 2 Abbastanza gravi 3 Poco gravi
4 Allergie 5 Nessuna
ESEMPIO: forma di una relazione
6
Forza della relazione
La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra.
“Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione”
John Stuart Mill
7
ESEMPIO: forza di una relazione
V di cramer = 0,035
Soddisfatti del lavoro
Non soddisfatti del lavoro
totale
maschio 536 287 823
femmina 304 139 443
totale 840 426 1266
8
ESEMPIO: forza di una relazione
Coefficiente di determinazione
tra anni di scolarità del padre
e anni di scolarità del figlio
r2 = 0.37
9
Direzione della relazione
Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione.
X Y
10
Coefficientsa
263,435 312,994 ,842 ,424
128,288 29,870 ,835 4,295 ,003
(Constant)
anniscol
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: redditoa.
ESEMPIO: direzione della relazione
Ogni anno di scolarità in più “produce” in media un incremento nel reddito di 128 euro
Stabiliamo che l’istruzione condizioni il reddito !
Regressione lineare
11
Variabili indipendenti e dipendenti
A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti.Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).
12
Applicazioni di analisi bivariata
su variabili categorialisu variabili ordinalisu variabili cardinali
Applicazioni di analisi bivariata su variabili
categoriali
Variabili categoriali (o nominali)
Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione
concettuale.
Le modalità godono di un alto grado di autonomia semantica.
L’Analisi BivariataTratta lo studio della distribuzione dei dati osservati sugli stati di due
variabili.
Si indagano le relazioni intercorrenti tra due variabili.
Possono dare risposta a semplici interrogativi teorici.
L’Analisi BivariataTavole di contingenza, o tabelle a
doppia entrata, o incroci
Costituiscono lo fase più elementare nello studio delle
relazioni tra due variabili.
Struttura di una tavola di contingenza
YX
Y1 Y2 Y3
X1 f11 f12 f13 f1.
X2 f21 f22 f23 f2.
f.1 f.2 f.3 N
Frequenze di cella (R x C) e marginali (R + C)
Variabile X sulle righe, variabile Y sulle colonne
Struttura di una tavola di contingenza
Righe: i = 1…R
Colonne: j = 1…C
fij frequenza della cella della i-esima riga e j-esima colonna
f.j frequenza marginale della j-esima colonna
fi. frequenza marginale della i-esima riga
Struttura di una tavola di contingenza
Frequenze di cella e marginali
Variabile X sulle righe, variabile Y sulle colonne
Tavola di contingenza sex SESSO * titolo
Conteggio
8542 3575 792 12909
9134 3640 722 13496
17676 7215 1514 26405
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
Struttura di una tavola di contingenza
YX
Y1 Y2 Y3
X1f11/N % f12/N % f13/N % f1. /N %
X2f21/N % f22/N % f23/N % f2. /N %
f.1/N % f.2/N % f.3/N % 100
Percentuali totali di cella e marginali
Struttura di una tavola di contingenza
Percentuali totali di cella e marginali
Tavola di contingenza sex SESSO * titolo
% del totale
32.3% 13.5% 3.0% 48.9%
34.6% 13.8% 2.7% 51.1%
66.9% 27.3% 5.7% 100.0%
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
Struttura di una tavola di contingenza
YX
Y1 Y2 Y3
X1 f11/f1. % f12/f1. % f13/f1. % 100
X2 f21/f2. % f22/f2. % f23/f2. % 100
f.1/N % f.2/N % f.3/N % 100
Percentuali CONDIZIONATE di riga (di cella e marginali).
)%|&(% 11111 XYXpP
Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali)
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
66.2% 27.7% 6.1% 100.0%
67.7% 27.0% 5.3% 100.0%
66.9% 27.3% 5.7% 100.0%
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).
)%1|1&1(%11 SessoTitoloSessopP
Differenze percentuali tra percentuali condizionate
Tavola di contingenza sex SESSO * titolo
% entro sex SESSO
66.2% 27.7% 6.1% 100.0%
67.7% 27.0% 5.3% 100.0%
66.9% 27.3% 5.7% 100.0%
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente.
- 1,5 %Differenza % tra maschi e
femmine sul titolo dell’obbligo ( a parità di numero).
+ 0,8 %
Differenza % tra maschi e femmine sul titolo universitario
( a parità di numero).
Struttura di una tavola di contingenza
YX
Y1 Y2 Y3
X1 f11/f.1 % f12/f.2% f13/f.3 % f1./N %
X2 f21/f.1 % f22/f.2 % f23/f.3 % f2./N %
100 100 100 100
Percentuali di colonna (di cella e marginali).
26
Gli odds ratio
Le relazioni tra variabili possono essere analizzate in termini probabilistici.L’odds ratio è una misura dell’associazione tra due variabili.
L’odds è un rapporto di probabilità.L’odds ratio è un rapporto di odds.
27
OddsUn odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria.
Freq.
Laureati 471
Non laureati 685
Tot. 1156
Odd= 471/685 = 0,688 (in decimali)
Prob.= 471/1156 = 0,407 = 40,7%
Le probabilità variano da 0 a 1Gli odds variano da 0 a +inf.
Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”
28
Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi
Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi
Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.
29
La relazione tra odds e probabilità è la seguente:
i
ii p
pOdds
1
30
Odds e Odds ratio
SEX * EDUC Crosstabulation
237 271 508
46.7% 53.3% 100.0%
234 414 648
36.1% 63.9% 100.0%
471 685 1156
40.7% 59.3% 100.0%
Count
% within SEX
Count
% within SEX
Count
% within SEX
male
female
SEX
Total
coll less
EDUC
Total
31
Odds marginali
L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688
L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.
32
Odds condizionali
La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271.
Per le donne i corrispondenti odds si attestano a 0.565 =234/414
33
Odds ratioIl modo in cui i due odds condizionali
differiscono l’uno dall’altro può essere espresso dal loro rapporto:
0.875/0.565=(237/271)/(234/414)=1.547
L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria.
L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.
34
Relazione tra probabilità, odds ed odds ratio e in una tavola due X due:
a
a
b
a
p
p
p
p
b
aOdds
111
cb
da
dc
ba
Oddsratio
2
1
21
21
a b
c d
X
Y
Misure di associazione tra variabili categoriali
Chi-quadrato (Test di significatività)
V di Cramer
Q di Yule
Phi
Chi-Quadrato χ2
Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato.
Si confrontano le frequenze di cella attese con quelle osservate.
Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali.
N
fff ji
ij..* .
Chi-Quadrato χ2
Frequenze attese di cella (R x C):
N
fff ji
ij..* .
Tavola di contingenza sex SESSO * titolo
Conteggio atteso
8641.5 3527.3 740.2 12909.0
9034.5 3687.7 773.8 13496.0
17676.0 7215.0 1514.0 26405.0
1 maschio
2 femmina
sex SESSO
Totale
1 Obbligo 2 Diploma 3 Università
titolo
Totale
In situazione di perfetta indipendenza il χ2 vale zero
Chi-Quadrato χ2
Maggiore è il valore di χ 2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0.
i=1…R j=1…C
Dove f*ij è la frequenza attesa di cella
R
i
C
j ij
ijij
f
ff
1 1*
2*2
Test del Chi-Quadrato χ2
Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato.
Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso.
gl =(R-1)(C-
1)
Test del Chi-Quadrato χ2
Gradi di libertà:
gl =(R-1)(C-
1)
Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali.
40
20
50 10 60
10
020
30
df=1
Test di significatività
Testiamo l’H0, l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso.
Si stabilisce un livello di significatività oltre il quale respingere l’Ho.
Distribuzione di probabilità nota della v.c. χ2
P(T<11,78) = 0.7 =
φ(χ2) Funzione di densità di χ2 con gl=10
χ2
AREA di Rifiuto di H0
= 1 - α dtt
0
2
11,780
0.30.702
Logica falsificazionista, Ipotesi
H1 IPOTESI di LAVORO:
- Ipotesi di associazione tra due variabili
χ2 >0
H0 IPOTESI NULLA:
-Le due variabili sono tra loro indipendenti
χ2 =0
Logica falsificazionista, Ipotesi
Per corroborare H1 devo falsificare H0.
Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0.
Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata.
Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata.
ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata.
Logica falsificazionista, errori
H0 vera H0 falsa
H0 non rifiutata
No erroreErrore
II tipo (β)
H0 rifiutata
Errore
I tipo (α)No errore
Esito del test
Realtà del fenomeno
α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera.
α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %.
α = 0,05
veraHRifiutoHp 00
2
2 12 2
2
2
gg
e dg
Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1
0
αχ2
α
02
χ2
φ(χ2) Funzione di densità di χ2
2 12 2 22
( )
2
gg
eg
0
φ(χ2)
χ2
2
0( ) 1d
02
Il χ2 E’ FUNZIONE DEI GRADI DI LIBERTA’
2 12 2 22
( )
2
gg
eg
0
φ(χ2)
χ2
2
0( ) 1d
02
g=10
g=20
g=4
Valore critico del Chi-quadro corrispondente
per 2 gradi di libertà e area alfa dello 0,05
0α
Il Chi-Quadrato χ2 è utile come test di significatività statistica, ma non come misura dell’intensità della relazione.
Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi
considerati.
In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è
proporzionale a N.
Sensibilità del χ2 alla numerosità
15 32 6711
4
14 56 8015
0
29 8814
726
4
150 320 670114
0
140 560 800150
0
290 880147
0264
0
χ2 χ2 = 2,87 = 28,74
2
0,05 = 5,99
ESEMPIO: Hp. relazione tra genere e frequenza alla messa
M
F
M
F
Basso Medio Alto Basso Medio Alto
V di Cramer
Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti.
V varia tra 0 ed 1, ed è 0 in situazione di indipendenza.
Se le variabili sono dicotomiche V coincide con il coefficiente di correlazione r di Pearson (misura d’associazione cardinale).
Dove m è il numero minore tra R e C
)1(
2
mNV
Q di Yule
Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali.
Q =
bc - adbc + ad
a ba+b
c dc+d
a+c
b+d
NQ varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.
Q di Yule
Avvertenze:
Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo.
Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q.
Phi
Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali.E’ basato sul Chi-quadrato, come la V di Cramer.
Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.
dbcadcba
adbc
Phi
Avvertenze:
Talvolta Phi richiede una procedura di standardizzazione poiché il valore massimo può essere lontano dai valori ipotetici -1, +1.
Phi è per definizione sensibile alle frequenze marginali.
Si dimostra inoltre che:
N
2
Gamma
Tau-c
d di Somers
Misure di cograduazione tra variabili ordinali
Applicazioni di analisi bivariata su variabili ordinali
Gamma
E’ una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti.
=nc - nd
nc + nd
Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza.
Una coppia è concordante quando una delle due è superiore all’altra in entrambe le variabili.
E’ discordante quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile.
Misure di cograduazione
Coppie concordanti e discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media
10657 11373 23592438
9
Diploma e più
10334 15236 35532912
3
49764 35908 71149278
6
Titolo di studio e salute percepita
Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore.
IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE
PERCEPITA, cioè:
ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE.
IN BASE A CIO DEFINIAMO:
Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa).
Coppie concordanti
nc11=28773 X (11373+2359+15236+3553)= 935726733
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
Coppie concordanti
nc12=9299 X (2359+3553)= 54975688
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
Coppie concordanti
nc13= 1202 X (0) = 0
Nessuna coppia concordante
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
Coppie concordanti
nc21=10657 X (15236+3553)= 200234373
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
Coppie concordanti
nc22=11373 X (3553)= 40408269
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
Coppie discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
nd11=28773 X (0)= 0
Nessuna coppia discordante
Coppie discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
nd12=9299 X (10657+10334)= 195195309
Coppie discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
nd13=1202 X (10657+11373+10334+15236)=57215200
Coppie discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
nd22=11373 X (10334)= 117528582
Coppie discordanti
Non bene
BeneMoltoBene
Licenzaelementare
28773 9299 12023927
4
Licenza media 10657 11373 23592438
9
Diploma e più 10334 15236 35532912
3
49764 35908 71149278
6
nd23=2359 X (10334+15236)= 60319630
Misure di cograduazione
nd = nd12 + nd13 + nd22 + nd23 = 430.258.721
nc = nc11 + nc12 + nc21 + nc22 = 1.231.345.063
Totale coppie discordanti
Totale coppie concordanti
Le celle che generano coppie concordanti sono (R-1)(C-1) = 4
Così come le celle che generano coppie discordanti.
Gamma
=nc - nd
=1231345063 – 430258721 =
0,482nc + nd 1231345063 + 430258721
Misure di cograduazione
nd= 430258721 nc= 1231345063
Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare l’opposto.
75
Test di significatività per Gamma
Misure di cograduazione
Anche per Gamma esiste un test di significatività che ci permette di testare l’ipotesi nulla di indipendenza.
I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno
l’ipotesi nulla.