Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
L'analisi monovariata
Prof. Stefano Nobile Corso di Metodologia della ricerca sociale
Concetti introduttivi: analisi
mono-, bi- e multivariata
ANALISI MONOVARIATA
• Una tecnica di analisi di dice monovariata se si occupa soltanto della distruzione dei dati di un vettore fra le modalità della corrispondente variabile (detto sinteticamente: della distribuzione di una variabile), e delle principali caratteristiche di questa distribuzione
ANALISI BIVARIATA
• Una tecnica di analisi si dice bivariata se si occupa della distribuzione di due variabili congiuntamente considerate (distribuzione doppia o congiunta)
ANALISI MULTIVARIATA
• Una tecnica di analisi si dice multivariata se si occupa della distribuzione congiunta di tre o più variabili
Prof. Stefano Nobile L'analisi monovariata 2
A cosa serve l’analisi
monovariata
• L’analisi monovariata serve a studiare la distribuzione di singole variabili.
• Rappresenta il primo risultato empirico del lavoro di ricerca, le sue funzioni sono: – descrivere la distribuzione della variabile: cioè descrivere come
una singola caratteristica è distribuita fra i casi, anche utilizzando misure di tendenza centrale o di variabilità;
• propedeutiche ad analisi successive, cioè l’analisi monovariata permette di compiere una serie di operazioni preliminari come: – controllare la plausibilità dei valori;
– individuare squilibri nella distribuzione;
– valutare la possibilità di aggregare diverse modalità della variabile (tramite operazioni di ricodifica);
– valutare le possibilità di costruzione di indici sintetici.
Prof. Stefano Nobile L'analisi monovariata 3
Le distribuzioni di frequenza
• La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della variabile viene associato il numero di casi che lo presenta (la sua frequenza).
• La distribuzione di frequenza può presentare: – le frequenze assolute: il conteggio del numero dei casi che
presenta ciascuna modalità della variabile;
– le frequenze relative: che relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni, si tratta in genere di proporzioni, le più comunemente utilizzate sono le percentuali;
• Inoltre può essere utile, nel caso di variabili ordinali o cardinali, presentare la distribuzione cumulata di frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori.
Prof. Stefano Nobile L'analisi monovariata 4
Frequenze assolute, relative
e cumulate
Frequenze assolute
Frequenze relative Frequenze cumulate
Proporzioni Percentuali Assolute Relative
(%)
Senza titolo 30 0,025 2,5 30 2,5
Licenza elementare 509 0,424 42,4 539 44,9
Licenza media 342 0,285 28,5 881 73,4
Diploma 264 0,220 22,0 1145 95,4
Laurea 55 0,046 4,6 1200 100,0
Totale 1200 1,000 100,0
Prof. Stefano Nobile L'analisi monovariata 5
Proporzione = 30/1200 Percentuale= (30*100)/1200
Le distribuzioni di frequenza:
accuratezza fittizia
Confessione religiosa dei membri del governo (Libano 1963)
Confessione religiosa V.A. %
Cristiani Maroniti 3 23.07
Cristiani Ortodossi 2 15.38
Cristiani Copti 1 7.69
Musulmani Sciiti 2 15.38
Musulmani Drusi 2 15.38
Musulmani Sunniti 2 15.38
Musulmani Alauiti 1 7.69
Totale 13 100.00
Prof. Stefano Nobile L'analisi monovariata 6
Le caratteristiche di una
distribuzione
• L’analisi monovariata è dunque un analisi puramente descrittiva (e completa) di come una variabile si distribuisce nella popolazione.
• Le distribuzioni delle variabili possono essere riportate integralmente (come nella tabella appena presentate e/o sotto forma di grafici) o attraverso misure sintetiche: i valori caratteristici della distribuzione. Si tratta di indici, espressi in forma numerica, utili ad una rappresentazione sintetica delle caratteristiche fondamentali della distribuzione di una variabile.
• Le principali caratteristiche che descrivono una distribuzione di dati sono due: – le misure di tendenza centrale, che mirano ad individuare quale valore
sintetizza meglio la distribuzione,
– le misure di variabilità, che mirano a rendere conto del modo in cui le altre modalità si collocano attorno ai valori individuati dalle misure di tendenza centrale.
• Naturalmente tali misure differiscono in relazione al “tipo” di variabile che si sta analizzando.
Prof. Stefano Nobile L'analisi monovariata 7
Operazioni e misure per tipo
di variabile
Tipo di variabile
Operazioni che è possibile compiere
fra le modalità
Misure di tendenza centrale
Misure di dispersione
Nominale = ≠ Moda Indice di
omogeneità
Ordinale
= ≠
> <
Moda
Mediana
Indice di omogeneità Differenza
interquartile
Cardinale
= ≠
> <
+ - (× ÷)
Moda
Mediana
Media
Indice di omogeneità Differenza
interquartile Deviazione standard
Prof. Stefano Nobile L'analisi monovariata 8
Le misure di tendenza
centrale
VARIABILI NOMINALI
• Moda: è la modalità che presenta la frequenza maggiore, è la modalità prevalente nella distribuzione.
VARIABILI ORDINALI
• Mediana: è la modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo la variabile: – se i casi sono dispari il caso centrale è quello che occupa la posizione
(N+1)/2;
– se i casi sono pari ci sono due casi centrali (nelle posizioni N/2 e (N/2)+1, e se non presentano la stessa modalità la distribuzione può avere due mediane.
VARIABILI CARDINALI
• Media aritmetica: è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi
Prof. Stefano Nobile L'analisi monovariata 9
Le misure di tendenza centrale:
la moda (variabili nominali)
Religione V.A. %
Cristiano cattolica 560 46,7
Cristiano protestante 194 16,2
Ebraica 156 13,0
Musulmana 264 19,5
Altro 55 4,6
Totale 1200 100
Prof. Stefano Nobile L'analisi monovariata 10
Le misure di tendenza centrale:
la mediana (variabili ordinali)
Titolo di studio n. % f.c. (n.) f.c. (%)
Senza titolo 30 2,5 30 2,5
Licenza elementare 509 42,4 539 44,9
Licenza media 342 28,5 881 73,4
Diploma 264 22,0 1145 95,4
Laurea 55 4,6 1200 100
Totale 1200 100
Prof. Stefano Nobile L'analisi monovariata 11
Moda: Licenza elementare Mediana: Licenza media
Le misure di tendenza centrale:
limiti della mediana
Gruppi M1 M2 M3 M4 M5 Media
A 3 4 15 16 17 11
B 13 14 15 31 32 21
Prof. Stefano Nobile L'analisi monovariata 12
Gruppi M1 M2 M3 M4 M5 M6 M7 Media
A 3 4 5 7 30 31 32 16
B 3 4 5 28 30 31 32 21
Le misure di tendenza centrale: la media
aritmetica (variabili metriche)
• La media aritmetica non è altro che la
somma di tutti i valori divisa per il numero
di casi:
𝑋𝑚 =𝑥1+𝑥
2+ …+𝑥𝑛
𝑁= 𝑥
𝑖𝑁𝑖=1
𝑁
Prof. Stefano Nobile L'analisi monovariata 13
Le misure di tendenza centrale:
la media (variabili metriche)
Voto in matematica
n. % f.c. (n.) f.c. (%)
3 23 1,9 23 1,9
4 67 5,6 90 7,5
4,5 118 9,8 208 17,3
5 128 10,7 336 28,0
5,5 244 20,3 580 48,3
6 312 26,0 892 74,3
6,5 117 9,8 1009 84,1
7 95 7,9 1104 92,0
8 64 5,3 1168 97,3
8,5 32 2,7 1200 100,0
Totale 1200 100,0
Prof. Stefano Nobile L'analisi monovariata 14
Media= [(3*23)+(4*67)+(4,5*188)+ (5*128)+(5,5*244)+(6*312)+(6,5*117)+(7*95)+(8*64)+ (8,5*32)]/1200= 5,77
Moda Mediana
Le misure di variabilità
• Le misure di variabilità ci informano su
quanto i valori della distribuzione
mutano/sono dispersi, e sono diverse a
seconda del tipo di variabile che si sta
analizzando. Indicano dunque la tendenza
di una distribuzione a essere più o meno
eterogenea (o, pertanto, omogenea)
Prof. Stefano Nobile L'analisi monovariata 15
Le misure di variabilità
(variabili nominali)
• Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi presentano la stessa modalità, massimamente eterogenea quando i casi sono equidistribuiti tra le modalità.
• Indicando con pi le proporzioni di una distribuzione di frequenza, l’indice di omogeneità è dato da:
• cioè dalla somma dei quadrati delle proporzioni. Varia tra un minimo pari a 1/k (dove k è il numero delle modalità) e un massimo di 1.
• Il complemento a 1 dell’indice di omogeneità è detto indice di eterogeneità:
Prof. Stefano Nobile L'analisi monovariata 16
O= p1
2 + p2
2 +...+ pk
2 = pi
2
i=1
k
å
E =1- pi
2
i=1
k
å
Le misure di variabilità
(variabili nominali)
Religione V.A. Proporzione
%
Cristiano cattolica 560 0,47 46,7
Cristiano protestante 194 0,16 16,2
Ebraica 156 0,13 13,0
Musulmana 264 0,19 19,5
Altro 55 0,05 4,6
Totale 1200 1,00 100,0
Prof. Stefano Nobile L'analisi monovariata 17
O= p1
2 + p2
2 +...+ pk
2 = pi
2
i=1
k
å
O= (0,47)2+(0,16)2+(0,13)2+ (0,19)2+(0,05)2= 0,302
E =1- pi
2
i=1
k
å E= 1- 0,302=0,698
In alcuni casi può essere utile normalizzare l’indice di omogeneità o di eterogeneità, per neutralizzare l’influenza del numero delle modalità:
Orel=(k*O-1)/(k-1) Erel=1-[(k*O-1)/(k-1)]
Le misure di variabilità
(variabili nominali) Religione N P %
Cristiano cattolica
560 0,47 46,7
Cristiano protestante
194 0,16 16,2
Ebraica 156 0,13 13,0
Musulmana 264 0,19 19,5
Altro 55 0,05 4,6
Totale 1200 1,00 100,0
Prof. Stefano Nobile L'analisi monovariata 18
Settore lavorativo
N P %
Primario 237 0,20 19,8
Secondario 276 0,23 23,0
Terziario 687 0,57 57,3
Totale 1200 1,00 100,0
O= 0,302 E= 0,698
Orel=(k*O-1)/(k-1) Orel=(5*0,302-1)/(5-1) = 0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel
Erel=1-0,128 = 0,872
O= 0,419 E= 0,581
Orel=(k*O-1)/(k-1) Orel=(3*0,419-1)/(3-1) = 0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel
Erel=1-128 = 0,872
Le misure di variabilità per
variabili ordinali
• Dividendo la distribuzione ordinata di una variabile in quattro parti, possiamo individuare i valori sui casi che segnano i confini tra i quarti, detti quartili.
• La differenza tra i valori del primo e del terzo quartile definiscono un indice di dispersione: la differenza interquartile. Se infatti questa differenza è piccola, la distribuzione sarà molto concentrata attorno alla mediana, se è molto grande la distribuzione sarà dispersa:
• Q= Q3 – Q1
Prof. Stefano Nobile L'analisi monovariata 19
Le misure di variabilità per
variabili ordinali
n. % C(N) C(%)
1 30 2,5 30 2,5
2 509 42,4 539 44,9
3 342 28,5 881 73,4
4 264 22,0 1145 95,4
5 55 4,6 1200 100
Totale 1200 100,0
Prof. Stefano Nobile L'analisi monovariata 20
n. % C(N) C/%)
1 860 71,7 860 71,7
2 194 16,2 1054 87,9
3 56 4,7 1110 92,6
4 35 2,9 1145 95,5
5 55 4,6 1200 100,1
Totale 1200 100,0
Mediana=3 Q=4-2=2 Mediana=1 Q=2-1=1
Q1 Q3
L’importanza delle misure di variabilità:
conseguenze della ridotta autonomia
semantica delle categorie
Titolo di studio in Nigetania in Gercovia
nessuno 17% 1% licenza elementare 24% 12% licenza media 29% 19% licenza media superiore 23% 23% laurea 7% 45%
Prof. Stefano Nobile L'analisi monovariata 21
Classe sociale in Svirlandia in Somakistan
alta borghesia 10% 10%
media borghesia 35% 10%
piccola borghesia 30% 10%
operai e contadini 25% 70%
L’importanza delle misure di variabilità:
conseguenze della ridotta autonomia
semantica delle categorie
Prof. Stefano Nobile L'analisi monovariata 22
Le misure di variabilità per
variabili cardinali
• La media aritmetica degli scarti dalla media (in valore assoluto) di una variabile è una prima misura di variabilità: lo scostamento semplice medio.
• Il valore assoluto serve ad evitare che il risultato dell’operazione sia zero: infatti è una caratteristica propria della media aritmetica che la somma degli scarti dei singoli valori da essa sia pari a zero.
Prof. Stefano Nobile L'analisi monovariata 23
ssm=Xi - XåN
Le misure di variabilità per
variabili cardinali
• Per annullare il segno degli scarti, invece di considerare i valori assoluti, li si eleva al quadrato, si calcola la media e si estrae la radice quadrata, ottenendo lo scarto quadratico medio, detto anche deviazione standard o scarto-tipo:
• L’elevare al quadrato gli scarti dalla media dei singoli valori permette di conferire un peso maggiore agli scarti maggiori, oltre che ad annullare il segno degli scarti negativi.
Prof. Stefano Nobile L'analisi monovariata 24
S=(Xi - X)2å
N
Le misure di variabilità per
variabili cardinali
• La varianza è il quadrato della deviazione standard:
• Per l’analisi monovariata si utilizza la deviazione standard perché ha lo stesso ordine di grandezza dei valori della variabile, ma la varianza è una misura centrale nella statistica: tutta l’analisi dei dati gira intorno al concetto di varianza spiegata.
Prof. Stefano Nobile L'analisi monovariata 25
S2 =(Xi - X)2å
N
Le misure di variabilità per variabili cardinali:
scostamento semplice medio, deviazione
standard e varianza
Voto in
matematica
n. % f.c. (n.)
f.c. (%)
3 23 1,9 23 1,9
4 67 5,6 90 7,5
4,5 118 9,8 208 17,3
5 128 10,7 336 28,0
5,5 244 20,3 580 48,3
6 312 26,0 892 74,3
6,5 117 9,8 1009 84,1
7 95 7,9 1104 92,0
8 64 5,3 1168 97,3
8,5 32 2,7 1200 100,0
Totale 1200 100,0 Prof. Stefano Nobile L'analisi monovariata 26
ssm=Xi - XåN
ssm={[23*(3-5,77)]+[67*(4-5,77)]+…+ [64*(8-5,77)]+[32*(8,5-5,77)]}/1200 =1000,2/1200=0,83
Media=5,77
S2 =(Xi - X)2å
NS2={[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =1449,72/1200=1,21
S=√ {[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =√(1449,72/1200)=√1,21=1,1
S=(Xi - X)2å
N
Le misure di variabilità per variabili
cardinali: il coefficiente di variazione
• Il coefficiente di variazione di dice in quale
misura la deviazione standard supera la
media aritmetica, attutendo l’effetto
prodotto da medie molto diverse in un
eventuale confronto tra due distribuzioni.
𝐶𝑣 =𝑆
𝑋𝑚
Prof. Stefano Nobile L'analisi monovariata 27
Rappresentazioni grafiche
di distribuzioni monovariate
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Nigetania Gercovia
Laurea
Superiori
Medie
Elementari
Nessuno
Prof. Stefano Nobile L'analisi monovariata 28
Rappresentazioni grafiche
di distribuzioni monovariate
0
5
10
15
20
25
30
35
40
45
50
Nigetania Gercovia
Nessuno
Elementari
Medie
Superiori
Laurea
Prof. Stefano Nobile L'analisi monovariata 29
Rappresentazioni grafiche
di distribuzioni monovariate
0 10 20 30 40 50
Nigetania
Gercovia
Laurea
Superiori
Medie
Elementari
Nessuno
Prof. Stefano Nobile L'analisi monovariata 30
Rappresentazioni grafiche
di distribuzioni monovariate
0
10
20
30
40
50
60
Nessuno Elementari Medie Superiori Laurea
Gercovia
Nigetania
Prof. Stefano Nobile L'analisi monovariata 31
Rappresentazioni grafiche
di distribuzioni monovariate
17
24
29
23
7
Nigetania
Nessuno Elementari Medie Superiori Laurea
Prof. Stefano Nobile L'analisi monovariata 32
Confronto tra due distribuzioni:
la standardizzazione
Classe di Lucio
Italiano Matematica Inglese Storia Media
Lucio 7,000 6,000 6,000 7,000 6,500
Arduino 7,000 6,000 6,000 4,000 5,750
Basilio 5,000 6,000 5,000 5,000 5,250
6,333 6,000 5,667 5,333 5,833
Prof. Stefano Nobile L'analisi monovariata 33
Classe di Lucia
Italiano Matematica Inglese Storia Media
Lucia 8,000 6,000 6,000 6,000 6,500
Raniera 4,000 5,000 6,000 6,000 5,250
Calliope 4,000 5,000 4,000 5,000 4,500
5,333 5,333 5,333 5,667 5,417
Linearizzazione dei dati
• Mediam = 5.833 • Mediaf = 5.417 • Scarto Lucio = 0.667 • Scarto Lucia = 1.083 • Scarto tipo della classe di Lucio = 0.514 • Scarto tipo della classe di Lucia = 0.825
• Indice standardizzato di Lucio = 0.667
0.514 = 1.304
• Indice standardizzato di Lucia = 1.083
0.825 = 1.225
Prof. Stefano Nobile L'analisi monovariata 34