34
L'analisi monovariata Prof. Stefano Nobile Corso di Metodologia della ricerca sociale

Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

L'analisi monovariata

Prof. Stefano Nobile Corso di Metodologia della ricerca sociale

Page 2: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Concetti introduttivi: analisi

mono-, bi- e multivariata

ANALISI MONOVARIATA

• Una tecnica di analisi di dice monovariata se si occupa soltanto della distruzione dei dati di un vettore fra le modalità della corrispondente variabile (detto sinteticamente: della distribuzione di una variabile), e delle principali caratteristiche di questa distribuzione

ANALISI BIVARIATA

• Una tecnica di analisi si dice bivariata se si occupa della distribuzione di due variabili congiuntamente considerate (distribuzione doppia o congiunta)

ANALISI MULTIVARIATA

• Una tecnica di analisi si dice multivariata se si occupa della distribuzione congiunta di tre o più variabili

Prof. Stefano Nobile L'analisi monovariata 2

Page 3: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

A cosa serve l’analisi

monovariata

• L’analisi monovariata serve a studiare la distribuzione di singole variabili.

• Rappresenta il primo risultato empirico del lavoro di ricerca, le sue funzioni sono: – descrivere la distribuzione della variabile: cioè descrivere come

una singola caratteristica è distribuita fra i casi, anche utilizzando misure di tendenza centrale o di variabilità;

• propedeutiche ad analisi successive, cioè l’analisi monovariata permette di compiere una serie di operazioni preliminari come: – controllare la plausibilità dei valori;

– individuare squilibri nella distribuzione;

– valutare la possibilità di aggregare diverse modalità della variabile (tramite operazioni di ricodifica);

– valutare le possibilità di costruzione di indici sintetici.

Prof. Stefano Nobile L'analisi monovariata 3

Page 4: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le distribuzioni di frequenza

• La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della variabile viene associato il numero di casi che lo presenta (la sua frequenza).

• La distribuzione di frequenza può presentare: – le frequenze assolute: il conteggio del numero dei casi che

presenta ciascuna modalità della variabile;

– le frequenze relative: che relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni, si tratta in genere di proporzioni, le più comunemente utilizzate sono le percentuali;

• Inoltre può essere utile, nel caso di variabili ordinali o cardinali, presentare la distribuzione cumulata di frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori.

Prof. Stefano Nobile L'analisi monovariata 4

Page 5: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Frequenze assolute, relative

e cumulate

Frequenze assolute

Frequenze relative Frequenze cumulate

Proporzioni Percentuali Assolute Relative

(%)

Senza titolo 30 0,025 2,5 30 2,5

Licenza elementare 509 0,424 42,4 539 44,9

Licenza media 342 0,285 28,5 881 73,4

Diploma 264 0,220 22,0 1145 95,4

Laurea 55 0,046 4,6 1200 100,0

Totale 1200 1,000 100,0

Prof. Stefano Nobile L'analisi monovariata 5

Proporzione = 30/1200 Percentuale= (30*100)/1200

Page 6: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le distribuzioni di frequenza:

accuratezza fittizia

Confessione religiosa dei membri del governo (Libano 1963)

Confessione religiosa V.A. %

Cristiani Maroniti 3 23.07

Cristiani Ortodossi 2 15.38

Cristiani Copti 1 7.69

Musulmani Sciiti 2 15.38

Musulmani Drusi 2 15.38

Musulmani Sunniti 2 15.38

Musulmani Alauiti 1 7.69

Totale 13 100.00

Prof. Stefano Nobile L'analisi monovariata 6

Page 7: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le caratteristiche di una

distribuzione

• L’analisi monovariata è dunque un analisi puramente descrittiva (e completa) di come una variabile si distribuisce nella popolazione.

• Le distribuzioni delle variabili possono essere riportate integralmente (come nella tabella appena presentate e/o sotto forma di grafici) o attraverso misure sintetiche: i valori caratteristici della distribuzione. Si tratta di indici, espressi in forma numerica, utili ad una rappresentazione sintetica delle caratteristiche fondamentali della distribuzione di una variabile.

• Le principali caratteristiche che descrivono una distribuzione di dati sono due: – le misure di tendenza centrale, che mirano ad individuare quale valore

sintetizza meglio la distribuzione,

– le misure di variabilità, che mirano a rendere conto del modo in cui le altre modalità si collocano attorno ai valori individuati dalle misure di tendenza centrale.

• Naturalmente tali misure differiscono in relazione al “tipo” di variabile che si sta analizzando.

Prof. Stefano Nobile L'analisi monovariata 7

Page 8: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Operazioni e misure per tipo

di variabile

Tipo di variabile

Operazioni che è possibile compiere

fra le modalità

Misure di tendenza centrale

Misure di dispersione

Nominale = ≠ Moda Indice di

omogeneità

Ordinale

= ≠

> <

Moda

Mediana

Indice di omogeneità Differenza

interquartile

Cardinale

= ≠

> <

+ - (× ÷)

Moda

Mediana

Media

Indice di omogeneità Differenza

interquartile Deviazione standard

Prof. Stefano Nobile L'analisi monovariata 8

Page 9: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza

centrale

VARIABILI NOMINALI

• Moda: è la modalità che presenta la frequenza maggiore, è la modalità prevalente nella distribuzione.

VARIABILI ORDINALI

• Mediana: è la modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo la variabile: – se i casi sono dispari il caso centrale è quello che occupa la posizione

(N+1)/2;

– se i casi sono pari ci sono due casi centrali (nelle posizioni N/2 e (N/2)+1, e se non presentano la stessa modalità la distribuzione può avere due mediane.

VARIABILI CARDINALI

• Media aritmetica: è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi

Prof. Stefano Nobile L'analisi monovariata 9

Page 10: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza centrale:

la moda (variabili nominali)

Religione V.A. %

Cristiano cattolica 560 46,7

Cristiano protestante 194 16,2

Ebraica 156 13,0

Musulmana 264 19,5

Altro 55 4,6

Totale 1200 100

Prof. Stefano Nobile L'analisi monovariata 10

Page 11: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza centrale:

la mediana (variabili ordinali)

Titolo di studio n. % f.c. (n.) f.c. (%)

Senza titolo 30 2,5 30 2,5

Licenza elementare 509 42,4 539 44,9

Licenza media 342 28,5 881 73,4

Diploma 264 22,0 1145 95,4

Laurea 55 4,6 1200 100

Totale 1200 100

Prof. Stefano Nobile L'analisi monovariata 11

Moda: Licenza elementare Mediana: Licenza media

Page 12: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza centrale:

limiti della mediana

Gruppi M1 M2 M3 M4 M5 Media

A 3 4 15 16 17 11

B 13 14 15 31 32 21

Prof. Stefano Nobile L'analisi monovariata 12

Gruppi M1 M2 M3 M4 M5 M6 M7 Media

A 3 4 5 7 30 31 32 16

B 3 4 5 28 30 31 32 21

Page 13: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza centrale: la media

aritmetica (variabili metriche)

• La media aritmetica non è altro che la

somma di tutti i valori divisa per il numero

di casi:

𝑋𝑚 =𝑥1+𝑥

2+ …+𝑥𝑛

𝑁= 𝑥

𝑖𝑁𝑖=1

𝑁

Prof. Stefano Nobile L'analisi monovariata 13

Page 14: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di tendenza centrale:

la media (variabili metriche)

Voto in matematica

n. % f.c. (n.) f.c. (%)

3 23 1,9 23 1,9

4 67 5,6 90 7,5

4,5 118 9,8 208 17,3

5 128 10,7 336 28,0

5,5 244 20,3 580 48,3

6 312 26,0 892 74,3

6,5 117 9,8 1009 84,1

7 95 7,9 1104 92,0

8 64 5,3 1168 97,3

8,5 32 2,7 1200 100,0

Totale 1200 100,0

Prof. Stefano Nobile L'analisi monovariata 14

Media= [(3*23)+(4*67)+(4,5*188)+ (5*128)+(5,5*244)+(6*312)+(6,5*117)+(7*95)+(8*64)+ (8,5*32)]/1200= 5,77

Moda Mediana

Page 15: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità

• Le misure di variabilità ci informano su

quanto i valori della distribuzione

mutano/sono dispersi, e sono diverse a

seconda del tipo di variabile che si sta

analizzando. Indicano dunque la tendenza

di una distribuzione a essere più o meno

eterogenea (o, pertanto, omogenea)

Prof. Stefano Nobile L'analisi monovariata 15

Page 16: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità

(variabili nominali)

• Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi presentano la stessa modalità, massimamente eterogenea quando i casi sono equidistribuiti tra le modalità.

• Indicando con pi le proporzioni di una distribuzione di frequenza, l’indice di omogeneità è dato da:

• cioè dalla somma dei quadrati delle proporzioni. Varia tra un minimo pari a 1/k (dove k è il numero delle modalità) e un massimo di 1.

• Il complemento a 1 dell’indice di omogeneità è detto indice di eterogeneità:

Prof. Stefano Nobile L'analisi monovariata 16

O= p1

2 + p2

2 +...+ pk

2 = pi

2

i=1

k

å

E =1- pi

2

i=1

k

å

Page 17: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità

(variabili nominali)

Religione V.A. Proporzione

%

Cristiano cattolica 560 0,47 46,7

Cristiano protestante 194 0,16 16,2

Ebraica 156 0,13 13,0

Musulmana 264 0,19 19,5

Altro 55 0,05 4,6

Totale 1200 1,00 100,0

Prof. Stefano Nobile L'analisi monovariata 17

O= p1

2 + p2

2 +...+ pk

2 = pi

2

i=1

k

å

O= (0,47)2+(0,16)2+(0,13)2+ (0,19)2+(0,05)2= 0,302

E =1- pi

2

i=1

k

å E= 1- 0,302=0,698

In alcuni casi può essere utile normalizzare l’indice di omogeneità o di eterogeneità, per neutralizzare l’influenza del numero delle modalità:

Orel=(k*O-1)/(k-1) Erel=1-[(k*O-1)/(k-1)]

Page 18: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità

(variabili nominali) Religione N P %

Cristiano cattolica

560 0,47 46,7

Cristiano protestante

194 0,16 16,2

Ebraica 156 0,13 13,0

Musulmana 264 0,19 19,5

Altro 55 0,05 4,6

Totale 1200 1,00 100,0

Prof. Stefano Nobile L'analisi monovariata 18

Settore lavorativo

N P %

Primario 237 0,20 19,8

Secondario 276 0,23 23,0

Terziario 687 0,57 57,3

Totale 1200 1,00 100,0

O= 0,302 E= 0,698

Orel=(k*O-1)/(k-1) Orel=(5*0,302-1)/(5-1) = 0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel

Erel=1-0,128 = 0,872

O= 0,419 E= 0,581

Orel=(k*O-1)/(k-1) Orel=(3*0,419-1)/(3-1) = 0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel

Erel=1-128 = 0,872

Page 19: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per

variabili ordinali

• Dividendo la distribuzione ordinata di una variabile in quattro parti, possiamo individuare i valori sui casi che segnano i confini tra i quarti, detti quartili.

• La differenza tra i valori del primo e del terzo quartile definiscono un indice di dispersione: la differenza interquartile. Se infatti questa differenza è piccola, la distribuzione sarà molto concentrata attorno alla mediana, se è molto grande la distribuzione sarà dispersa:

• Q= Q3 – Q1

Prof. Stefano Nobile L'analisi monovariata 19

Page 20: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per

variabili ordinali

n. % C(N) C(%)

1 30 2,5 30 2,5

2 509 42,4 539 44,9

3 342 28,5 881 73,4

4 264 22,0 1145 95,4

5 55 4,6 1200 100

Totale 1200 100,0

Prof. Stefano Nobile L'analisi monovariata 20

n. % C(N) C/%)

1 860 71,7 860 71,7

2 194 16,2 1054 87,9

3 56 4,7 1110 92,6

4 35 2,9 1145 95,5

5 55 4,6 1200 100,1

Totale 1200 100,0

Mediana=3 Q=4-2=2 Mediana=1 Q=2-1=1

Q1 Q3

Page 21: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

L’importanza delle misure di variabilità:

conseguenze della ridotta autonomia

semantica delle categorie

Titolo di studio in Nigetania in Gercovia

nessuno 17% 1% licenza elementare 24% 12% licenza media 29% 19% licenza media superiore 23% 23% laurea 7% 45%

Prof. Stefano Nobile L'analisi monovariata 21

Page 22: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Classe sociale in Svirlandia in Somakistan

alta borghesia 10% 10%

media borghesia 35% 10%

piccola borghesia 30% 10%

operai e contadini 25% 70%

L’importanza delle misure di variabilità:

conseguenze della ridotta autonomia

semantica delle categorie

Prof. Stefano Nobile L'analisi monovariata 22

Page 23: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per

variabili cardinali

• La media aritmetica degli scarti dalla media (in valore assoluto) di una variabile è una prima misura di variabilità: lo scostamento semplice medio.

• Il valore assoluto serve ad evitare che il risultato dell’operazione sia zero: infatti è una caratteristica propria della media aritmetica che la somma degli scarti dei singoli valori da essa sia pari a zero.

Prof. Stefano Nobile L'analisi monovariata 23

ssm=Xi - XåN

Page 24: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per

variabili cardinali

• Per annullare il segno degli scarti, invece di considerare i valori assoluti, li si eleva al quadrato, si calcola la media e si estrae la radice quadrata, ottenendo lo scarto quadratico medio, detto anche deviazione standard o scarto-tipo:

• L’elevare al quadrato gli scarti dalla media dei singoli valori permette di conferire un peso maggiore agli scarti maggiori, oltre che ad annullare il segno degli scarti negativi.

Prof. Stefano Nobile L'analisi monovariata 24

S=(Xi - X)2å

N

Page 25: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per

variabili cardinali

• La varianza è il quadrato della deviazione standard:

• Per l’analisi monovariata si utilizza la deviazione standard perché ha lo stesso ordine di grandezza dei valori della variabile, ma la varianza è una misura centrale nella statistica: tutta l’analisi dei dati gira intorno al concetto di varianza spiegata.

Prof. Stefano Nobile L'analisi monovariata 25

S2 =(Xi - X)2å

N

Page 26: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per variabili cardinali:

scostamento semplice medio, deviazione

standard e varianza

Voto in

matematica

n. % f.c. (n.)

f.c. (%)

3 23 1,9 23 1,9

4 67 5,6 90 7,5

4,5 118 9,8 208 17,3

5 128 10,7 336 28,0

5,5 244 20,3 580 48,3

6 312 26,0 892 74,3

6,5 117 9,8 1009 84,1

7 95 7,9 1104 92,0

8 64 5,3 1168 97,3

8,5 32 2,7 1200 100,0

Totale 1200 100,0 Prof. Stefano Nobile L'analisi monovariata 26

ssm=Xi - XåN

ssm={[23*(3-5,77)]+[67*(4-5,77)]+…+ [64*(8-5,77)]+[32*(8,5-5,77)]}/1200 =1000,2/1200=0,83

Media=5,77

S2 =(Xi - X)2å

NS2={[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =1449,72/1200=1,21

S=√ {[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =√(1449,72/1200)=√1,21=1,1

S=(Xi - X)2å

N

Page 27: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Le misure di variabilità per variabili

cardinali: il coefficiente di variazione

• Il coefficiente di variazione di dice in quale

misura la deviazione standard supera la

media aritmetica, attutendo l’effetto

prodotto da medie molto diverse in un

eventuale confronto tra due distribuzioni.

𝐶𝑣 =𝑆

𝑋𝑚

Prof. Stefano Nobile L'analisi monovariata 27

Page 28: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Rappresentazioni grafiche

di distribuzioni monovariate

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Nigetania Gercovia

Laurea

Superiori

Medie

Elementari

Nessuno

Prof. Stefano Nobile L'analisi monovariata 28

Page 29: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Rappresentazioni grafiche

di distribuzioni monovariate

0

5

10

15

20

25

30

35

40

45

50

Nigetania Gercovia

Nessuno

Elementari

Medie

Superiori

Laurea

Prof. Stefano Nobile L'analisi monovariata 29

Page 30: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Rappresentazioni grafiche

di distribuzioni monovariate

0 10 20 30 40 50

Nigetania

Gercovia

Laurea

Superiori

Medie

Elementari

Nessuno

Prof. Stefano Nobile L'analisi monovariata 30

Page 31: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Rappresentazioni grafiche

di distribuzioni monovariate

0

10

20

30

40

50

60

Nessuno Elementari Medie Superiori Laurea

Gercovia

Nigetania

Prof. Stefano Nobile L'analisi monovariata 31

Page 32: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Rappresentazioni grafiche

di distribuzioni monovariate

17

24

29

23

7

Nigetania

Nessuno Elementari Medie Superiori Laurea

Prof. Stefano Nobile L'analisi monovariata 32

Page 33: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Confronto tra due distribuzioni:

la standardizzazione

Classe di Lucio

Italiano Matematica Inglese Storia Media

Lucio 7,000 6,000 6,000 7,000 6,500

Arduino 7,000 6,000 6,000 4,000 5,750

Basilio 5,000 6,000 5,000 5,000 5,250

6,333 6,000 5,667 5,333 5,833

Prof. Stefano Nobile L'analisi monovariata 33

Classe di Lucia

Italiano Matematica Inglese Storia Media

Lucia 8,000 6,000 6,000 6,000 6,500

Raniera 4,000 5,000 6,000 6,000 5,250

Calliope 4,000 5,000 4,000 5,000 4,500

5,333 5,333 5,333 5,667 5,417

Page 34: Strategie di campionamento e di selezione dei casi di studio L'analisi... · completa) di come una variabile si distribuisce nella popolazione. • Le distribuzioni delle variabili

Linearizzazione dei dati

• Mediam = 5.833 • Mediaf = 5.417 • Scarto Lucio = 0.667 • Scarto Lucia = 1.083 • Scarto tipo della classe di Lucio = 0.514 • Scarto tipo della classe di Lucia = 0.825

• Indice standardizzato di Lucio = 0.667

0.514 = 1.304

• Indice standardizzato di Lucia = 1.083

0.825 = 1.225

Prof. Stefano Nobile L'analisi monovariata 34