37
Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6 - 16/10/2015 a.a. 2015/16 Prof. Maria Francesca Romano [email protected]

Statistica dei consumi alimentari e delle tendenze ...omero.farm.unipi.it/matdidFarm/131/Lezione 6 16_10_2015.pdf · Totale di riga x totale di colonna / n Frequenza attesa di persone

Embed Size (px)

Citation preview

Statistica dei consumi alimentari e delle tendenze nutrizionaliLezione 6 - 16/10/2015

a.a. 2015/16

Prof. Maria Francesca Romano

[email protected]

Libri di riferimento per la statistica descrittiva

Diamond, Jefferies, Introduzione alla statistica per le scienze sociali,

McGraw-Hill. 2002

Capitoli 1, 2, 3, 4 e 5

Oppure (più approfondito)

Borra, Di Ciaccio, Statistica. Metodologie per le scienze economiche

e sociali, McGraw-Hill. 2004.

Capitoli 1, 2, 3, 4, 6 e 7

Mutabilità

ovvero

la variabilità di variabili qualitative

• La situazione di minore mutabilità si trova

quando le unità statistiche si “concentrano” in

un’unica modalità (che è quella “modale”).

Facciamo un esempio con la variabile

«tipo_tit_stu»

Modalità: LT LS LVO

Freq. Relative (pi): 0.815 0.074 0.111

i : 1 2 3

(1-pi) : 0.185 0.926 0.889

pi (1-pi) : 0.151 0.069 0.099

G = 0.319

Modalità: LT LS LVO

Freq. Relative (pi): 0.50 0.25 0.25

i : 1 2 3

(1-pi) : 0.50 0.75 0.75

pi (1-pi) : 0.25 0.187 0.187

G = 0.624

Se la variabile «tipo_tit_stu» fosse stata:

Modalità: LT LS LVO

Freq. Relative (pi): 0.333 0.333 0.333

i : 1 2 3

(1-pi) : 0.667 0.667 0.667

pi (1-pi) : 0.222 0.222 0.222

G = 0.666

Ipotesi di massima mutabilità

Modalità: LT LS o LVO

Freq. Relative (pi): 0.50 0.50

i : 1 2

(1-pi) : 0.50 0.50

pi (1-pi) : 0.25 0.25

G = 0.500

Se la variabile «tipo_tit_stu» avesse avuto solo

2 modalità:

Dati reali

Modalità: LT LS o LVO

Freq. Relative (pi): 0.815 0.185

i : 1 2

(1-pi) : 0.185 0.815

pi (1-pi) : 0.151 0.151

G = 0.302

NB: Il valore

dell’indice

dipende dal

numero di

modalità (k).

Come facciamo

a comparare la

mutabilità di

variabili con

numero

differente di

modalità?

Modalità: LT LS LVO

Freq. Relative (pi): 0.50 0.25 0.25

i : 1 2 3

(1-pi) : 0.50 0.75 0.75

pi (1-pi) : 0.25 0.187 0.187

G = 0.624

Modalità: LT LS LVO

Freq. Relative (pi): 0.333 0.333 0.333

i : 1 2 3

(1-pi) : 0.667 0.667 0.667

pi (1-pi) : 0.222 0.222 0.222

G = 0.666

Gnorm = k / (k-1) G

= 3/2 G

= 0.936

Gnorm = k / (k-1) G

= 3/2 G

= 0.999

Ipotesi di massima mutabilità

Modalità: LT LS o LVO

Freq. Relative (pi): 0.50 0.50

i : 1 2

(1-pi) : 0.50 0.50

pi (1-pi) : 0.25 0.25

G = 0.500

Dati reali

Modalità: LT LS o LVO

Freq. Relative (pi): 0.815 0.185

i : 1 2

(1-pi) : 0.185 0.815

pi (1-pi) : 0.151 0.151

G = 0.302

Gnorm = k / (k-1) G

= 2/1 G

= 0.604

Gnorm = k / (k-1) G

= 2/1 G

= 1.00

Vantaggi e svantaggi

• Sono calcolati su valori relativi (la

differente numerosità non influisce)

• Spostamenti tra modalità (rilevanti per

l’interpretazione del fenomeno) conducono

agli stessi valori degli indici

• La condizione di minima variabilità è

spesso non realistica

Titolo di studio dei giovani dai 19 ai 34 anni Italia 2009

Analisi di due variabili qualitative:

le tabelle di contingenza

Finora abbiamo sintetizzato i dati per singola

variabile.

Maggiori informazioni possono essere ricavate

analizzando due variabili congiuntamente.

Voglio analizzare insieme i risultati delle variabili

«frequenza al corso» e «lavora».

Sono entrambe variabili qualitative nominali.

Posso costruire una tabella di contingenza.

Frequenza al corso

Lavora no parz siTotale

freq_corso

no 0 2 29 31

si 7 13 3 23

Totale

lavoro 7 15 32 54

% totale Frequenza al corso

Lavora no parz siTotale

freq_corso

no 0,00 0,04 0,54 0,57

si 0,13 0,24 0,06 0,43

Totale

lavoro 0,13 0,28 0,59 1,00

Posso calcolare le frequenze relative sul totale dei rispondenti (n=54)

% riga Frequenza al corso

Lavora no parz siTotale

freq_corso

no 0,00 0,06 0,94 1,00

si 0,30 0,57 0,13 1,00

Totale

lavoro 0,13 0,28 0,59 1,00

% colonna Frequenza al corso

Lavora no parz siTotale

freq_corso

no 0,00 0,13 0,91 0,57

si 1,00 0,87 0,09 0,43

Totale

lavoro 1,00 1,00 1,00 1,00

Posso anche calcolare le frequenze relative per riga

e per colonna

Posso

confrontare le

modalità di

«frequenza al

corso» per

ciascuna

modalità di

«lavora»

Posso

confrontare le

modalità di

«lavora» per

ciascuna

modalità di

«frequenza al

corso»

La forma generale di una tabella di

contingenza si presenta così

X e Y: variabili

considerate

fij : numero di unità statistiche che presentano

simultaneamente la modalità xj di X e la

modalità yi di Y

X

Y x1 … xj … xc Tot

y1 f11 f1j … f1c f1.

… … … … … … …

yi fi1 … fij … fic fi.… … … … … … …

yr fr1 … frj … frc fr.

Tot f.1 … f.j … f.c n

Associazione tra variabili qualitative

Se abbiamo costruito una tabella di contingenza è

per capire se le due variabili hanno qualche

legame o associazione tra loro.

Come faccio a misurare questa associazione?

Nel nostro caso, posso affermare che la frequenza

al corso è condizionata dall’avere un lavoro?

Punto di partenza:

Non esiste associazione tra le due variabili

Quindi, per ogni modalità di lavoro, dovrei

avere la stessa distribuzione della

«frequenza al corso».

% riga Frequenza al corso

Lavora no parz si totale

no 0,13 0,28 0,59 1,00

si 0,13 0,28 0,59 1,00

Totale 0,13 0,28 0,59 1,00

Ritornando ai valori assolutiLavora no parz si totale

no 4,0 8,6 18,4 31

si 3,0 6,4 13,6 23

Totale 7 15 32 54

I valori in rosso sono i valori «attesi» se non esistesse

associazione tra le due variabili

NB: Avrei avuto gli stessi valori «attesi» se fossi

partita dalla distribuzione condizionata del «lavoro»

data la «frequenza al corso».

Calcolo del valore atteso:

Totale di riga x totale di colonna / n

Frequenza attesa di persone che

non lavorano E non frequentano il corso :

31 x 7 / 54 = 4

31 / 54 : % di persone che non lavorano

7 / 54 : % di persone che non frequentano

Non occorre calcolare tutte le frequenze

«attese»: le frequenze marginali sono fisse

e quindi posso ottenere per differenza molte

frequenze «attese».

Il numero delle frequenze da calcolare è

uguale a (r-1)x(c-1)

Nel nostro caso (2-1)x(3-1) = 2

O : freq osservate

E : freq attese

Calcolo del chi-quadrato

Frequenze osservate

0 2 29

7 13 3Frequenze attese

4,0 8,6 18,4

3,0 6,4 13,6

(O-E)2 / E

4,0 5,1 6,2

5,4 6,8 8,3

S 35,8

Chi-quadrato = 35,8

Questa tabella viene usualmente chiamata tabella di

contingenza.

In generale, una tabella di contingenza mostra la

distribuzione delle unità statistiche classificate sulla base

di due o più variabili.

Contiene varie distribuzioni di frequenza.