32
1 Parte prima Introduzione all’inferenza statistica di Antonio Mussino Ultime lezioni [email protected] Strumenti statistici per le ricerche di mercato e la customer satisfaction

1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni [email protected] Strumenti statistici per le ricerche di

Embed Size (px)

Citation preview

Page 1: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

1

Parte prima

Introduzione all’inferenza statisticadi Antonio Mussino

Ultime lezioni

[email protected]

Strumenti statistici per le ricerche di mercato e la customer satisfaction

Page 2: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

2

Inferenza statistica sulla relazione fra due variabili

Come passo successivo allo studio dell’inferenza su medie e proporzioni relativamente a una sola variabile, abbiamo lo studio del test di ipotesi sulle relazioni fra due variabili. Segnaliamo che in questo corso non sarà affrontato lo studio di modelli più complessi.

Page 3: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

3

Simmetria vs. asimmetria

Una prima distinzione va fatta tenendo presente il ruolo che le due variabili messe in relazione giocano: ossia se esso è simmetrico o asimmetrico.

Nel primo caso si studia solo la relazione statistica, senza chiedersi se una delle due variabili influenzi l’altra; nel secondo, invece, il modello si imposta ponendo una variabile indipendente, che ne dovrebbe influenzare una dipendente, e si testa la esistenza o meno di questa relazione.

Page 4: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

4

Tipo di variabili

Così come, nella prima parte del corso, abbiamo distinto il caso di variabili quantitative e qualitative, qui dovremo distinguere quattro casi:

a) il caso di relazione fra due variabili qualitative; b) il caso di relazione fra una variabile qualitativa e una

quantitativa; c) il caso di relazione fra una variabile quantitativa e una

qualitativa; d) il caso di relazione fra due variabili quantitative.

Page 5: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

5

……

La distinzione fra i casi b) e c) ha senso solo nello studio di relazioni asimmetriche; nel nostro caso può essere ricondotto al caso a) in quanto ogni variabile quantitativa può essere trasformata in qualitativa mediante l’accorpamento in classi.

Ad esempio, l’età – variabile quantitativa – può essere trasformata in qualitativa accorpando in classi di anni: da 0 a 12 anni “bambini”; da 13 a 19 anni “adolescenti”; da 20 a 34 anni “giovani”; da 35 a 64 anni “adulti”; da 65 a 74 anni “anziani” da 75 anni in poi “vecchi”.

Page 6: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

6

Pertanto….

Abbiamo così concentrato l’attenzione su due casi di studio: relazione simmetrica fra due variabili

qualitative; relazione simmetrica fra due variabili

quantitative.

Page 7: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

7

  Lo studio dell’indipendenza

Si consideri la seguente tabella 19.1 ottenuta incrociando le risposte di un campione casuale di 235 elettori romani a due domande, entrambe qualitative, su “livello di istruzione” e “livello di partecipazione politica”; tali risposte sono state opportunamente ricodificate ottenendo tre livelli per ogni variabile: alto, medio e basso.

Page 8: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

8

Tab. 19.1 Livello di istruzione->

Livello di partecipazione politica

Alto Medio Basso Totale

Alto 7 18 4 29

Medio 8 25 9 42

Basso 10 95 59 164

Totale 25 138 72 235

Page 9: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

9

Percentuali per colonna

Una prima lettura dei dati è fornita dalle percentuali per colonna, considerando ad esempio la variabile livello di partecipazione politica (l.p.p.) come dipendente dal livello di istruzione (l.i.), variabile indipendente; ciò equivale a studiare il l.p.p. in tre sottocampioni indipendenti con l.i. rispettivamente alto, medio e basso (cfr. tabella 19.2).

Page 10: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

10

Tab. 19.2 Livello di istruzione->

Livello di partecipazione politica

Alto Medio Basso Totale

Alto 28,0 13,0 5,5 12,3

Medio 32,0 18,2 12,5 17,9

Basso 40,0 68,8 82,0 69,8

Totale 100,0 100,0 100,0 100,0

Page 11: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

11

Dipendenza

La interpretazione della tabella 19.2 è piuttosto agevole: vi è una forte associazione fra un l.i. alto e un l.p.p. alto (i più istruiti partecipano di più); così come la minore partecipazione sembra essere caratteristica dei cittadini con livello di istruzione basso e così via.

In altre parole, fra le due variabili c’è dipendenza. Questo risultato, però, è stato elaborato in un campione casuale di soli 235 cittadini: esso non sarà stato ottenuto solo per effetto del caso, ossia per una sfortunata scelta degli intervistati? E, quindi, le due variabili non saranno invece indipendenti nella popolazione di tutti gli elettori?

Page 12: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

12

Test di ipotesi

Per rispondere a questo quesito dobbiamo operare come nel classico Test di ipotesi precedentemente presentato.

Riprendiamone i vari passi: a) si formula l’ipotesi nulla e quella alternativa,

relativamente al parametro nella popolazione; in questo caso H0 è quella di indipendenza, Ha è quella di una qualche dipendenza fra le variabili, anche se questa dipendenza non potrà essere misurata;

b) si calcola il test statistico nel campione, che chiameremo Chi quadrato;

Page 13: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

13

c) utilizzando le informazioni sulla distribuzione campionaria del test, qualora sia vera l’ipotesi nulla, si calcola il p-value;

d) confrontando il p-value con il valore di probabilità con il quale assegniamo il livello di fiducia nella nostra decisione rifiutiamo o non rifiutiamo l’ipotesi nulla;

e) il procedimento può non finire qui, in quanto quando rifiutiamo l’ipotesi nulla con un p-value significativo allo 0,05, abbiamo sempre un rischio nel 5% dei casi di aver rifiutato un ipotesi vera; così quando non la rifiutiamo abbiamo sempre il rischio di non aver rifiutato un’ipotesi falsa.

Test di ipotesi - segue

Page 14: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

14

In più, rispetto a quanto esplicitato nei paragrafi precedenti, dobbiamo introdurre le modalità di calcolo del test Chi quadrato. Per vedere come si calcola costruiamo un’altra tabella nella quale le variabili messe a confronto sono il “colore dei capelli” e il l.p.p.: sono due variabili tra le quali ci dovrebbe essere logicamente una relazione di indipendenza.

Se così fosse la tabella analoga alla 19.2, ossia quella delle percentuali di colonna, che chiameremo 19.3, dovrebbe avere quattro colonne tutte uguali, in quanto la partecipazione dovrebbe essere la stessa tra i castani, i mori e i biondi.

Calcolo del Chi quadrato

Page 15: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

15

Tab. 19.3 Colore dei capelli->

Livello di partecipazione politica

Alto Medio Basso Totale

Alto 12,3 12,3 12,3 12,3Medio 17,9 17,9 17,9 17,9Basso 69,8 69,8 69,8 69,8Totale 100,0 100,0 100,0 100,0

Page 16: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

16

Come si calcola?

Come si può ottenere questo risultato? Formalizziamo il problema nella tabella 19.4.

Page 17: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

17

Tab. 19.4 Variabile A->

Variabile B

M1 M2 M3 Totale

N1 n11 n12 n13 n1.

N2 n21 n22 n23 n2.

N3 n31 n32 n33 n3.

Totale n.1 n.2 n.3 n..

Page 18: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

18

Le contingenze

Per avere tutti profili di colonna uguali (ma anche i profili di riga) al posto di n11 dovrò avere un

c11=n1.*n.1/n..

e, al posto del generico nij, nella situazione di indipendenza, un

cij=ni.*n.j/n..

Page 19: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

19

…….

La differenza fra i valori corrispondenti nij e cij (valori osservati e valori attesi nell’ipotesi di indipendenza fra le variabili studiate) ci dice quanto ci si discosta dalla situazione di indipendenza: se la differenza è nulla, o è piccola, non ci si discosta da quella e non si può rifiutare l’ipotesi nulla; se i valori sono grandi allora si può rifiutare. Ma quando un valore è piccolo o grande?

Per rispondere bisogna conoscere la distribuzione del test statistico, il Chi quadrato, che si calcola come

∑i∑j ((nij-cij)2/ cij).

Page 20: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

20

Gradi di libertà

Questa distribuzione dipende dai gradi di libertà ((r-1)*(c-1)),

con r numero delle righe e c numero delle colonne ed è tabulata nei principali libri di Statistica. Si può decidere di avere un livello di fiducia al 95% e trovare il valore del Chi quadrato corrispondente: se il nostro è superiore cadiamo nella coda di rifiuto dell’ipotesi nulla, se è inferiore non la possiamo rifiutare.

Page 21: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

21

P-value

Oppure possiamo avere il p-value del Chi quadrato calcolato sui nostri dati e vedere se è più piccolo del 5% (ovvero 0,05) rifiutiamo H0, se è più grande non la rifiutiamo; lo stesso può valere col 99%, o col 999‰ e così via.

Page 22: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

22

Lo studio della correlazione

Se le due variabili a cui si fa riferimento sono entrambe quantitative, allora la relazione che si può studiare è più sofisticata.

Si consideri la seguente situazione osservazionale: su 10 ragazzi allievi di un Centro di Avviamento allo Sport (CAS) sono stati rilevati i risultati di alcune prove motorie. Nella matrice 20.1 è riprodotta tale situazione: per riga sono rappresentati i ragazzi e per colonna tre variabili (prove); l’istruttore vuole valutare questo insieme di informazioni e considera varie coppie di relazioni, partendo dalla rappresentazione geometrica di ogni prova.

Page 23: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Tabella 20.1 - Matrice dei risultati dei ragazzi del CAS

Unità statistica corsa 60mt salto flessione del piani (X) in alto (Y) tronco (Z) Andrea 9,8 177 6,2 Carlo 10,2 169 10,2 Enrico 9,5 178 11,9 Gianni 9,6 179 9,6 Mario 9,2 182 6,4 Mauro 9,1 186 10,1 Nicola 8,9 190 8,4 Sandro 9,3 180 10,4 Silvano 10,1 174 8,2 Ugo 9,7 177 8,4

23

Page 24: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

24

Asse corsa veloce

Così possiamo iniziare a rappresentare il primo asse di riferimento (X), su cui stabiliamo un’origine (punto di coordinata 0), un’unità di misura e su cui siano rappresentati i risultati della corsa veloce, facendo corrispondere ad ogni determinazione numerica un punto di coordinata corrispondente:

0 8,9 9,1 9,2 10,1 10,2 *- - - - --------*---------*------*----------- *---------*---------- X Il risultato migliore, trattandosi di una prova a tempo, è

quello ottenuto da Nicola, segue quello di Mauro, quello di Mario e così via, fino al peggiore, quello di Carlo.

Page 25: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Asse salto in lungo

Su una seconda retta di riferimento (Y) si possono rappresentare i risultati della prova di salto in lungo:

0 169 186 190 *- - - - ---------*-------------------------*--------*------------- Y

  Il risultato migliore è quello di Nicola, poi quello di Mauro

e così via fino a quello di Carlo che è il peggiore.

25

Page 26: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

26

Asse flessione del tronco

Per prima cosa si deve notare la diversa unità di misura e la diversa variabilità dei risultati rispetto all’asse X: le graduatorie, invece, sono comparabili.

Analoga rappresentazione potrà essere effettuata per la variabile Z (flessione del tronco).

Page 27: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

27

Sul piano

Ogni allievo avrà una sua collocazione su ciascun asse. Se gli assi sono considerati in coppia il sistema di

riferimento non sarà più una retta, bensì un piano: qui gli allievi sono rappresentati mediante punti le cui coordinate corrispondono a quelle delle variabili che individuano il piano. I punti così individuati definiscono un diagramma di dispersione (una nuvola).

Page 28: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

28

(segue)

Nelle figure 20.1 e 20.2 sono riprodotte le nuvole relative alla relazione fra X e Y e fra Z e Y.

Si può notare come essa si disperde in maniera diversa nei due piani, seguendo un modello di riferimento nel 20.1 e in maniera casuale nel 20.2 (in allegato).

Page 29: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Figura 20.1

39

Page 30: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Figura 20.2

40

Page 31: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Figura 20.3

41

Page 32: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di

Figura 20.4

42