29
1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità Corso di Calcolo delle Probabilità e Statistica e Statistica II Parte – STATISTICA II Parte – STATISTICA VI Lezione Cenni ai test di ipotesi non parametrici Test del chi quadro di indipendenza e di adattamento

1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

Embed Size (px)

Citation preview

Page 1: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

1

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Corso di Calcolo delle ProbabilitàCorso di Calcolo delle Probabilitàe Statisticae Statistica

II Parte – STATISTICAII Parte – STATISTICA

VI Lezione

Cenni ai test di ipotesi non parametriciTest del chi quadro di indipendenza

e di adattamento

Page 2: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

2

Argomenti della VI LezioneArgomenti della VI Lezione

•Test statistici di ipotesi non parametrici

Utilità e impiego dei test

Un esempio: test per la mediana di una distribuzione

•Test del chi quadro di indipendenza

•Test del chi quadro di adattamento a una distribuzione

•Esempi

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 3: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

3

Test non parametrici

Sono impiegati qualora non si abbiano informazioni preliminari sul tipo e sulla forma della distribuzione e/o non si possano fare assunzioni di normalità.

Gli sperimentatori dicono che tutti i dati sono normali per un teorema matematico.

I matematici dicono che tutti i dati sono normali per l’evidenza sperimentale!

?!

• Se le ipotesi di normalità sono soddisfatte i test parametrici hanno un’efficacia maggiore dei corrispondenti test non parametrici

• Se non si è certi della normalità della distribuzione è meglio usare un test non parametrico.

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 4: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

4

Un esempio di test non parametrico:

il test dei segni per la mediana

Per una distribuzione continua la mediana è quel valore M tale che

Campione di taglia n estratto da una distribuzione per cui si ipotizza che la mediana valga M0

Ipotesi del test:

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

M

Page 5: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

5

Riassumendo:Riassumendo:

Se si vuole eseguire un test sul valore della mediana di una popolazione qualunque (non necessariamente normale) estraendo un campione di taglia n

• si pone

• Si considera quindi la variabile casuale

• Si calcola il p-value (p.es. nel caso di test unilaterale a coda sinistra) come

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 6: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

6

ESEMPIO

Valore della statistica e dato del campione

Calcolo del p-value sotto l’ipotesi nulla

Il p-value è piccolo: non si può accettare l’ipotesi nulla che la mediana sia quella ipotizzata (a favore dell’ipotesi che la nuova procedura riduca il tempo di esecuzione).

(test di significatività)

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 7: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

7

Alcuni altri tipi di test non parametrici

• Test di Wilcoxon dei segni con rango:

per la mediana di distribuzioni simmetriche continue

(esistono tavole specifiche per vari valori della taglia n e del livello )

• Test di Wilcoxon delle somme dei ranghi:

per l’uguaglianza delle mediane di due distribuzioni continue (ovvero sull’uguaglianza delle popolazioni); campioni indipendenti

(esistono tavole specifiche per vari valori delle taglie m e n e del livello )

• Test di Wilcoxon dei segni con rango per campioni accoppiati:

per l’uguaglianza delle mediane di due distribuzioni continue simmetriche; campioni accoppiati

(esistono tavole specifiche per vari valori della taglia n e del livello )

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 8: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

8

Test per l’indipendenza di caratteri qualitativi:

il test del chi quadro per l’indipendenza

Viene impiegato per verificare l’ipotesi nulla che due fattori considerati congiuntamente in relazione a una data popolazione (p.es. il tipo di laurea frequentato e il conseguimento di un lavoro stabile dopo un certo numero di anni) siano indipendenti.

La procedura viene applicata per verificare l’indipendenza tra due fattori in una tabella di contingenza con r righe e c colonne.

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

La rappresentazione tabellare come tabella a doppia entrata o tabella di contingenza è la procedura descrittiva tipica per il confronto tra due variabili categoriche

Page 9: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

9

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

ESEMPIO

Motivi di insoddisfazione tra i clienti di tre grandi alberghi

AlbergoMotivi di insoddisfazionePalm Royal Princess TotalePrezzo 23 7 37 67Posizione 39 13 8 60Camere 13 5 13 31Altro 13 8 8 29Totale 88 33 66 187

Frequenze marginali

Page 10: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

10

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Consideriamo

fo = frequenze osservate in una cella della tabella di contingenza r x c

fe = frequenze teoriche o attese in una cella ella tabella di contingenza nel

caso in cui l’ipotesi nulla di indipendenza sia vera

Per calcolare le frequenze attese ricordiamo che due variabili qualitative devono essere ritenute indipendenti se, per ogni cella della tabella a doppia entrata, la frequenza relativa congiunta coincide con il prodotto delle corrispondenti frequenze relative marginali.

Regola di calcolo:

fe = ( totale di riga x totale di colonna ) / n

n : ampiezza campionaria

Page 11: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

11

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

L’ipotesi nulla e l’ipotesi alternativa in questo contesto sono:

• H0: La due variabili categoriche sono indipendenti (p.es. non sussistono relazioni tra il particolare albergo visistato e il motivo di insoddisfazione)

• H1: La due variabili categoriche sono dipendenti (p.es. sussiste una relazione tra il particolare albergo visitato e il motivo di insoddisfazione)

2 = tutte le celle __________(fo - fe)2

fe

La statistica per il test è la seguente:

E’ distribuita come una variabile casuale chi quadro a (r - 1)(c - 1) gradi di libertà.

Page 12: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

12

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

AlbergoMotivi di insoddisfazionePalm Royal Princess TotalePrezzo 31.53 11.82 23.65 67Posizione 28.24 10.59 21.18 60Camere 14.59 5.47 10.94 31Altro 13.65 5.12 10.24 29Totale 88 33 66 187

Caso dell’esempio: calcolo delle frequenze attese per le celle (1,1) e (4,3):

fe (1,1) = ( totale di riga x totale di colonna ) / n = 67 x 88 / 187 = 31.53

fe (4,3) = ( totale di riga x totale di colonna ) / n = 29 x 66 / 187 = 10.24

Tabella delle frequenze attese:

Page 13: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

13

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Caso dell’esempio: calcolo della statistica 2

2 = 27.402

Tale valore eccede il valore critico della distribuzione chi quadro con (4 - 1)(3 - 1) = 6 gradi di libertà al livello = 0.05, che è

2 (6) = 12.592.

Si deve rifiutare l’ipotesi nulla: esiste una relazione tra l’albergo visitato e il motivo di insoddisfazione dei clienti

Page 14: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

14

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Riassumendo:Riassumendo:

Se si vuole eseguire un test sull’indipendenza di due caratteri qualitativi in una popolazione, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come:

ATTENZIONE: per poter applicare il test la frequenza attesa

di ogni classe dev’essere almeno pari a 5 (e comunque mai

nulla!). Altrimenti, si possono raggruppare più classi in una

sola.

H0 H1 Regione critica

caratteri indipendenti caratteri non indipendenti 2 > 21- ((r-1)(c-1))

Page 15: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

15

Test di bontà dell’adattamento a una distribuzione:

il test del chi quadro per l’adattamento

Viene impiegato per verificare l’ipotesi nulla che un dato campione sia estratto da, ovvero si adatti, a una specifica distribuzione

La distribuzione può essere

• 1. specificata completamente (se ne danno i parametri)

• 2. non specificata completamente (i parametri devono essere preliminarmente stimati dai dati del campione)

Il test è basato sulla seguente proprietà:

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 16: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

16

Xi è il numero di prove che danno risultato i; lo si denota con Oi (oppure Ni)

E[Xi]=npi=Ei numero atteso di prove che danno risultato i

È distribuita approssimativamente, per n grande, come una v.a. chi quadro a

k-1 gradi di libertà dove k è il numero delle classi.

Questa v.a. viene impiegata come statistica di test per verificare l’ipotesi nulla che il campione dato sia estratto da una popolazione avente la distribuzione specificata.

2 =

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 17: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

17

Riassumendo:Riassumendo:

Se si vuole eseguire un test sull’adattamento di una distribuzione campionaria F a una distribuzione nota F’, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come:

ATTENZIONE: per poter applicare il test la frequenza attesa

di ogni classe dev’essere almeno pari a 5. Altrimenti, si

possono raggruppare più classi in una sola.

2 > 21- (k - 1)

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 18: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

18

ESEMPIO

Ipotesi nulla e alternativa

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 19: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

19

Non si può rifiutare l’ipotesi nulla

(test di significatività)

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 20: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

20

Per distribuzioni diverse dalla multinomiale:

Distribuzioni discrete

Distribuzioni continue

Se i parametri della distribuzione ipotizzata non sono specificati, ma devono essere stimati preliminarmente dal campione:

n = k - d - 1

Gradi di libertà della v.a. chi quadro

Numero di classi in cui si dividono i dati

Numero di parametri stimati

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 21: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

21

ESEMPIO

1. Stima dei parametri della distribuzione

2. Calcolo delle frequenze attese e di quelle osservate per le classi costruite in modo tale che nessuna frequenza attesa sia inferiore a 5

3. Calcolo del valore della statistica di test

4. Confronto con il quantile della distribuzione del chi quadro opportuno

Procedura

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 22: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

22

1. Stima dei parametri

2. Individuazione delle classi; calcolo delle frequenze attese e delle frequenze osservate

3. Calcolo del valore della statistica di test

4. Confronto con la v.a. chi quadro al livello e con i gradi di libertà opportuni

1)

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 23: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

23

ATTENZIONE !ATTENZIONE !

Su alcune tavole delle distribuzioni delle variabili casuali di interesse in

Statistic (Z, chi quadro, F di Fisher, t di Student) i quantili (per esempio z

per la variabile normale standard Z) vengono intesi nel modo seguente:

P ( Z > z ) =

Le tavole riportano comunque l’indicazione (tramite la formula o tramite il

grafico della funzione densità di probabilità della variabile implicata) per

interpretare correttamente i valori che vi compaiono.

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 24: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

24

… in questo caso! Non si tratta di una regola generale.

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 25: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

25

ESERCIZIO

I cavalli vincitori delle ultime 144 edizioni di una storica corsa avevano occupato alla partenza le otto possibili posizioni con le seguneti frequenze:

pos. 1 2 3 4 5 6 7 8

fr. 29 19 18 25 17 10 15 11

Si può affermare che la posizione di partenza abbia avuto un’influenza significativa sulla vittoria?

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Page 26: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

26

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Test per l’adattamento della distribuzione normale:

normal probability plot

ESEMPIO: E’ stato misurato il diametro esterno di 20 tubi. Si vuole verificare che le misure siano distribuite secondo la distribuzione normale. I dati raccolti sono:

Problema: stabilire se il campione a disposizione è estratto da una popolazione normale senza ricorrere a test parametrici o non parametrici

Page 27: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

27

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Procedimento di soluzione

1. Ordiniamo i dati attribuendo rango i all’i-esima osservazione ordinata:

2. Le osservazioni ordinate vengono riportate sul normal probability plot in funzione di Pi =100×[(i-0.5)/n] (valori sull’asse delle x). Le osservazioni ordinate corrispondenti vengono riportate sull’asse delle y. Es. P1 =100×[(1-0.5)/20]=2.5 La scala su tale asse va fissata in modo da comprendere i valori minimo e massimo osservati.

Page 28: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

28

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

5. Stimiamo ricordando che lo scarto tipo è uguale ai 2/5 della differenza tra il 90-mo e il 10-mo percentile. Es. 2/5 (1.7071-1.6957)=0.0046

3. Decidiamo se i punti del grafico cadono abbastanza prossimi a una retta. Scegliamo “a occhio” la retta migliore. Se ciò avviene accettiamo l’ipotesi che i dati siano distribuiti secondo la normale.

4. Stimiamo tramite il 50-mo percentile (media e mediana della normale coincidono). Es. stim=1.70135

Page 29: 1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione

29

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Qualche consiglio pratico per decidere se accettare l’ipotesi normale:1. i punti non sono indipendenti, se un punto è sopra la retta probabilmente lo sarà anche il successivo. Però sequenze troppo lunghe sopra o sotto la retta devono INSOSPETTIRE.2. Le discrepanze dei punti estremi (valore massimo e valore minimo) sono maggiori di quelle dei punti centrali. Pertanto nel tracciare la retta PRIVILEGIARE i punti centrali