Upload
adriano-marini
View
213
Download
1
Embed Size (px)
Citation preview
Test parametriciTest parametrici
I test studiati nelle lezioni precedenti I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici ipotesi relative al valore di specifici parametriparametri di popolazione di popolazione– Esempio: differenza fra due medieEsempio: differenza fra due medie
Condizioni di validità dei test Condizioni di validità dei test parametriciparametrici– Variabili numericheVariabili numeriche– Distribuzione normale della popolazioneDistribuzione normale della popolazione– Varianza omogeneaVarianza omogenea
Test non-parametriciTest non-parametrici
I test non-parametrici consentono I test non-parametrici consentono la verifica di ipotesi relative a:la verifica di ipotesi relative a:– Variabili non-numericheVariabili non-numeriche
Variabili ordinaliVariabili ordinali Variabili categoricheVariabili categoriche
– Distribuzioni diverse dal normale Distribuzioni diverse dal normale oppure ignoteoppure ignote
Test non-parametriciTest non-parametrici
I test non-parametrici consentono la I test non-parametrici consentono la verifica di ipotesi relative alla verifica di ipotesi relative alla distribuzione di una variabile distribuzione di una variabile categoricacategorica
Numero ministri donna vs. numero Numero ministri donna vs. numero ministri uomoministri uomo
Volume di vendita di due (o più) Volume di vendita di due (o più) prodotti concorrenti prodotti concorrenti
Numero di morti per tumore in due Numero di morti per tumore in due diverse popolazionidiverse popolazioni
Il test Il test χχ22 (chi-quadro) (chi-quadro)
Verifica di ipotesi Verifica di ipotesi relative a relative a distribuzioni di distribuzioni di frequenzafrequenza
Organizzazione dei dati Organizzazione dei dati per Il test per Il test χχ22
Categoria A Categoria BN. soggetti 90 10
““Goodness of fit”Goodness of fit”
I dati: distribuzione di frequenza I dati: distribuzione di frequenza di una variabile categorica (ad es. di una variabile categorica (ad es. sesso dei soggetti in un sesso dei soggetti in un campione)campione)
HH00: distribuzione “attesa”: distribuzione “attesa”
HH11: distribuzione diversa da quella : distribuzione diversa da quella attesaattesa
EsercitazioneEsercitazione
Ipotesi: le automobili sportive Ipotesi: le automobili sportive hanno più incidenti rispetto alle hanno più incidenti rispetto alle automobili di altro tipoautomobili di altro tipo
Sportive Utilitarie Medie Berline TotaleSinistri osservati 20 14 7 9 50Immatricolate 10% 40% 30% 20%
EsercitazioneEsercitazioneSportive Utilitarie Medie Berline Totale
Sinistri osservati 20 14 7 9 50Immatricolate 10% 40% 30% 20%
Sportive Utilitarie Medie Berline TotaleSinistri attesi 5 20 15 10 50
Scarto^2 225 36 64 1 0Scarto^2/FE 45,00 1,80 4,27 0,10
Chi2 51,17
Gdl 3Chi2critico (alfa=0,05) 7,81
Si rifiuta l’ipotesi nulla
a
ao
f
ff 22 )(
Il χ2 come test di Il χ2 come test di indipendenzaindipendenza Il test di indipendenza è utilizzato per Il test di indipendenza è utilizzato per
verificare la presenza di una relazione fra due verificare la presenza di una relazione fra due variabilivariabili– Assenza di relazione: le due variabili sono Assenza di relazione: le due variabili sono
indipendentiindipendenti Due variabili sono indipendenti quando la Due variabili sono indipendenti quando la
distribuzione della prima variabile è priva di distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda rapporto con la distribuzione per la seconda variabilevariabile– La distribuzione di frequenza per la prima variabile è La distribuzione di frequenza per la prima variabile è
la stessa per tutte le categorie della seconda la stessa per tutte le categorie della seconda variabile variabile
Personalità e Personalità e preferenza per i coloripreferenza per i colori HH00: la preferenza per i : la preferenza per i
colori è indipendente colori è indipendente rispetto alla personalità rispetto alla personalità del soggettodel soggetto– La distribuzione delle La distribuzione delle
preferenze è uguale per preferenze è uguale per i due gruppii due gruppi
HH11: la preferenza per i : la preferenza per i colori colori non ènon è indipendente rispetto indipendente rispetto alla personalitàalla personalità– Le distribuzioni sono Le distribuzioni sono
diversediverse
Rosso Giallo Verde Blu Totale
Introverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400
Come nel caso del “goodness of fit” la logica
del test di indipendenza dipende dal confronto fra
frequenze osservate e frequenze attese (se H0 è
vero)
Calcolo delle frequenze atteseCalcolo delle frequenze attese
Rosso Giallo Verde Blu Totale
Introverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400
50400
000.20400
200*100
eoversorosso_intr
n
fff cra
Confronto frequenze Confronto frequenze osservate / frequenze osservate / frequenze atteseattese
Rosso Giallo Verde Blu TotaleIntroverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400
Rosso Giallo Verde Blu TotaleIntroverso 50 10 20 20 100Estroverso 150 30 60 60 300Totale 200 40 80 80 n=400
Scarti^2 Rosso Giallo Verde BluIntroverso 900 16 100 576Estroverso 900 16 100 576
Frequenze osservate
Frequenze attese
Scarti2
Scarti^2/FE Rosso Giallo Verde Blu
Introverso 18,00 1,60 5,00 28,80Estroverso 6,00 0,53 1,67 9,60
Scarti2/Fa Chi2 71,2
a
ao
f
ff 22 )(
n
fff cra
Calcolo dei gradi di Calcolo dei gradi di libertàlibertà
3
3*1
)1)(1(
CRgdl
Verifica dell’ipotesiVerifica dell’ipotesi
81,7
2,712
criticovalore
Si rifiuta l’ipotesi nulla
Condizioni di validità Condizioni di validità del test χ2 del test χ2 Campioni casualiCampioni casuali Osservazioni indipendentiOsservazioni indipendenti Per ogni “cella” il valore di fPer ogni “cella” il valore di fa a
deve essere superiore a 4deve essere superiore a 4
Tecniche e applicazioni Tecniche e applicazioni avanzateavanzate Dati e informazioneDati e informazione Il data miningIl data mining Cluster analysisCluster analysis Modelli predittiviModelli predittivi
– Estrazione di regole Estrazione di regole – Reti neuraliReti neurali– Limiti del data miningLimiti del data mining