Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri

Test parametriciTest parametrici

I test studiati nelle lezioni precedenti I test studiati nelle lezioni precedenti (test-t, test-z) consentono la verifica di (test-t, test-z) consentono la verifica di ipotesi relative al valore di specifici ipotesi relative al valore di specifici parametriparametri di popolazione di popolazione– Esempio: differenza fra due medieEsempio: differenza fra due medie

Condizioni di validità dei test Condizioni di validità dei test parametriciparametrici– Variabili numericheVariabili numeriche– Distribuzione normale della popolazioneDistribuzione normale della popolazione– Varianza omogeneaVarianza omogenea

Test non-parametriciTest non-parametrici

I test non-parametrici consentono I test non-parametrici consentono la verifica di ipotesi relative a:la verifica di ipotesi relative a:– Variabili non-numericheVariabili non-numeriche

Variabili ordinaliVariabili ordinali Variabili categoricheVariabili categoriche

– Distribuzioni diverse dal normale Distribuzioni diverse dal normale oppure ignoteoppure ignote

Test non-parametriciTest non-parametrici

I test non-parametrici consentono la I test non-parametrici consentono la verifica di ipotesi relative alla verifica di ipotesi relative alla distribuzione di una variabile distribuzione di una variabile categoricacategorica

Numero ministri donna vs. numero Numero ministri donna vs. numero ministri uomoministri uomo

Volume di vendita di due (o più) Volume di vendita di due (o più) prodotti concorrenti prodotti concorrenti

Numero di morti per tumore in due Numero di morti per tumore in due diverse popolazionidiverse popolazioni

Il test Il test χχ22 (chi-quadro) (chi-quadro)

Verifica di ipotesi Verifica di ipotesi relative a relative a distribuzioni di distribuzioni di frequenzafrequenza

Organizzazione dei dati Organizzazione dei dati per Il test per Il test χχ22

Categoria A Categoria BN. soggetti 90 10

““Goodness of fit”Goodness of fit”

I dati: distribuzione di frequenza I dati: distribuzione di frequenza di una variabile categorica (ad es. di una variabile categorica (ad es. sesso dei soggetti in un sesso dei soggetti in un campione)campione)

HH00: distribuzione “attesa”: distribuzione “attesa”

HH11: distribuzione diversa da quella : distribuzione diversa da quella attesaattesa

EsercitazioneEsercitazione

Ipotesi: le automobili sportive Ipotesi: le automobili sportive hanno più incidenti rispetto alle hanno più incidenti rispetto alle automobili di altro tipoautomobili di altro tipo

Sportive Utilitarie Medie Berline TotaleSinistri osservati 20 14 7 9 50Immatricolate 10% 40% 30% 20%

EsercitazioneEsercitazioneSportive Utilitarie Medie Berline Totale

Sinistri osservati 20 14 7 9 50Immatricolate 10% 40% 30% 20%

Sportive Utilitarie Medie Berline TotaleSinistri attesi 5 20 15 10 50

Scarto^2 225 36 64 1 0Scarto^2/FE 45,00 1,80 4,27 0,10

Chi2 51,17

Gdl 3Chi2critico (alfa=0,05) 7,81

Si rifiuta l’ipotesi nulla

a

ao

f

ff 22 )(

Il χ2 come test di Il χ2 come test di indipendenzaindipendenza Il test di indipendenza è utilizzato per Il test di indipendenza è utilizzato per

verificare la presenza di una relazione fra due verificare la presenza di una relazione fra due variabilivariabili– Assenza di relazione: le due variabili sono Assenza di relazione: le due variabili sono

indipendentiindipendenti Due variabili sono indipendenti quando la Due variabili sono indipendenti quando la

distribuzione della prima variabile è priva di distribuzione della prima variabile è priva di rapporto con la distribuzione per la seconda rapporto con la distribuzione per la seconda variabilevariabile– La distribuzione di frequenza per la prima variabile è La distribuzione di frequenza per la prima variabile è

la stessa per tutte le categorie della seconda la stessa per tutte le categorie della seconda variabile variabile

Personalità e Personalità e preferenza per i coloripreferenza per i colori HH00: la preferenza per i : la preferenza per i

colori è indipendente colori è indipendente rispetto alla personalità rispetto alla personalità del soggettodel soggetto– La distribuzione delle La distribuzione delle

preferenze è uguale per preferenze è uguale per i due gruppii due gruppi

HH11: la preferenza per i : la preferenza per i colori colori non ènon è indipendente rispetto indipendente rispetto alla personalitàalla personalità– Le distribuzioni sono Le distribuzioni sono

diversediverse

Rosso Giallo Verde Blu Totale

Introverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400

Come nel caso del “goodness of fit” la logica

del test di indipendenza dipende dal confronto fra

frequenze osservate e frequenze attese (se H0 è

vero)

Calcolo delle frequenze atteseCalcolo delle frequenze attese

Rosso Giallo Verde Blu Totale

Introverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400

50400

000.20400

200*100

eoversorosso_intr

n

fff cra

Confronto frequenze Confronto frequenze osservate / frequenze osservate / frequenze atteseattese

Rosso Giallo Verde Blu TotaleIntroverso 20 6 30 44 100Estroverso 180 34 50 36 300Totale 200 40 80 80 n=400

Rosso Giallo Verde Blu TotaleIntroverso 50 10 20 20 100Estroverso 150 30 60 60 300Totale 200 40 80 80 n=400

Scarti^2 Rosso Giallo Verde BluIntroverso 900 16 100 576Estroverso 900 16 100 576

Frequenze osservate

Frequenze attese

Scarti2

Scarti^2/FE Rosso Giallo Verde Blu

Introverso 18,00 1,60 5,00 28,80Estroverso 6,00 0,53 1,67 9,60

Scarti2/Fa Chi2 71,2

a

ao

f

ff 22 )(

n

fff cra

Calcolo dei gradi di Calcolo dei gradi di libertàlibertà

3

3*1

)1)(1(

CRgdl

Verifica dell’ipotesiVerifica dell’ipotesi

81,7

2,712

criticovalore

Si rifiuta l’ipotesi nulla

Condizioni di validità Condizioni di validità del test χ2 del test χ2 Campioni casualiCampioni casuali Osservazioni indipendentiOsservazioni indipendenti Per ogni “cella” il valore di fPer ogni “cella” il valore di fa a

deve essere superiore a 4deve essere superiore a 4

Tecniche e applicazioni Tecniche e applicazioni avanzateavanzate Dati e informazioneDati e informazione Il data miningIl data mining Cluster analysisCluster analysis Modelli predittiviModelli predittivi

– Estrazione di regole Estrazione di regole – Reti neuraliReti neurali– Limiti del data miningLimiti del data mining

Documents

Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri