21
Corso di biomatematica Corso di biomatematica lezione 7-3: lezione 7-3: Test di significatività Test di significatività Silvia Capelli

Corso di biomatematica lezione 7-3: Test di significatività

Embed Size (px)

DESCRIPTION

Corso di biomatematica lezione 7-3: Test di significatività. Silvia Capelli. Sommario. Tabelle di contingenza e Yates Tabelle 2x2 metodo esatto piccoli campioni (Fisher) Tabelle 2xN. Adattamento dei dati. Tabelle di contingenza 2x2 Quando confronto le risposte binarie di due campioni - PowerPoint PPT Presentation

Citation preview

Page 1: Corso di biomatematica lezione 7-3: Test di significatività

Corso di biomatematica Corso di biomatematica lezione 7-3:lezione 7-3:

Test di significativitàTest di significatività

Silvia Capelli

Page 2: Corso di biomatematica lezione 7-3: Test di significatività

Sommario•Tabelle di contingenza e Yates•Tabelle 2x2 metodo esatto piccoli campioni (Fisher)•Tabelle 2xN

Page 3: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati

Silvia Capelli - Dottorato in Biologia

• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Quando confronto le risposte binarie di due campioni indipendenti è utile costruire una tabella a doppia entrata detta tabella di contingenza

Il test del 2 permette in questo caso di verificare se le proporzioni di successi e di insuccessi nei due gruppi sono indipendenti dal “trattamento” al quale sono sottoposti oppure se esiste associazione tra essi.

Page 4: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Per applicare il test del 2 dovrò costruirmi

una tabella di valori misurati (osservati) ed una di valori

attesi, vediamo con un esempio come fare:Date due zone una ad alto inquinamento ed

una a basso inquinamento, si vuole stabilire se esiste un

nesso con l’incidenza di malattie polmonariPer costruire la tabella dovrò tener conto

che:1. Le modalità della var. casuale vanno sulle

righe2. Le modalità della var. effetto sulle

colonne(non tutti seguono la stessa convenzione…)

Silvia Capelli - Dottorato in Biologia

Page 5: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Avremo dunque la tabella dei dati osservati

Persone con

malattie

Persone senza

malattie

Totale

Zona ad alto

inquinamento

32 a 48 b 80 n1

Zona a basso

inquinamento

13 c 57 d 70 n2

Totale 45 n3 105 n4 150 NSilvia Capelli - Dottorato in Biologia

Page 6: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2In questa tabella abbiamo indicato con le lettere a,b… i dati e

con indici ni le rispettive somme parziali, con N la totale.

Ora se fosse vera l’ipotesi nulla H0 le frequenze relative

sarebbero uguali e le differenze riscontrate sarebbero

casuali.

La stima migliore di questa frequenza relativa nell’ipotesi

nulla H0 è data dalla somma delle persone con malattie nei

due gruppi diviso il totale, cioè (32+13)/150 = 0.3

Considerando che nei due campioni ho un diverso numero di

osservazioni i valori aspettati sono di 24 (80x0.3) nel primo

e di 21 (70x0.3) nel secondoSilvia Capelli - Dottorato in Biologia

Page 7: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Avremo quindi la tabella dei dati attesi

(mantenendo le somme parziali e totali):Persone

con malattie

Persone senza

malattie

Totale

Zona ad alto

inquinamento

24 a 56 b 80 n1

Zona a basso

inquinamento

21 c 49 d 70 n2

Totale 45 n3 105 n4 150 NSilvia Capelli - Dottorato in Biologia

Page 8: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Per i valori attesi è sufficiente trovare una sola delle frequenze attese e le altre le ricavo per differenza (somme costanti…), ovvero una tabella attesa 2x2 ha solo 1 grado

di libertà (ho 4 dati e 3 informazioni necessarie: totale riga, totale colonna e totale generale, 4–3=1)

Calcoliamo ora il c2 dai nostri dati secondo la formula

n

katt

k

att

k

oss

k

ldg f

ff1

2

)..(

2

Silvia Capelli - Dottorato in Biologia

Page 9: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Con i nostri dati otteniamo:

Le tavole del 2 riportano come valori critici con g.d.l. 1

1. 3,84 alla probabilità =0,052. 6,64 alla probabilità =0,01Quindi il valore calcolato è addirittura

superiore a quello per =0,01, ovvero con probabilità < 0,01

posso dire che la differenza tra le due popolazioni è

significativa (molto…)

163,8

565648

242432

....

22

)1(

2

Silvia Capelli - Dottorato in Biologia

Page 10: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2Tabelle di contingenza 2x2Partendo solo dalla tabella dei dati

osservati, è possibile ricavare il valore del 2 tramite la formula:

nnnnNdcba

4321

2

)1(

2

Silvia Capelli - Dottorato in Biologia

Page 11: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2 e correzione Tabelle di contingenza 2x2 e correzione

di Yatesdi YatesAnche per le tabelle 2x2 nel caso di

campioni con osservazioni comprese tra 100 e 30 è

necessario ricorrere alla correzione di Yates, che in questo caso

diventa:

E gli effetti di questa correzione sono tanto maggiori quanto

più basso è il numero di osservazioni

nnnn

NN

dcba

4321

2

)1(

2 2

Silvia Capelli - Dottorato in Biologia

Page 12: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2 piccoli Tabelle di contingenza 2x2 piccoli

campioni: metodo esatto di Fishercampioni: metodo esatto di FisherSe il numero di osservazioni scende sotto le

30, e/o almeno una frequenza attesa è inferiore a 5, si ricorre al metodo delle probabilità esatte di Fisher che permette di stimare la PROBABILITA’ di ottenere una tabella 2x2 uguale a quella osservata.

Con la stessa simbologia precedente avremo

!!!!!

!!!! 4321

Ndcba

nnnnP i

Silvia Capelli - Dottorato in Biologia

Page 13: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2 piccoli Tabelle di contingenza 2x2 piccoli

campioni: metodo esatto di Fishercampioni: metodo esatto di FisherOra, per stabilire se esiste una differenza significativa tra le

distribuzioni osservate (sani, malati) devo stimare la probabilità

totale di ottenere una distribuzione così estrema o più estrema

ancora.

Per fare questo riduco di 1 il numero di osservazioni nella

casella con numero minore e modifico le altre caselle per

mantenere uguali i totali marginali ni .

Per decidere tra le due ipotesi (H0 e H1) la probabilità che

mi occorre stimare è data dalla somma della probabilità della distrib

osservata e di quelle delle risposte più estreme nella stessa direzione.(test a 1 coda)

Silvia Capelli - Dottorato in Biologia

Page 14: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2x2 piccoli Tabelle di contingenza 2x2 piccoli

campioni: metodo esatto di Fishercampioni: metodo esatto di FisherE’ necessario elencare tutte le possibilità

più estreme, ovvero continuerò a ridurre i valori della

casella con numero minore fino ad arrivare a 0.Sommo tutte le probabilità e confronto il

risultato con il limite critico fissato (di solito =0,05) Se P < rifiuto H0 ed accetto H1

Nei test a due code P è raddoppiata…

Silvia Capelli - Dottorato in Biologia

Page 15: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xNTabelle di contingenza 2xNIl metodo del calcolo del 2 può essere

estesso anche al caso generale, ovvero con classificazioni

multiple, ad esempio considerando il confronto tra 2 popolazioni

per verificare l’ipotesi nulla H0 che tutte le N percentuali

o proporzioni a confronto siano uguali.I gradi di libertà di una tabella 2xN sono N-

1, mentre in generale per una tabella MxN saranno (N-

1)x(M-1).Sarebbe opportuno NON avere caselle con

frequenze attese inferiori a 5, ma con più gradi di

libertà il 2 è meno sensibile ad eventuali errori dovuti a

frequenze attese piccole.

Silvia Capelli - Dottorato in Biologia

Page 16: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioVogliamo confrontare l’effetto di 5 pesticidi

dispersi in 5 areee diverse sulla sopravvivenza dello

stesso tipo dianimale

Silvia Capelli - Dottorato in Biologia

Pestic. A

Pestic. B

Pestic. C

Pestic. D

Pestic. E

Totale

Morti 8 10 14 11 7 50

Sopravv.

12 6 20 22 10 70

Totale 20 16 34 33 17 120

Page 17: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioL’ipotesi nulla H0 è quella che tutti i

pesticidi determinino la stessa frequenza percentuale, mentre

l’ipotesi alternativa H1 è che almeno una classe sia

significativamente differente dalle altre.Per determinare la distribuzione attesa in

ogni casella dovrò fare il prodotto:

Attesa= totale colonna x totale riga / totale generale

Silvia Capelli - Dottorato in Biologia

Page 18: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioOtterremo dunque la tabella attesa

Silvia Capelli - Dottorato in Biologia

Pestic. A

Pestic. B

Pestic. C

Pestic. D

Pestic. E

Totale

Morti 8,33 6,67 14,17 13,75 7,08 50,0

Sopravv.

11,67 9,33 19,83 19,25 9,92 70

Totale 20 16 34 33 17 120

Page 19: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioIl numero di gradi di libertà è (5-1)x(2-1)=4

e calcoliamo il 2 tramite la formula seguente:

Ottenendo

Che essendo inferiore al valore critico 9,49 per =0,05

implica di non poter rifiutare l’ipotesi nulla.Silvia Capelli - Dottorato in Biologia

NM

katt

k

att

k

oss

k

ldg f

ff1

2

)..(

2

9266,3

67,667,610

33,833,88

....

22

)4(

2

Page 20: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioPer il calcolo del 2 possiamo utilizzare

formule abbreviate come la seguente di Brandt e Snedecor:

Con

Dove k è il numero di gruppi a confronto, pi è la frequenza percentuale carattere in

esame, gruppo i ni è la frequenza assoluta carattere in

esame, gruppo i N totale osservazioni e è la media di tutti

i gruppi

Silvia Capelli - Dottorato in Biologia

ppC

ldg 1100

)..(

2

k

i

k

iiii npnpC

1 1

p

Page 21: Corso di biomatematica lezione 7-3: Test di significatività

Adattamento dei dati• Tabelle di contingenza 2xN - esempioTabelle di contingenza 2xN - esempioPer il calcolo del 2 nel nostro caso

avremo:

Silvia Capelli - Dottorato in Biologia

Pestic. A

Pestic. B

Pestic. C

Pestic. D

Pestic. E

Totale

Morti ni

Pi in %

840,0

1062,5

1441,2

1133,3

741,2

5041,66

Sopravv.

12 6 20 22 10 70

Totale 20 16 34 33 17 120