21
La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente a risultati tipo "il 60% degli individui trattati con un farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo", implicando con ciò un confronto tra i risultati ottenuti per i due gruppi. Risulta evidente che tali risultati non sono espressi da dati su scala quantitativa e quindi non è possibile fare riferimento alla distribuzione Gaussiana o a quelle del t di Student, ma occorre considerare metodiche specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi zero di una differenza casuale tra le frequenze riscontrate. STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La presentazione dei dati per molte ricerche mediche fa comunemente

riferimento a frequenze, assolute o percentuali. Osservazioni cliniche

conducono sovente a risultati tipo "il 60% degli individui trattati con un

farmaco è migliorato rispetto al 47% del gruppo di soggetti di controllo",

implicando con ciò un confronto tra i risultati ottenuti per i due gruppi.

Risulta evidente che tali risultati non sono espressi da dati su scala

quantitativa e quindi non è possibile fare riferimento alla distribuzione

Gaussiana o a quelle del t di Student, ma occorre considerare metodiche

specifiche che permettano, anche con tale tipo di dati, di verificare l'ipotesi

zero di una differenza casuale tra le frequenze riscontrate.

STATISTICA INFERENZIALEPER VARIABILI QUALITATIVE

Page 2: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La statistica chi-quadrato (χ2)Variabile statistica semplice (v.s.s.)

Esempio 1. C’è parità tra i 2 sessi nei 180 iscritti al corso di laurea in medicina? Si organizza un'indagine su un campione casuale di 80 studenti. (Ho: M=F; H1: M≠F)

I risultati osservati (O) e le attese (A) sono riportati nella tabella.

* p < 0.05, risultato del test appena significativo

5*1.25χ2 g.l.=1

200/408050/408080TOT

100/403025/404035F

100/405025/404045M

χ2-testO2χ2-testAO1SESSO

Page 3: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

v.s.s. con >2 modalitàAnche una serie empirica può seguire un modello.

Esempio 2. 4 campioni di 400 pz. ciascuno vengono sottoposti a ≠dosaggi di un farmaco. Si riporta il numero osservato di pz guariti (Oi) e il numero atteso (Ai) per ogni campione (Ci).

dove Ho (modello): Ai= scala a raddoppioΔ Oi-Ai dovuta ad errore?

22.75750750χ2

2.500/4004003504.0 mg

2.500/2002002502.0 mg

100/1001001101.0 mg

100/5050400.5 mg

χ2-testAiOiDose di farmaco

Page 4: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Il fumo è “causa” (o fattore di rischio) per la bronchite? ossia il Δ (+15%) è statisticamente significativo?

Tabella di contingenza (2x2)

1020807213TOTALE

62052793NO

400280120SI

TOTNOSIFUMO

BRONCHITE

La prevalenza di bronchite risulta statisticamente ≠ tra i fumatori e i non fumatori?H0: La bronchite si sviluppa indipendentemente dal fumo;H1: I fumatori sviluppano bronchite più dei non fumatori.

VARIABILI STATISTICHE DOPPIE: CONFRONTO DI 2 CAMPIONI(Confronto tra due percentuali)

Esempio 3.Si abbia un campione di 1020 soggetti diviso in Fumatori (A): nA=400 Prevalenza BCO 30% Non fumatori (B): nB=620 Prevalenza BCO 15%

Page 5: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TASSI DI PREVALENZA x 100 SOGGETTI

• Se ci fosse indipendenza tra fumo e BCO si dovrebbero riscontrare le stesse prevalenze di pazienti con BCO tra i fumatori e i non fumatori.

• Va costruita quindi una tabella le cui frequenze rispondono alla condizione d'indipendenza

%1562093P %30

400120P %8.20

1020213P NFFT ======

Page 6: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TABELLA TETRACORICA D'INDIPENDENZA

nn2(b+d)n1 (a+c)TOTnB(c+d)dcB (-)nA(a+b)baA (+)

TOTNP (-)P (+)

MalattiaFattore di rischio

Valori delle frequenze nel caso di indipendenza

n1:n = a:nA nnna 1A=

n1:n = c:nB nnnc 1B=

idem per b e d

Page 7: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Tornando all’esempio dell'associazione tra BCO e fumo si ha la

tabella delle frequenze attese:

1020807213TOTALE

620491129NO

40031684SI

TOTNOSIFUMO

BRONCHITE CRONICA

Es. (620x213)/1020 = 129; per differenza si calcolano le altre tre frequenze interne.

Page 8: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

χ2 = (120-84)2 + (280-316)2+ (93-129)2 + 84 316 129 + (527-491)2 = 32.21 491 LA FORMULA PER CALCOLARE L'INDICE-TEST

CHI-QUADRATO

Σ (Oi-Ai)2

Ai

Page 9: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TEORIA SULLE IPOTESI

H0 = ipotesi zero o ipotesi nulla le due percentuali (30% e 15%) differiscono per effetto dell'errore di campionamento.

H1 = ipotesi alternativale due percentuali non differiscono per effetto dell'errore di campionamento. il test del χ2 consente di saggiare l'ipotesi nulla.

Page 10: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Nel caso di tabelle 2x2 si può calcolare il valore del test χ2 anche

direttamente attraverso la formula seguente:

(ad - cb)2 N χ2 -test = __________

N1 N2 NA NB

FORMULA PER IL CALCOLO DEL χ2 VALIDA SOLO NEL CASO DI TABELLE TETRACORICHE

Nel nostro esempio avremo:

( ) 21.32620*400*807*213

1020*280*93527*120 22 =

−=χ

Valore quasi coincidente a quello calcolato con la

precedente formula, quindi

LE DUE FORMULE DANNO RISULTATI EQUIVALENTI

Page 11: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Se il campione e 1/10 del precedente si ha:

1028121TOTALE

62539NO

402812SI

TOTALEBCO NOBCO SIFUMO

681.262*40*81*21

102*)56)28*953*12(( 22 =

−−=χ

L’ipotesi nulla non può essere rifiutata.

Page 12: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

La CORREZIONE di YATES (per la continuità)

La correzione di Yates viene applicata nel caso di tabelle 2x2 che presentino:

la numerosità complessiva (n)<200oppure uno tra nA, nB, n1, n2 <40

a, b, c, d >5la correzione si attua con la formula:

(⏐ad - cb⏐- n/2)2 nχ2 = _________________

n1 n2 nA nB

N.B. Anche per n>200 conviene applicarla

Page 13: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Esempio 4. Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva.

361521TOT

20614NO

1697SI

TOTNOSI SPORT

IPERTENSIONE ARTERIOSAPRATICA

Applichiamo il test χ2 con la correzione di Yates per la continuità (⏐7x6 - 14x9⏐-36/2)2 36 χ2 = ___________________ = 1.55 n.s. 21x15x20x16

Page 14: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

1028121TOTALE

62539NO

402812SI

TOTALEBCO NOBCO SIFUMO

681.262*40*81*21

102*)56)28*953*12(( 22 =

−−=χ

Page 15: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

TEST ESATTO di FISCHERViene applicato nel caso in cui in una tabella 2x2 il numero

delle osservazioni è minore di 20 o una delle frequenze attese è inferiore a 5. Permette di calcolare direttamente la

probabilità esatta.

P=(a+b)! (c+d)! (a+c)! (b+d)!a! b! c! d! N!

311516TOT

20515NO

11101SI

TOTNOSISPORT

IPERTENSIONE ARTERIOSAPRATICA

P1 = 11! 20! 16! 15! = 0.0005671! 10! 15! 5! 31!

Page 16: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

311516TOT

20416NO

11110SI

TOTNOSI

IPERTENSIONE ARTERIOSAPRATICASPORT

P0 = 11! 20! 16! 15! = 0.0000160! 11! 16! 4! 31!

P= 0.00567+0.000016=0.00568

Altamente significativo. P<0.001

Page 17: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Generalizzazione al caso di una tabella di dimensione rxs.Esempio 5.

97253933Tot.

5418 (14)24 (22)12 (18)Farmaco B

437 (11)15 (17) 21 (15)Farmaco A

Tot.Non miglioratiMiglioratiGuariti

33/97=34.02%(GUARITI), 39/97=40.20% (MIGLIORATI), 25/97=25.77 (INSUCCESSI TERAPEUTICI)

Si applica la formula generale per una valutazione complessiva:

(21-15)2 (12-18)2 (15-17)2 (24-22)2 (7-11)2

χ2 = ______ + _______ + ______ + _______ + ______ + 15 18 17 22 11

(18-14)2

____________ = 8.2314

Page 18: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

CONFRONTO TRA PERCENTUALI IN CAMPIONI INDIPENDENTI

Campione 1: n1=300 Prevalenza 70%Campione 2: n2=400 Prevalenza 80%

700170530TOT

40080320C2

30090210C1

TOT-+

χ2 = (210x80-320x90)2 700 =9.32 p<0.001 530x170x300x400 Campione 1: n1=30 Prevalenza 70%

Campione 2: n2=40 Prevalenza 80%

701753TOT

40832C2

30921C1

TOT-+

χ2 = (⎢21x8-32x9⎢- 70/2)270 =0.47 n.s. 53x17x30x40

Page 19: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

V E R IF IC A D I IP O T E S I

1 . T E O R IA D E L L A V E R IF IC A D E L L E IP O T E S I S T A T IS T IC H E

C o n s is te n e llo s ta b ilire se l 'a s su n z io n e fa tta , s i p o ssa c o n s id e ra re e sa tta o m e n o , su lla b a se d e lle o sse rv a z io n i c o n d o tte su u n a p a r te d e lle u n ità d e l co lle tt iv o m e d e s im o . 2 . L 'IP O T E S I (H 0) E ' u n a s su n to p a r tic o la re c irc a le c a ra tte r is tic h e ( i p a ra m e tr i d e lla p o p o la z io n e . E ' u n a a ffe rm a z io n e su e v e n ti " sc o n o sc iu ti" c o s tru ita in m o d o ta le d a p o te r e sse re v e r ific a ta m e d ia n te u n te s t s ta tis tic o (T .S .) 3 . T E S T S T A T IS T IC O E ' u n a te c n ic a d i in fe re n z a s ta tis tic a , m e d ia n te la q u a le s i a c c e tta o r ifiu ta u n a c e r ta ip o te s i, a d u n liv e llo c r it ic o d i s ig n ific a tiv ità . 4 . L IV E L L O D I S IG N IF IC A T I V I T A ' E ' i l m a rg in e d 'e rro re c h e s ia m o d isp o s ti a co m m e tte re , d i so lito 5 o 1 % , m a p iù è p ic c o lo e p iù r id u c ia m o il r isc h io d i r ifiu ta re H 0 q u a n d o in re a ltà è v e ra . 5 . F U N Z I O N E T E S T E ' la fu n z io n e d e i d a ti c a m p io n a r i d i c u i s i se rv e u n te s t p e r p o r ta re a lla d e c is io n e d i a c c e tta re o re sp in g e re H 0 . 6 . V E R IF IC A D 'IP O T E S I E ' u n a m e to d o lo g ia s ta tis tic a c h e b a sa n d o s i su lle p ro b a b ilità p o r ta a p re n d e re d e lle d e c is io n i. 7 . G R A D I D I L IB E R T A ' S o n o d a ti , in g e n e ra le , d a l n u m e ro d e lle m o d a lità c h e la v a r ia b ile a ssu m e m e n o i v in c o li

Page 20: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
Page 21: STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Area•Accettaz. Ho

•Rifiuto H1

•Test nonsignificativo

FUNZIONE TEST

SIGNIFICATIVO → (1)

dipendenza tra x e y

NON SIGNIFICATIVO → indipendenza

SIGNIFICATIVO → (s)

rifiuto il modello

TEST DI

SIGNIFICATIVITA’

NON SIGNIFICATIVO → non rifiuto il modello → RISPONDENZA TRA DISTRIBUZIONE CONSTATATA E QUELLA TEORICA.

D’INDIPENDENZA(1)

Ho: nij=n’ij H1: nij≠n’ij

IPOTESI DA

VERIFICARE DI CONFORMITA’O ADATTAMENTO

Ho: fo=fA H1: fo≠fA