37
LEZIONI DI LEZIONI DI STATISTICA MEDICA STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure di posizione

LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Embed Size (px)

Citation preview

Page 1: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

LEZIONI DI LEZIONI DI STATISTICA MEDICASTATISTICA MEDICA

Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona

Prof. Roberto de Marco

Lezione n.4

- Misure di posizione

Page 2: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

“ un qualsiasi insieme di dati porta in sè una certa quantità di informazione ”

OBIETTIVO:riassumere tutta l’informazione possibile

in modo SINTETICO ed EFFICACE

diversi strumenti e possibilità offerti dalla statistica

STATISTICHE DI BASE

Page 3: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

la variabile d’interesse è l’ALTEZZA

UNA POPOLAZIONE CON MOLTA VARIABILITÀ

UNA POPOLAZIONE CON POCA VARIABILITÀ

Page 4: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI:

La tendenza centrale o posizione La dispersione o variabilità La forma

quando descrivono la POPOLAZIONE(si indicano con lettere dell’alfabeto

greco

STATISTICHE

PARAMETRI

Queste misure descrittive sintetiche sono chiamate:

quando sono calcolate su un CAMPIONE di dati (si indicano con lettere

dell’alfabeto latino)

(x, s, p)

Page 5: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

INDICI DI POSIZIONEINDICI DI POSIZIONE(measures of location or central tendency)

1. MODA

2. MEDIA

3. MEDIANA

Page 6: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MODAMODA

Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o l’intervallo di classe) della variabile a cui corrisponde la massima frequenza.

E’ la scelta fatta dalla maggioranza della popolazione, lo stile che “tutti” seguono

in statistica non è diverso

esempio: (50 neonati)

modalitàxi

frequenzaassoluta

ni

frequenzarelativa

pi

frequenza relativapercentuale

pi (%)

normale 35 0.70 70%

forcipe 1 0.02 2%

cesareo 14 0.28 28%

TOTALE 50 1.00 100%

MODA o classe modale

Page 7: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MA LA MODA E’ SEMPRE UNA MA LA MODA E’ SEMPRE UNA SOLA?SOLA?

0

0,05

0,1

0,15

0,2

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

0

0,05

0,1

0,15

0,2

0,25

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

0

0,05

0,1

0,15

0,2

0,25

<106 106-115

116-125

126-135

136-145

146-155

156-165

>=166

pressione sistolica (mmHg)

freq

. rel

ativ

a

Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei).Winkelstein et al. Am J Epidemiol 1975; 102:502-13.

NATIVI GIAPPONESI

ISSEI NISEI

Page 8: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MEDIANAMEDIANA

Il valore centrale di una serie ORDINATA di dati

Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali

Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile

se n è dispari

Me = x[(n+1)/2]

se n è pari Me = [xn/2 + x(n/2+1)] / 2

Page 9: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

es. sulla mediana

50 cm150 cm 155 cm165 cm 180 cm

campione di 5 unità

variabile d’interesse = altezza

1. ordino le unità secondo un ordine crescente di altezza

Page 10: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

50 cm 150 cm 155 cm 165 cm 180 cm

2. identifico l’unità centrale nella serie ordinata di dati

es. sulla mediana

campione di 5 unità

variabile d’interesse = altezza

Page 11: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

50 cm 150 cm 155 cm 165 cm 180 cm

2. la mediana è il VALORE che la variabile altezza assume sull’unità che divide il campione in due parti numericamente uguali

Page 12: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

NB: le misure di posizione sono valori, NON frequenze!

50 cm 150 cm 155 cm 165 cm 180 cm

n è dispari Me = x[(n+1)/2] = x(5+1/2) = x3

formalmente:

14

3

5

2

Page 13: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

ESERCIZIO-IIESERCIZIO-III dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

9 11,4 12,99,3 11,4 139,4 11,4 13,19,7 11,5 13,110,2 11,6 13,210,2 11,6 13,310,3 11,7 13,310,4 11,7 13,410,4 11,8 13,410,5 11,8 13,510,6 11,9 13,510,6 11,9 13,610,7 12 13,710,8 12 13,710,8 12,1 14,110,9 12,1 14,610,9 12,1 14,610,9 12,2 14,711 12,3 14,911 12,5 15

11,1 12,511,1 12,711,2 12,911,2 12,911,3 12,9

2. Raggruppate i dati in intervalli di ampiezza 1 g/100 ml.

3. Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).

Page 14: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MEDIA ARITMETICAMEDIA ARITMETICALa media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni

9.128/1038/)13135112713165( x

Formalmente: siano (x1, x2, … , xn) le osservazioni della variabile X su un campione di n unità statistiche, allora

nxxxnxx n

n

ii /)..(/ 21

1

5 16 13 27 11 5 13 13esempio:

(8 osservazioni)

x1 x2 x3 x4 x5 x6 x7 x8x1 x2 x3 x4 x5 x6 x7 x8

Page 15: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MEDIA ARITMETICA PONDERATA - IMEDIA ARITMETICA PONDERATA - I

n

nxnxnx

n

nxx kk

k

iii

..22111

Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione

k = numero di valori che la variabile può assumere

xi = i-esimo valore assunto dalla variabile i-esimo

ni = frequenza corrispondente al valore xi

Page 16: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

9.128/1038/)2716391110( x

xi ni xini

5 2 10

11 1 11

13 3 39

16 1 16

27 1 27

Totale 8 103

x1

x2

x3

x4

x5

x6

x7

x8

51613271151313

esempio sulla media aritmetica ponderata:

n

nxnxnx

n

nxx kk

k

iii

..22111

k = numero di valori che la variabile può assumerexi = valore assunto dalla variabile nel sogg. i-esimoni = frequenza corrispondente al valore xi

la variabile può assumere 5

valori (k = 5)

Page 17: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

età ni xi xini

5-9 2 7 14

9-13 2 11 22

13-17 5 15 75

17-21 1 18 18

tot 10 129.12.9.129/10/)..( 882211 nnxnxnxx

n

nxnxnx

n

nxx kk

k

iii

..22111

k = numero di classi della variabile xi = valore centrale della classe

ni = frequenza corrispondente al valore xi

La media ponderata si applica anche alla distribuzione di frequenza di una var. quantitativa continua

Page 18: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto:

n

ini xxxxxxxx

121 0)(..)()()(

scarto (distanza) della prima osservazione dalla

media media aritmetica = punto ‘centrale’ della distribuzione

PRIMA PROPRIETA’ DELLA PRIMA PROPRIETA’ DELLA MEDIA ARITMETICAMEDIA ARITMETICA

la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero

Page 19: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

ESERCIZIO-IIIESERCIZIO-III

i) Determinate la media della distribuzione;

ii) Verificate la I° pproprietà della media

--------------------------------------------- CLASSE PUNTO FREQUENZA CENTRALE ASSOLUTA xi*ni (xi) (ni)---------------------------------------------[9-10) 9.5 4 38.0[10-11) 10.5 14 147.0[11-12) 11.5 19 218.5[12-13) 12.5 14 175.0[13-14) 13.5 13 175.5[14-15] 14.5 6 87.0 ---- ------- TOTALE 70 841.0

I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:

Page 20: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

TIPO DI OPERAZIONI

VARIABILE CONSENTITE MODA MEDIANA MEDIA

nominale =

ordinale = < >

quantitativa = < > – + (/ *)

QUALE MISURA DI POSIZIONE QUALE MISURA DI POSIZIONE UTILIZZARE?UTILIZZARE?

Sì Sì

Sì Sì Sì

No No

No

Page 21: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MEDIA ARITMETICA

MEDIANAMODA

Facile da trattare matematicamente

Utilizza tutta l’informazione

contenuta nei dati

CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA

E’ inaffidabile in caso

di distribuzioni asimmetriche

Difficile da trattare

matematicamente

Dipende dal raggruppamentoarbitrario dei dati

Varia molto da campione a campione

Buona misura con distribuzioni

asimmetriche (es. tempo di

sopravvivenza)

Buona misura quando un valore ha una frequenza

relativa molto elevata

Buona misura con distribuzioni

simmetriche (es. molti parametri

biologici)

Page 22: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA

CAMPIONE 4 5 12 3 4 4 95 8 6

Moda = 4

Mediana = 5

Media ≈ 16 (senza outliers sarebbe circa 6)

esempio:Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni)

La media aritmetica è poco “robusta” in presenza di valori anomali (outliers)!

Page 23: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Moda> Mediana> Media

ASIMMETRIA

NEGATIVA

Moda< Mediana< Media

ASIMMETRIA POSITIVA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6

Moda= Mediana = Media

SIMMETRIA

RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICARELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA

Page 24: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

1. CAMPO DI VARIAZIONE (range)

2. DISTANZA INTERQUARTILE

3. VARIANZA

INDICI DI DISPERSIONEINDICI DI DISPERSIONE(measures of dispersion)

6. COEFFICIENTE DI VARIAZIONE

Page 25: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Range = xmax - xmin

differenza tra il valore massimo e il valore minimo osservati

RANGE (CAMPO DI VARIAZIONE)RANGE (CAMPO DI VARIAZIONE)

Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi

E' molto influenzato da osservazioni anomale (outliers)

Tende ad aumentare al crescere del numero delle osservazioni

Page 26: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11 Range = xmax - xmin = 17 - 0 =17

num. linfonodi metastatici

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10 Range = xmax - xmin = 10 - 0 =10 = (0,10)

num. linfonodi metastatici

Variazione del numero di linfonodi metastatici

Page 27: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

IQR = Q3 - Q1

differenza tra il III°quartile (Q3) ed il I°quartile (Q1)

DISTANZA INTERQUARTILEDISTANZA INTERQUARTILE

In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione.

Non è influenzata da osservazioni anomale o estreme.

Page 28: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Statura Freq. Cumul.

162 1 1

168 1 2

169 1 3

170 3 6

172 2 8

174 2 10

175 5 15

176 3 18

177 3 21

178 3 24

179 1 25

181 1 26

182 2 28

183 2 30

184 1 31

188 1 32

192 1 33

193 1 34

Totale 34

MASCHI

esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96)

Range = xmax - xmin = 193 - 162 = 31 cm

mediana (range) = 176 (162-193) cmmediana (IQR) = 176 (174-181) cm

Calcolo del I° quartile:

(rango percentilico = 25)

1. rango = (34+1) * 25 / 100

= 35 / 4 9

2. I° quartile = 174 cm

Calcolo del III° quartile:

(rango percentilico = 75)

1. rango = (34+1) * 75 / 100

= 35 * 3 / 4 26

2. III° quartile = 181 cmIQR = Q3 - Q1 = 181 - 174 =

7 cm

Page 29: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Deviazione standard:

2iD (x -x)

2 Ds =

n-1

2s s

Varianza campionaria:

Devianza:

Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti

La Varianza

La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).

x

Page 30: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Calcolo della deviazione standard (d.s)

0

2

4

6

8 x

x

x xi= 2 + 5 + 8=15

devianza = (2 - 5)2 + (5 - 5)2 + (8 - 5)2

= 18

S2 = 18/2 = 9

d.s = 3

X = 5

Page 31: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

Interpretazione della deviazione standard (SD) in una distribuzione simmetrica (Gaussiana)

Page 32: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

In alcune situazioni il confronto della variabilità all’interno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante

Due variabili diverse:

In 91 ragazze matricole di Medicina a Verona nell’A.A. 95/96,

la media del peso era pari a 55.1 Kg e la deviazione standard era pari a 5.7 Kg,

la media della statura era pari a 166.1 cm e la deviazione standard era pari a 6.1 cm.

E’ maggiore la variabilità del peso o la variabilità della statura?

1. Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)

Page 33: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

1. La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza)

Due gruppi con valori medi molto distanti:

Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media = 4 Kg; dev.st. = 1 Kg).Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media = 11 Kg; dev.st. = 1 Kg).

La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisceche la variabilità del peso sia maggiore nei neonati.

Page 34: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

COEFFICIENTE DI VARIAZIONE COEFFICIENTE DI VARIAZIONE PERCENTUALE PERCENTUALE

CV% = (deviazione standard / media) *

100%

Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di

misura delle osservazioni

Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 %

Bambini 1 anno 11 Kg 1 Kg 9.1 %

La variabilità del peso è maggiore nei neonati.

Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 %

Statura 166.1 cm 6.1 cm 3.7 %

La variabilità del peso è maggiore della variabilità della statura.

Page 35: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

MISURE PONDERATE (POOLED)MISURE PONDERATE (POOLED)

Molto spesso è necessario riassumere l’informazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti

Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B

in A la % di guarigioni è del 25% su 100 pazienti

in B la % di guarigioni è del 35% su 300 pazienti

Considerando le due sperimentazioni, qual è la % di successo del farmaco?

Page 36: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

325.0300100

30035.010025.0

pooledP

In generale se si dispone di k campioni e su

ognuno di essi è calcolata una misura di sintesi mi

con fattore di ponderazione wi (in genere la

numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:

i

k

iii

p w

mwm 1

Page 37: LEZIONI DI STATISTICA MEDICA Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Prof. Roberto de Marco Lezione n.4 - Misure

mesixp 45.243080

300.27805.23

esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente:

A = 23.5 mesi n = 80

B = 27.0 mesi n = 30

Calcolare il tempo di sopravvivenza medio relativo ai due centri

Ax

Bx