39
Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Embed Size (px)

Citation preview

Page 1: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Biostatistica(SECS-S/02 )

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Incontro 1

10-Ottobre-2011

Luigi Marangi

Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Page 2: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Biostatistica :Statistica applicata alla ricerca biologica

• Testo di riferimento:

Metodi Statistici per la Sperimentazione Biologica

A.Camussi,F.Moller,E.Ottaviano,M.Sari Gorla

Zanichelli Editore

Page 3: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Biostatistica :Statistica applicata alla ricerca biologica

• Calcoli elementari possono esser svolti con normale foglio elettronico(p.e. excel)

• Software di Calcolo(dedicato alla Statistica):

The R Project for Statistical Computing

http://www.r-project.org/

Page 4: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Biostatistica :Statistica applicata alla ricerca biologica

Programma del corso• Statistica descrittiva (Cap.1)• Nozioni del calcolo delle probabilità(Cap. 2 )• Campionamento• Stima di parametri di distribuzioni• Test delle ipotesi• Analisi della varianza • Il modello di regressione lineare • Dati Categoriali

Page 5: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Biostatistica :Statistica applicata alla ricerca biologica

Orari Lezioni:• Lunedi 16.00-18.00 Aula D4 Polo Fibonacci(Lezione

Frontale)• Giovedi 09.00-11.00 Aula D4 Polo

Fibonacci(Lezione Frontale)• Venerdi 14.00- 18.00 Aula H-Lab Polo

Fibonacci(Esercitazione) Ricevimento studenti: da definire

Page 6: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Progetto di ricerca :Varicella• Infezione causata dal virus “VZ”, famiglia degli herpes virus

3 (HHV-3).• Prevalentemente “dell’infanzia”.• Trasmissione per contatti diretti con soggetti infettivi.• Durata fase infettiva circa 7 giorni.• Immunità permanente dopo la guarigione.• Il virus resta però latente nel corpo e, quando il grado di

immunocompetenza inizia a declinare con l’età, può riattivarsi “endogenamente” causando l'herpes zoster (“fuoco di Sant'Antonio”).

Page 7: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Progetto di ricerca :Dati sierologici• Dato più comune per infezioni

con immunità permanente (es. morbillo, varicella, parotite).

• Dato “current-status”: osserva lo stato immunologico corrente dell’individuo campionato (mediante esame della titolazione anticorpale IgG nel sangue)

• VA dicotomica (0=suscettibile all’infezione,1=immune, come conseguenza di passata infezione).

• Campione sierologico: campione cross-sezionale che stima la prevalenza di immuni per classi di età nella popolazione al tempo t.

Varicella in Italia:•campione sierologico ESEN 2 (2004)•n=2446 individui,•stratificato per classi d’età annuali

0 10 20 30 40 50 600.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ETA IN CLASSI ANNUALI

PR

OF

ILI

DI

SE

RO

PR

EV

ALE

NZ

A

DATI SIEROLOGICI IN CLASSI ANNUALI

Page 8: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Introduzione 1: Diagnosi Medica e Logica Statistica

Paziente = Unità di osservazione Rilevamento dati

Temperatura corporea = dato quantitativo Presenza/Assenza di una certa sintomatologia = dato qualitativo

Confronto con valori normali o patologici (parametri di popolazione) Relazione con altre caratteristiche rilevate sullo stesso soggetto Diagnosi sullo stato di salute del paziente (Decisione)

• Altri esempi Effetto del fumo sull’incidenza dei tumori polmonari Efficacia di un certo dentifricio per la prevenzione della carie Guarigione del raffreddore ottenuta con l’impiego di un certo prodotto farmaceutico

Page 9: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Introduzione 2:Considerazioni

Analisi non rigorose →Affermazioni fuorvianti

Affermazione 1: “Il prodotto X è particolarmente efficace contro il raffreddore: su 100 pazienti

trattati,ben 95 hanno mostrato completa remissione della malattia dopo una settimana di cura”

Osservazione:L’affermazione è poco v erificabile dato che ,dopo una settimana il raffreddore

passa comunemente anche senza nessun trattamento!

Affermazione 2 :“Il 75% degli intervistati ha dichiarato di essere favorevole ad un certo partito

politico”Osservazione:Il risultato non è attendibile se la numerosità del campione è piccola rispetto

alla popolazione degli aventi diritto al voto ed inoltre non sappiamo nulla sulla composizione del campione (è rappresentativo dell’intera popolazione?)

Page 10: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Introduzione 3:Biometria - Metodologia Statistica

• Definizione del problema• Formulazione ipotesi precisa• Organizzazione dell’esperimento adatto a verificarla Il rilevamento deve essere basato su criteri precisi• Analisi dei dati ottenuti I dati grezzi devono essere sintetizzati per poter essere interpretati• Valutazione Errore Sperimentale :insieme delle variazioni dovute a fattori

non controllati Gli effetti dell’errore sperimentale si sovrappongono a quello del fattore di studio

Esempio - Studio dell’efficacia di un nuovo farmaco•L’effetto misurato sul singolo soggetto dipende non soltanto dalle caratteristiche del principio attivo impiegato ,ma anche dalle condizioni del paziente in termini di età ,stadio della malattia,malattie pregresse, modalità di somministrazione (fattori di disturbo) .•Disegno sperimentale adeguato: valutazione dell’efficacia del farmaco,indipendentemente da tutti gli altri fattori.

Page 11: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Introduzione 4:Branche della statisitica

• Statistica descrittiva: Insieme delle tecniche per:

la rappresentazione grafica dei dati , la sintesi dei dati grezzi in pochi numeri-indice particolarmente informativi,per esempio

una media aritmetica o una mediana (spesso è la base per condurre un’analisi inferenziale)• Statistica inferenziale : Insieme delle tecniche per definire le caratteristiche di una popolazione ,della quale

non si può avere una conoscenza esaustiva ,attraverso lo studio di un campione da essa estratto.

Esempio: Efficacia di un farmaco ipotensivo Il farmaco è somministrato ad un campione di soggetti ipertesi : viene misurato la

variazione della pressione arteriosa dopo il trattamento . La descrizione accurata delle caratteristiche del campione porta a delle

conclusioni che possono essere applicate ad altri soggetti (popolazione costituita da tutti i soggetti ipertesi),anche se essi non potranno essere singolarmente studiati

Considerazioni : Il capionamento è necessario(elevato costo)Campione di controllo a cui è somministrato ‘Placebo’ (Disegno sperimentale Caso-Controllo)

Page 12: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Statistica Descrittiva 1:Insieme e Variabile

• Descrizione dei fenomeni quantitativi e qualitativi osservati

• Insieme (‘Popolazione’): collezione di qualsiasi tipo di oggetti,individui,animali,piante,fenomeni che presentano almeno una caratteristica comune

(Biologia): gli elementi di una categoria tassonomica ,una specie ,un genere .

(Medicina): gruppi di sintomi che costituiscono una sindrome o i pazienti ricoverati in un reparto ospedaliero.

Page 13: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Statistica Descrittiva 2:Insieme e Variabile• Variabile : entità logica,caratteristica che può

assumere diversi valori,i quali costituiscono quindi un insieme

• Variabile qualitativa: la caratteristica varia qualitativamente secondo le modalità con cui può presentarsi: Colore del mantello di un animale, Forma della foglia di una pianta

• Variabile quantitativa : la caratteristica è misurabile in termini quantitativi . Discreta se assume valori isolati; numero di ammissioni giornaliere in un ospedale; numero di colonie batteriche su una piastra Continua se assume tutti i possibili valori reali in un certo

intervallo ;– Peso, Taglia degli individui di una colonia di foche ;– Età degli individui di una popolazione.– Temperatura.

Page 14: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Un po’ di esempi

• Gruppi sanguigni in un gruppo di individui di razza caucasica.

• Valutazione della risposta all’applicazione di un farmaco ad n pazienti.

• Indici di tendenza centrale e grafici per un campione di piante di mais di diverse varietà ed altezze.

• Votazione riportata all’esame di genetica di un campione di studenti .

• Peso di un campione di polli da da allevamento

Page 15: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Dato: gruppo sanguigno in n=149 soggetti di razza caucasica

Individuo Gruppo sanguigno1 B2 A3 A4 A5 06 A7 B8 09 0

10 A11 A12 AB

• Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica.

Page 16: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Dati Qualitativi (Scala di Misura Nominale)

xi A B AB 0

ni

pi*100

60

40.3

16

10.7

7

4.7

66

44.3

• Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica.

4

1

4

1

100100

149

ii

ii

p

n

• Scala Nominale: i dati costituiscono delle “etichette” • Per descrivere i dati si raggrupano in classi, in ognuna delle quali sono

raccolte tutte le osservazioni che presentano la stessa caratteristica . ottiene la proporzione (o la percentuale ) degli elementi che presentano l’attributo.

• Altri esempi: il carattere “sesso” in una popolazione sessuata, etc.

Page 17: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Statistica Descrittiva: Frequenze assolute e relative

• Si indica con X la variabile e con x1, x2, x3,……,xn, i singoli valori assunti dalla variabile X, dove n è il numero di osservazioni : un generico membro del gruppo di osservazioni è indicato con xi, dove i=1…..n.

• Frequenze Assolute:se in un campione sono presenti più elementi con lo stesso valore(misura),il loro numero è indicato con ni.

• Frequenze relative(proporzioni) pi:valore compreso tra 0 e 1 .

c

c

n

x

nn

xxX

...

...:

21

21

cinxX ii ...1},{

nnc

ii

11

c

i

ii

p

n

np

Page 18: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

(Dati Qualitativi) Scale di Misura Ordinali

• Scala ordinale: E’ possibile assegnare ad ogni osservazione un valore numerico,un punteggio arbitrario che dà ordine alla classificazione .

Criterio

di classificazione

Punteggio o ‘SCORES’

xi

Frequenze Ass.ni

Freq. Relative.pi

Freq. Perc. (%)

Peggioramento

Nessuna Var.

Lieve Miglior.

Miglioramento

Guarigione

-1

0

1

2

3

3

4

15

52

26

0.03

0.04

0.15

0.52

0.26

3%

4%

15%

52%

26%

• Esempio: Valutazione della risposta all’applicazione di un farmaco ad n pazienti.

5

1

100i

in

5

1

1i

ip

Page 19: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Dati Quantitativi.

• Scala numeriche:Possono essere scale per intervalli oppure per rapporti. La scala per intervalli è adatta a descrivere fenomeni in cui l’origine dell’unità di misura

è scelta arbitrariamente (es: temperatura) La scala per rapporti è invece riferita a fenomeni che presentano un’origine naturale .

• Esempio (Scala numerica per intervalli):Temperatura corporea di un campione di 10 soggetti espressa in gradi centigradi e Fahrenheit.

Soggetto ° Celsius ° F

1

2

3

4

5

6

7

8

9

10

36.2

36.5

36.8

36.4

36.7

36.8

36.5

36.4

37.0

36.1

97.16

97.70

98.24

97.50

98.06

98.24

97.70

97.52

98.60

97.00

Page 20: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio scala numerica per intervalli (temp. °C e °F)

• Per le 2 serie ha senso fare le differenze tra le misurazioni (consideriamo i soggetti 3,4,9 )

Differenze tra soggetti °C °F

9 e 3

3 e 4

37.0-36.8=0.2

36.8-36.4=0.4

98.60-98.24=0.36

98.24-97.52=0.72

• La differenza di temperatura tra i soggetti 3 e 4 è il doppio di quella tra i soggetti 9 e 3 per entrambe le scale , mentre per i rapporti si nota che tale uguaglianza non sussiste !

Rapporto tra soggetti °C °F

9 e 3

3 e 4

37.0/36.8=1.005

36.8/36.4=1.010

98.60/98.24=0.9833

98.24/97.52=1.007

Page 21: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Scala numerica continua per rapporti

Esempio: Valori di glicemia in un campione di 10 soggetti sani ,espressi in mg di glucosio per 100 ml di sangue.

soggetto mg/ml

1

2

3

4

5

6

7

8

9

10

65.5

80.0

92.8

90.2

100.5

95.0

98.0

70.3

80.0

105.5

Page 22: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Scala numerica discreta

Esempio: Numero delle aree di necrosi sulle foglie di 10 piante affette da virosi .

pianta n. aree=X

1

2

3

4

5

6

7

8

9

10

28

36

19

26

18

20

32

19

8

23

Page 23: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Distribuzioni di frequenza: tabelle e grafici di frequenza • La frequenza assoluta è il numero degli individui che presentano una

certa misura (per un carattere quantitativo) o una certa modalità (per un carattere qualitativo).

Esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri è pari a 100.

• Con variabili quantitative su scala continua, prima di calcolare le frequenze è necessario suddividere l’intervallo delle misure in una serie di classi di frequenza.

Esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato che 115 hanno altezze comprese tra 150 e 155 cm, possiamo conclude che la frequenza degli individui della classe 150-155 cm è pari a 115.

• Le frequenze relative, che si calcolano dividendo le frequenze assolute per il numero totale degli individui del collettivo.

Esempio,la frequenza relativa degli eterotteri è pari a 100/500, cioè 0.2, mentre la frequenza relativa degli individui nella classe 150-155 è pari a 115/3000, cioè 0.038.

Page 24: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Distribuzioni di frequenza: tabelle e grafici di frequenza 2

• Con una variabile quantitativa o comunque una variabile nella quale le modalità o le classi di frequenza possono essere logicamente ordinate, oltre alle frequenze assolute e relative possiamo prendere in considerazione le cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte le classi di frequenza che precedono quella considerata.

Esempio se tra le 3000 piante di mais anzidette 224 hanno altezze comprese tra 155 e 160 cm, la frequenza cumulata della classe è pari a 224+115 = 339, che si ottiene sommando alla frequenza assoluta di classe la frequenza assoluta della classe precedente.

• Aggregare i dati in forma di distribuzioni di frequenza è estremamente conveniente, perché la lettura delle informazioni in essi contenute è molto più facile! Il prezzo da pagare è una lieve perdita di informazione, come sarà chiaro nell’esempio seguente.

Page 25: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio (Distr. Freq. ,Grafici e Tabelle di Freq.)• In un campo di mais sono state rilevate su 20 piante le altezze e la varietà di

ciascuna pianta.

Numero Piante Varietà Altezza(cm)

1 N 172

2 S 154

3 V 150

4 V 188

5 C 162

……. …. …..

…….. …… ……

……. ……. ……

16 C 163

17 V 148

18 S 152

19 C 169

20 C 185

Page 26: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio (Distr. Freq.)2• 1 - valutare la distribuzione delle frequenze assolute, relative e percentuali degli

individui di ciascuna varietà; • 2 - valutare la distribuzione delle frequenze assolute, relative, percentuali assolute

cumulate dell'altezza di tutti gli individui; • 3 - Disegnare la torta delle frequenze relative della varietà e l'istogramma delle

frequenze assolute dell'altezza.

Varietà C N S V

Freq ass 7 6 3 4

Freq rel 0.35 0.30 0.15 0.20

Freq perc 35 30 15 20

Altezza (140,150] (150,160] (160,170] (170,190] (190,200]

Freq ass 4 5 4 6 1

Freq rel 0.20 0.25 0.20 0.30 0.05

Freq Perc 20 25 20 30 5

Freq Cum 4 9 13 19 20

Page 27: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

C

N

S

V

Output:Grafico a torta ed istogramma classi

01

23

45

6

Freq

uenz

a

(140,150] (150,160] (160,170] (170,190] (190,200]

Page 28: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Densità di frequenza

• Le densità di frequenza rappresentano la frequenza associata a ciascun punto dell'intervallo della classe. Si cerca in questo modo di evitare che classi molto ampie abbiano frequenze più alte di classi più rappresentative, ma molto strette.

Esempio, se ho due classi di altezza, la prima da 160 a 165 cm e la seconda da 165 a 175 cm e ho 5 individui nella prima classe e 5 nella seconda, è chiaro che la seconda classe contiene lo stesso numero di individui della prima, ma è molto più ampia. Se usiamo le sole frequenze non riusciamo ad evidenziare questo fatto, ma se dividiamo la frequenza di classe per l'ampiezza dell'intervallo otteniamo appunto la densità di frequenza:

d=ni/ai ,dove ai è l’ampiezza della classe i

Nota: In R il comando hist fa riferimento alle frequenze relative

d=pi/ai

Page 29: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio :Campo di Mais(Classi non equispaziate)

• 4 - Calcolare le densità di frequenza per l'altezza delle 20 piante e disegnarne i relativi istogrammi. Considerare le seguenti classi: (130-160], (160-170], (170-190].

Histogram of Altezza

Altezza

De

nsity

130 140 150 160 170 180 190 200

0.0

00

0.0

05

0.0

10

0.0

15

0.0

20

Page 30: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Distribuzioni o funzione di frequenza per variabili discrete

1

0

)()(

i

i

iii

p

p

xPxXPp

Densità di frequenza(funzione di densità) per variabili continue

1

)()(

1)(

0)(

)(

i

i

x

x

i dxxfxP

dxxf

xf

xfY

Page 31: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Distribuzioni Cumulative per variabili discrete

• Si definisce funzione cumulativa delle frequenze o semplicemente funzione di distribuzione (o di ripartizione) la funzione :

)()( xFxXP • Per variabili discrete la funzione di ripartizione si ottiene dalla funzione

di frequenza come:

n

xXiiii

xXper

xXper

xF

con

pxXPxFFi

1

0

)(

)()(

1

Page 32: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

rappresenta la probabilità che la variabile statistica X cada nell’intervallo -∞ ,x ; quindi:

x

duufxXPxF )()()(

Distribuzioni Cumulative per variabili discrete

xper

xper

xF

1

0

)(

Graficamente F(x) rappresenta l’area sottesa alla curva dall’estremo di sinistra (-∞ )della distribuzione delle frequenze relative ,fino al valore x.

Page 33: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio(funzione di frequenza e di ripartizione per varable discreta )

• Nel lancio di un dado i possibili valori di x sono: 1,2,3,4,5,6. La funzione di frequenza :

0.0

0.2

0.4

0.6

0.8

1.0

x

Fre

qu

en

za

1 2 3 4 5 6 0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

Funzione di ripartizione

x

F(x

)

Page 34: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Misure di posizione (Indici di tendenza centrale).

• Moda: valore della variabile cui corrisponde la massima frequenza per variabili discrete,la massima densità di frequenza per variabili continue.Se questo valore è unico la distribuzione è unimodale ,bimodale se i picchi sono 2 .

• Mediana: il valore che permette di ripartire la distribuzione in 2 parti ,in ciascuna delle quali cade il 50% delle osservazioni. Se il numero delle osservazioni è dispari ci sarà un unico valore mediano ,ovvero il termine che occupa nella successione ordinata il posto di posizione (n+1)/2 ,se il numero di oss. è pari ,per convenzione è la media delle 2 oss. centrali.

• Medie: Le medie si calcolano sulle potenze k-esime delle osservazioni. Per k=1 si ha la Media Aritmetica .

Page 35: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Esempio (moda e mediana). Votazione riportata in una classe di 100 studenti all’esame di genetica

xi ni Fi

18 4 4

19 1 5

20 5 10

21 5 15

22 3 18

23 3 21

24 4 25

25 20 45

26 23 68

27 15 83

28 10 93

29 2 95

30 5 100

18 20 22 24 26 28 30

510

1520

Votazione

freq_

ass

Page 36: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

18 20 22 24 26 28 30

0.0

0.2

0.4

0.6

0.8

1.0

Funzione di ripartizione

x

F(x

)

• Moda=Mediana=26

Page 37: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

La Media Aritmetica

)(1

)(1

1

1

epopolazionxN

campionexn

x

n

ii

n

ii

Esempio E’ assegnato il peso (in Kg) rilevato su un campione di 10 polli di

allevamento: [1.9 , 2.2 , 1.8 , 2.5 , 2.8 , 3.0 , 2.0 , 2.6 , 2.4 , 2.0]

32.2)0.2....9.1(10

11

1

n

iix

nx

insieme

Definizioni:

Page 38: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Le Medie(3)• Se i dati sono raccolti in classi di frequenza la media può essere

calcolata come (media aritmetica ponderata) :

ii

i

ii pxn

xnx

Esempio: La variabile xi è il numero di colonie per piastra dopo inoculo con una sospensione batterica :

xi ni xini

0

1

2

3

4

5

12

8

6

6

4

3

0

8

12

18

16

15

39 69

Il numero medio di colonie per piastra è dato dalla media

x=69/39=1.77

Page 39: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Università degli Studi di Pisa

Le Medie(4)

• Esempio: I valori relativi al peso di 38 polli vengono raggruppati in classi di frequenza :

Classi Valore Centrale

(xi)

Freq.

Ass.

(ni)

xi*ni

1.5-2.0

2.1-2.5

2.6-3.0

3.1-3.5

1.75

2.25

2.75

3.25

5

12

15

6

38

8.75

27.00

41.25

19.50

96.50

54.238

50.96

i

ii

n

xnx

• Il valore della media risulta approssimato rispetto ai valori ottenuti usando le misure originali

• Per n abbastanza grande e distribuzioni tendenzialmente simmetriche ,gli errori tendono a bilanciarsi

• Se n è piccolo e la distribuzione non è simmetrica ,è preferibile usare i dati originali per il calcolo del valor atteso