25
Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Embed Size (px)

Citation preview

Page 1: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Biostatistica(SECS-S/02 )

STATISTICA PER LA RICERCA SPERIMENTALE E

TECNOLOGICAIncontro 2

13 Ottobre 2011

Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Page 2: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Medie di potenze di ordine k

• A volte può essere interessante calcolare la media di variabili trasformate del tipo x2 , x3 , x1/2 o in generale xk,definite come :

.1

ki

kik pxM

• Per frequenze ni=1 la media di potenza di ordine k si definisce come:

.1

1

kkik x

nM

Il ricorso ad una particolare potenza delle variabili dipende in generale dalla funzione di invarianza individuate dalle somme

ik

i nx kix oppure

Page 3: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Media quadratica (momento di ordine 2)

• Esempio: Due piastre quadrate hanno lato x1=3 e x2=5 .Si desidera sostituirle con 2 piastre uguali che mantengono invariata la superficie totale (32+52=34 ).Il lato delle nuove piastre è

.2

3411 22

1

22

ii x

nx

nM

Page 4: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Media Geometrica (k→0)• È usata in campi come la microbiologia o sierologia ,quando le

osservazioni sono espresse in titoli ,i cui valori sono multipli dello stesso fattore di diluizione .

• Per n osservazioni la media geometrica è la radice n-esima del prodotto delle osservazioni :

)log(1

)log(

0

i

ni

xn

G

xGM

Page 5: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Media Geometrica(Esempio)

• Il numero di mosche presenti in una popolazione di laboratorio è costituita originariamente da 100 elementi,viene rilevato in 3 periodi successivi.

• Al primo conteggio le mosche sono 112 ,al secondo 196 ,al terzo 369.

• Qual è il tasso di incremento medio della popolazione ?• Gli incrementi osservati nei tre periodi sono:

88.1196

36975.1

112

19612.1

100

112

36954.1*54.1*54.1*100

54.1)1888.0log(

1888.05664.0*3

1)log(

3

1)log(

antiG

xG i

Il tasso di incremento medio della popolazione è del 54%

Page 6: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Media Armonica (k=-1)

• Adatto per valori espressi come rapporti X=Y/Z• La prima formula vale se Y è costante ,la

seconda ha valenza generale

i

i

i

in

xn

nM

x

n

nxxx

M

1

21

1 11...........

111

Page 7: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio(Media Armonica)

• Una certa proteina viene studiata mediante elettroforesi;si vuol conoscere la velocità di migrazione media . La proteina viene fatta correre sul gel in un campo elettrico per 20mm e viene misurato il tempo necessario a percorrere questa distanza in 5 prove diverse.

Prova Tempo

(s)

Velocità

(mm/s)

1

2

3

4

5

40

60

30

50

70

250

20/40=0.05

20/60=0.33

20/30=0.66

20/50=0.40

20/70=0.29

2.186

Page 8: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio(Media Armonica ) (2)

• La media aritmetica della velocità è 2.186/5=0.4372 è diversa dalla velocità media ; il totale del cammino percorso nelle 5 prove è (20*5)mm=100mm,mentre questa risulterebbe pari a 109.3mm=0.4372*250.

• Invece usando la media armonica la distanza risulta invariata!

mm

M

1004.0*250

4.0

29.01

40.01

66.01

33.01

5.01

51

Page 9: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Indici di dispersione

• Limite degli indici di tendenza centrale:l’informazione fornita dalla misura di tendenza centrale(moda,media,mediana) può risultare più o meno affidabile a seconda della dispersione dei dati e della forma della distribuzione :è molto buona se le osservazioni sono poco disperse e simmetriche generica se la variabilità è ampia .

• Il ‘Campo di variazione’ (range) offre una prima informazione sulla dispersione campionaria :è la differenza tra i valori estremi delle osservazioni. Indicando con x(1) il più piccolo e con x(n) il più grande di n valori osservati il range risulta :

)1()( xxW n • È poco affidabile perché

dipende fortemente dal numero di osservazioni e dai valori estremi

Page 10: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Tabella riassuntiva indici di tendenza centrale

Page 11: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio:

Misura del quoziente d’intelligenza in due diversi campioni

80 90 100 110 120

0.0

0.1

0.2

0.3

0.4

x

1/s

qrt

(2 *

pi)

* e

xp

(-0

.5 *

(x -

10

0)^

2)

80 90 100 110 120

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x, 1

00

, 5

)

•In entrambe i casi la media è 100 ,ma mentre nella figura 1 il valor medio è molto rappresentativo della distribuzione ,nel secondo caso,dove i dati sono maggiormente dispersi il valor medio non rispecchia del tutto la distribuzione dei dati.

Page 12: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Indici di dispersione

Page 13: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Indici di dispersione(Sum of Squares e Varianza )

• Per operare confronti tra collettivi formati da un diverso numero di individui si utilizza la varianza :

Page 14: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Indici di dispersione

Page 15: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Standard Error (Errore quadratici Medio) e Coefficiente di Variazione(CV)

Page 16: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio(Indici di dispersione)

Page 17: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio2 (Concentrazione media di un fitofarmaco)

Page 18: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio2 (Concentrazione media di un fitofarmaco)(2)

Page 19: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Trasformazioni lineari

• Sia nota la media μx e la varianza σ2x di una variabile X .

• Y=a+bX con a e b costanti arbitrarie .

• Definiamo il valore atteso E(X)= μx e V(X)= σ2x .

XY

XY

bbXVaVbXaVYV

babXEaEbXaEYE222 0)()()()(

)()()()(

• Il valor atteso (media ) è un operatore lineare • La varianza è un operatore quadratico

Page 20: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Tabella a doppia entrata(Esempio1)

Indipendentemente dal tipo di variabili in studio, quando si ha a che fare con un numero notevole di individui è possibile costruire delle tabelle di contingenza: si tratta di tabelle a due entrate nelle quali ogni numero rappresenta la frequenza congiunta (in genere assoluta) per una particolare coppia di valori delle due variabili. Ad esempio consideriamo le variabili di fantasia X=Varietà (con i valori SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO, OVALE), nella tabella a seguire il valore 37 indica il numero di individui che presentano congiuntamente la modalità SANREMO e la modalità LUNGO .I totali mostrano le frequenze marginali delle due variabili separatamente. Ogni riga della tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata della variabile Y, dato un certo valore della X (Y|SANREMO e Y|FANO). Viceversa ogni colonna (X|LUNGO, X|TONDO e X|OVALE).

Lungo Tondo Ovale Totale

Sanremo 37 32 61 130

Fano 45 74 69 178

Totale 82 106 120 308

Page 21: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

In simboli:Tavola di contingenza generica

Y1 … Yj … Yk Totale

X1 n11 … n1j n1k n1.

… … … … … … …

Xi ni1 … nij … … ni.

… … … … … … …

Xh nh1 … nhj … nhk nh.

Totale n.1 n.j n.k n

Page 22: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Tavole di contingenza :Dipendenza

Se guardiamo le due distribuzioni condizionate Y|SANREMO e Y|FANO possiamo notare che esiste una certa differenza. Potremmo chiederci quindi se il presentarsi di una data modalità del carattere X (SANREMO o FANO) influenza il presentarsi di una particolare modalità del fenomeno Y. Se ciò non è vero si parla di indipendenza delle variabili (allora le distribuzioni condizionate sono uguali) altrimenti si parla di dipendenza o connessione. In caso di indipendenza, le distribuzioni condizionate di Y dovrebbero

essere uguali tra loro e alla distribuzione marginale di X. In simboli:

n

nnn

n

n

n

n jiij

i

j

ij ...

.

*

Page 23: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Indice χ2

A questo punto è logico costruire un indice statistico di connessione, detto χ2 che misuri lo scostamento tra le frequenze osservate e quelle attese nell'ipotesi di

indipendenza perfetta:

dove nij è frequenza osservata ed nij* frequenza attesa nel caso indipendenza perfetta. Questo indice assume valore pari a zero nel caso di indipendenza completa (le frequenze osservate sono uguali a quelle attese) ed assume un valore positivo tanto più alto quanto maggiore è la connessione tra i due caratteri.

ij

ijij

n

nn*

2*2 )(

Page 24: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Calcolo e proprietà dell’indice V di Cramer

• Nel caso in esame :

22.10....7.44

)7.4432(

6.34

)6.3437( 222

• Per valutare il significato del valore ottenuto, nel campo della statistica descrittiva si suole dividere l'indice per il suo valore massimo, che è proporzionale al numero di righe e di colonne della tabella:

0.1821588 308

22.10

)max(

)1,1min(*)max(

22

2

2

V

khn

• 0≤V ≤1

• V=0 se i caratteri sono indipendenti

• V=1 se viè dipendenza o interdipendenza perfetta

Page 25: Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Università degli Studi di Pisa Facoltà di Scienze

Esempio:Presenza assenza di virosi in un campione di piante di frumento di varietà differenti

Si No

C 4 3

N 3 3

S 2 1

V 2 20.1178983

20

27898.0

)12,14min(

2

n