61
LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’ Diego di Bernardo Edito da Vincenza Maselli

LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

  • Upload
    lexuyen

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 1: Cenni di probabilita’

Diego di Bernardo

Edito da Vincenza Maselli

Page 2: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CENNI DI PROBABILITÀ

La probabilità è la teoria matematica alla base della statistica.

DEFINIZIONI

Esempi:

DADO:

S = 1,2,3,4,5,6{ }

MONETA:

S = testa,croce{ }2 MONETE: S={(testa,testa) (testa,croce) (croce,testa) (croce,croce)}

xi è il valore assunto dalla v. a. X nell’esperimento i. Viene anchechiamato realizzazione.

s = x1,x2...,xN{ }

S SPAZIO DI CAMPIONI: insieme di tutti i possibilirisultati di un esperimento.

X VARIABILE ALATORIA,

X ∈ S può assumere uno deivalori di S

PROBABILITÀ:

xi ∈ S→ P X = xi( )∈ 0,1[ ]

P ha le seguenti proprietà:1.

P(X = x1) + P(X = x2) + ...+ P(X = xn ) =1

P(X = xi)i=1

N∑

2.

∀i,P(X = xi)∈ 0,1[ ]

Page 3: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempi:

S = testa,croce{ }

X ∈ S

Due dadi: abbiamo bisogno di due variabili aleatorie

S = 1,2,3,4,5,6{ }

X ∈ S

(X,Y )∈ SxS = (1,1),(1,2),(1,3)...{ }

Y ∈ S

Osserviamo:

P(X =1,Y = 2) =136

=16.16

= P(X =1)P(X = 2)

xi P(

xi)testa 1/2

croce 1/2

(xi,yi)

P(X = xi,Y = yi)

1 1 1/361 2 1/361 3 1/361 4 1/361 5 1/361 6 1/362 1 1/36… …

REGOLA 1: P(A,B) = P(A)P(B) SE E SOLO SE A e Bsono INDIPENDENTI

Page 4: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio:

S = blu,verde,marrone{ }

X ∈ S v. a. colore occhio sinistro,

Y ∈ S v. a. colore occhio destro

P(X = blu) = P(X = verde) = P(X = marrone) =13

P(X = marrone,Y = marrone)?

=P(X = marrone)P(Y = marrone) =19

è vero? Chiediamo:Nome X(o. s) Y(o.

d.)1) M M2) M M3) M M

P(X = marrone,Y = marrone) =1 X ed Y non sono INDIPENDENTI

P(X = marrone,Y = marrone) = P(X = marrone)P(Y = marrone /X = marrone) =1/3*1=1/3

Esempio:DADO:

S = 1,2,3,4,5,6{ }

X ∈ S

P(X =1− oppure − X = 2) = P(X =1) + P(X =1) =16

+16

=13

REGOLA 2:

P(A,B) = P(A)P(B /A) = P(B)P(A /B)

REGOLA 3: P(A oppure B) = P(A) + P(B)

Page 5: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CALCOLO DELLE PROBABILITÀ

Se ho N possibili risultati nello spazio S tutti equiprobabili allora

P(X = yi) =1N

Esempio: Lancio di due dadi

Ogni dado ha n = 6 possibili risultati, quindi per due (k=2) dadi avrò

N= 62 = 36 possibili risultati.

Lancio di 3 dadi N = 63

Lancio di 3 monete N = 23

Definizione matematica:

Esempi:

3! = 3*2*1=6

10! = 10*9*8*7*6*5*4*3*2*1

100! = troppo grande!

POTENZA:

N = nk numero di elementi di S per l’unione di kesperimenti, dove ogni esperimento ha n possibili risultati.

FATTORIALE

n!= (n)(n −1)(n − 2)...2*1

Page 6: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio:

k = 2 coppie di topi

n = 3 topi

topo verde

topo nero

3!(3− 2)!2!

=61*2

= 3

topo rosso

Esempio:

Coppie di topi

3!(3− 2)!

=61

= 6

COMBINAZIONI

N =n!

(n − k)!k! combinazioni di k oggetti da n oggetti

2

1

2

3

PERMUTAZIONI

N =n!

(n − k)! permutazione di k oggetti

1

2

3

4

5

6

Page 7: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

32=9

PERMUTAZIONI CON RIPETIZIONI

≡ POTENZA

N = nk

1

2

3

4

5

6

7

8

9

Page 8: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

DESCRIZIONE DI VARIABILE ALEATORIA

v. a.

X ∈ S

X = xi ∈ S→ P X = xi( )∈ 0,1[ ]P(X = xi) = pi

Esempio:

DADO

S = 1,2,3,4,5,6{ }

X ∈ S

E(X) =161+162 +

163+

164 +

165 +

166 =

216

=72

= 3,5

Esempio: somma di due dadi

E(X +Y ) = E(X) + E(Y ) = 7

VALORE ATTESO O MEDIA PESATA

µx ≡ E(X) = pixii=1

N

PROPRIETÀ DI LINEARITÀ:

E(aX ± bY ) = aE(X) ± bE(Y )

= P1x1+P2x2+…+PnXn

Page 9: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio: DADO a 7 facce

XM = 4

S = 1,2,3,4,5,6,7{ }

P(xi > XM ) = P(xi = 5) + P(xi = 6) + P(xi = 7) =37

P(xi < XM ) = P(xi =1) + P(xi = 2) + P(xi = 3) =37

Per gli spazi di S con N pari si usa la media dei valori centrali

MEDIANA:

XM ≡ M(X) = P(X = xi > xM ) = P(X = xi < xM )

VARIANZA

x2

σ ≡VAR(X) = E[(X −µx )2] = pi(xi −µx )

2

i=1

N

µx ≡ E(X)

DEVIAZIONE STANDARD

xσ = x2

σ ≡ STD(X) = VAR(X)

Page 10: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

µx ≠ µy

σ x =σ y

µx = µy

σ x ≠σ y

STD(X)STD(Y)

µx µy

XY

X

Y

µx = µy

Page 11: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

STD XY

=

XY

VAR(X)X 2 +

VAR(Y )Y 2

STD(X +Y ) ≠ STD(X) + STD(Y )STD(X ±Y ) = VAR(X) +VAR(Y )

COV(X,Y)

Se X, Y sonoindipendenti COV(X,Y)= 0

PROPRIETÀ:

VAR(aX + bY ) = a2VAR(X) + b2VAR(Y ) + 2abE[(x −µx )(y −µy )]

Page 12: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

DISTRIBUZIONE DI PROBABILITÀ

La funzione di probabilità può assumere diverse “forme”:

UNIFORME

TRIANGOLARE

UNIFORME

GAUSSIANAO

NORMALE

v. a.discreta

v.a.continua

Se X è un numero reale (es: misura dell’espressione di un gene)

P(X)

P(X)

f(X)

f(X)

b

aPARAMETRI

µx

σx PARAMETRI

Page 13: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 2: Statistica

Diego Di Bernardo

Edito da Vincenza Maselli

Page 14: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

STATISTICA

Che cos’è la statistica? A cosa serve?

Esempio:

Gene A: v.a. X

P(X = xi)Domanda: Il gene A è espresso oppure no nel topo wt? Quanto èespresso?

Esperimento: è espresso? Quanto?Risposta classica SI oppure NO gene A = 4Risposta statistica Si (96%) e NO (4%) gene A = 4,1 ± 0,2

Per dare la risposta statistica dobbiamo conoscere P(X). MA NON LA

CONOSCIAMO! Come posso fare?

Soluzione 1: Ripeto lo stesso esperimento molte volte, (L)

Soluzione 2: Cerco di stimare solo alcune proprietà di X, come la media

E(X) e la varianza E[(X-E(X))2]

INFERENZA STATISTICA: stima di P(X) dalle misure sperimentali

Problema Devo fare troppiesperimenti

2%1% 1%4%

40%

50%

P(X)

1 2 3 4 5 6

Gene A

Numero di volte che il gene A ècompreso tra 0 e 1 diviso ilnumero di esperimenti K/L

Page 15: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

STIMA DELLA MEDIA

X v. a.

P(X)X ∈= x1,x2,...,xn{ }

µx = E(X) = P1x1 + ...+ PnXn

Soluzione: eseguo L misure di X e stimo

µx da queste L osservazioni:

Perché è solo una stima?

µx = P1x1 + P2x2 + ...+ PnXn

Nella stima invece conosco solo alcuni (L) degli elementi di S e non

conosco Pi che quindi assumo essere

1L

ProblemaNon conosco P1,P2,…,Pn

STIMA DELLA MEDIA

ˆ µ x =a1 + a2 + ...+ aL

L

Tutti i possibili valori di X,cioè gli elementi di S

STIMA DELLA VARIANZA

ˆ σ x2 =

(a1 − ˆ µ x )2 + (a2 − ˆ µ x )

2 + ...+ (aL − ˆ µ x )2

L −1

STIMA DELLA DEVIAZIONE STANDARD

ˆ σ x = ˆ σ x2

Page 16: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

PROPRIETÀ

ˆ µ x+y = ˆ µ x + ˆ µ y

ˆ σ x+y2 = ˆ σ x

2 + ˆ σ y2

Page 17: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

INFERENZA DELLA MEDIA ED INTERVALLI DI

CONFIDENZA

1. L misure dell’espressione del gene A: a1, a2, …, aL

2. STIMO la media

ˆ µ A =a1 + a2 + ...+ aL

L dove

µA è la VERA MEDIA

3. STIMO la varianza

ˆ σ A2 =

(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

L −1 dove

σA2

è la VERA VARIANZA

4. Voglio trovare l’intervallo che contiene i valori più probabili della

vera media

µA cioè

ˆ µ A ± K .

Come faccio?

STIMO la varianza di

µA :

ˆ σ ˆ µ A

2 =σ a1 +a2 +...+aLL

2

per la proprietà additiva

ˆ σ ˆ µ A

2 =ˆ σ a1

2

L2 +ˆ σ a2

2

L2 + ...+ˆ σ aL

2

L2 =L ˆ σ A

2

L2 =ˆ σ A

2

L

INTERVALLO DI CONFIDENZA: intervallo che contiene i valori più

probabili della grandezza che ho stimato.

Page 18: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

OSSERVA:

ˆ σ ˆ µ A≠ ˆ σ A infatti

ˆ σ A è la stima di

σA mentre

ˆ σ ˆ µ A è la

stima di

σ ˆ µ A

Se L è molto grande,

ˆ σ ˆ µ A

2 =ˆ σ A

2

L= 0 mentre

ˆ σ A =σA

Quindi più misure faccio, meno errore commetto nella stima di

µA

ERRORE STANDARD: deviazione standard della stima della media

ˆ σ ˆ µ A=

ˆ σ AL

REGOLA PRATICA:

ˆ µ A ± 2ˆ σ AL contiene circa il 96% dei possibili

valori di

ˆ µ A . Cioè ho il 96% di probabilità che il VERO VALORE di

µA

cada in questo intervallo.

Page 19: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio

Strumento di misura: GENE-O-MATIC

S = 1,2,3,4,5,6,...,20{ }

Strumento di misura: SUPER-GENE-O-MATIC … non fa errori!!!

S = 1,2,3,4,5,6,...,20{ }

P1=0.1 P2=0.05 P3 =0.1 P4=0.4 P5=0.02 … P20=0.2

P1=numero di volte che uscito 1 / numero di

misure

P2=numero di volte che uscito 2 / numero di

misure

µgene A=0.1*1+0.05*2+…+0.2*20=4.1

gene A

quando è espresso

1 = poco espresso

20 = molto espresso

P1=0 P2=0 P3 =0 P4=4 P5=0 … P20=0

µgene A=0*1+0*2+0*3+1*4…+0*19+0*20=4

gene A

quando è espresso

1 = poco espresso

20 = molto espresso

Page 20: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio: espressione del gene A

(in verde il primo esempio con L = 2 in blu il secondo esempio con L = 3)

X Y

Controllo Trattamento

6 10

8 18

7 14

stima della

MEDIA

µ^

x =6 + 82

=142

= 7 142

28

2

1810^

==+

=xµ

stima della

MEDIA7

3

21

3

786^

==++

=xµ 143

42

3

141810^

==++

=xµ

stima VAR2

1

11

12

)78()76( 222^

=+

=−

−+−=xσ 32

1

1616

12

)1418()1410( 222^

=+

=−

−+−=xσ

stima VAR1

2

11

13

)77()78()76( 2222^

=+

=−

−+−+−=xσ 16

2

32

13

)1414()1418()1410( 222^

==−

−+−+−=xσ

stima STD 4.12^

≅=xσ 7.532^

≅=xσ

stima STD 11^

≅=xσ 416^

≅=xσ

errore standard

σ^

µ^x =

22

=1 42

32^^

==xµσ

errore standard6.0

3

1^^

==xµσ 3.23

16^^

==xµσ

risultato 7±1 14±4

risultato 7±0.6 14±2.3

Errore che faccio nello stimare la media

Page 21: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

… e il fold change?

ˆ µ yˆ µ x

=147

= 2

ˆ σ ˆ µ yˆ µ x

=ˆ µ yˆ µ x

ˆ σ ˆ µ x

2

ˆ µ x2 +

ˆ σ ˆ µ y

2

ˆ µ y2 =

147

12

72 +42

142 ≅ 0.33+ 0.08 ≅ 0.64

RISULTATO: 2±0.64

…che errore faccio? Cioèqual è l’errore standard?

Page 22: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 3: t-TEST

Diego Di Bernardo

Edito da Vincenza Maselli

Page 23: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

t-TEST

• Il gene a è espresso nel tessuto?

PROCEDURA PER IL t-TEST: TWO TAILEGDT-TEST

(1) Eseguiamo L misure:

a1,a2,...,aL

(2) Calcoliamo la stima della media:

ˆ µ A =a1 + a2 + ...+ aL

L(3) Calcoliamo la s t ima della deviazione standard:

ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

L

(4) Calcoliamo l’errore standard:

S.E .=ˆ σ AL

(5) Formuliamo l’ipotesi nulla:

H 0 :µA0 = 0 (il gene non è

espresso)

(6) Calcoliamo la statistica t:

t =ˆ µ A −µA

0( )S.E.

=ˆ µ A −µA

0( )ˆ σ AL

=ˆ µ Aˆ σ AL

(7) Se

t ≥ 2 allora

p ≤ 0.04 (il gene a è espresso con

p ≤ 0.04)

EXCEL BOX

Page 24: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CONFRONTO TRA DUE POPOLAZIONI

“paired” e “unpaired” t-test

Problema:

a1,a2 ,...,aNb1,b2 ,...,bN

Ci sono 3 modi per affrontare il problema, a seconda dei casi:

CASO 1. PAIRED t-TEST: si usa nel caso in cui le misure nei due

esperimenti possono essere suddivisi in coppie. Quindi N = M.

***Esempio 1: Voglio sapere se un nuovo farmaco ha un effetto migliorerispetto ad uno tradizionale

Esempio 2: voglio sapere se un gene è più espresso in un occhio trattatorispetto ad uno non trattato

PROCEDURA PAIRED T-TEST:

1. Dalle L coppie di misure calcolo

Z1 = a1−b1Z2 = a2 −b2ZL = aL −bL

µZ = µA −µB = 0⇒ µA = µB

2. – 7. Come prima (con Z invece di A)

t-test

A

BEsempio: misura dell’espressione diun gene in due topi diversi, wt e ko

IPOTESI NULLA:

0H :Aµ =

Bµ Esempio: il gene di interesse nonvaria, cioè non è diferenzialmenteespresso nei due topi

H0 :µZ = 0

EXCEL BOX

Page 25: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CASO 3. UNPAIRED t-TEST (VARIABILE DISEGUALE): si usa nel casogenerale in cui ho due misure indipendenti.

a1,a2,...,aNb1,b2,..,bM

µa −µa = 0 = µa−b IPOTESI NULLA

PROCEDURA UNPAIRED T-TEST (VARIANZA DISEGUALE)

1. Eseguo N misure

a1,a2 ,...,aN e M misure

b1,b2 ,...,bM

2. Calcolo la stima della media

ˆ µ A =a1 + a2 + ...+ aN

N

ˆ µ B =b1 +b2 + ...+bM

Mˆ µ A − ˆ µ B = ˆ µ A−B

3. Calcolo la deviazione standard

ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

N −1

ˆ σ B =(b1 − ˆ µ B )2 + (b2 − ˆ µ B )2 + ...+ (bM − ˆ µ B )2

M −14. Calcolo la deviazione standard di

ˆ µ A − ˆ µ B = ˆ µ A−B (errore standard)

ˆ σ ˆ µ A−B= ˆ σ ˆ µ A

2 + ˆ σ ˆ µ B

2 =ˆ σ A

2

N+

ˆ σ B2

M5. Calcolo della statistica

t =ˆ µ A − ˆ µ Bˆ σ A

2

N+

ˆ σ B2

M

=ˆ µ A − ˆ µ B

S.EA2 +S.E.B

2

(gene nel topo wt)

(gene nel topo ko)Assumo che

σ A ≠σ B

H0 :µa = µb

Page 26: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

6. Se

t ≥ 2 allora

p ≤ 0.04

Meglio usare un programma tipo Excel

ATTENZIONE: è meglio NON USARE MAI questo caso 3.L’ipotesi di varianze diseguali è pericolosa, perché significa che le duepopolazioni (cioè due set di misure) non sono confrontabili!

Approssimativamente

EXCEL BOX

Page 27: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CASO 2. UNPAIRED T-TEST (VARIANZE UGUALI): si usa nelle stessecondizioni del caso 3, cioè due serie di misure indipendenti.

ATTENZIONE usare SEMPRE questo al posto del caso 3!

µa −µa = 0 = µa−b Ipotesi nulla

PROCEDURA UNPAIRED T-TEST (VARIANZE UGUALI)

1. – 3. Come il caso 31. Eseguo N misure

a1,a2 ,...,aN e M misure

b1,b2 ,...,bM2. Calcolo la stima della media

ˆ µ A , ˆ µ B e

ˆ µ A − ˆ µ B = ˆ µ A−B3. Calcolo la deviazione standard

ˆ σ A ,

ˆ σ B4. Calcolo DELL’ERRORE STANDARD COMBINATO , PSE (Pooled

Standard Error)

ˆ σ ˆ µ A−B=

(N −1) ˆ σ A2 + (M −1) ˆ σ B

2

N +M −21N

+1M

E’ un modo alternativo a quello del caso 3, ma molto più preciso se levarianze sono uguali.

5. Calcolo della statistica

t =ˆ µ A − ˆ µ B

ˆ σ ˆ µ A−B

6. Se

t ≥ 2 allora usiamo excel…

H 0 :µa = µb

EXCEL BOX

Page 28: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 4: ANOVA

Diego di Bernardo

Edito da Vincenza Maselli

Page 29: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Riepilogo T-test

1) Il gene A è espresso nel topo wt?

2) Confronto tra due popolazioni (il gene A è differenzialmenteespresso nel topo wt vs il topo ko)

STATISTICA T

t =ˆ µ ˆ σ L

≥ 2 ⇒ p ≤ 0,04

0

ˆ µ

S.E.

ˆ σ L

S.E.

ˆ σ L

0

ˆ µ

Più è grande questa distanza, più l’ipotesi nullaè inattendibile, cioé più piccolo è il p-value

IPOTESI NULLA

H 0 :µ = 0

H 0 :µwt = µko ⇒ µwt −µko = 0 CASO 2 ( il caso 3 non si usa mai)

t =ˆ µ wt − ˆ µ koS.E.pooled

S.E.pooled =N −1( ) ˆ σ wt

2 + (M −1) ˆ σ ko2

N +M −21N

+1M

0

ˆ µ wt

ˆ µ ko

S.Ewt

S.Eko

Page 30: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Per l’ipotesi nulla

S.Epooled

0

ˆ µ wt − ˆ µ ko

Più è grande questa distanza più è piccoloil p-value

Cosa significa S.E.pooled ?

a1,...,an gene A in wt

b1,...,bn gene B in ko

S.E .pooled =N −1( ) ˆ σ wt

2 + M −1( ) ˆ σ ko2

N −M − 21N

+1M

ˆ σ pooled =N −1( )

a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2

N −1+ M −1( )

b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2

M −1N + M − 2

=

=a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2 + b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2

N + M − 2

Quindi

ˆ σ pooled è la stima della deviazione standard usando tutte lemisure. Se assumiamo che le varianze sono uguali nelle duepopolazioni, allora si possono usare tutte le misure per avere unastima più precisa.

S.Epooled

0

ˆ µ wt − ˆ µ ko

Page 31: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

ANOVA: ANalysis Of VAriance

Si usa nel caso in cui si voglia confrontare la media in più di duepopolazioni (nel caso di due popolazioni si usa il t-test).

Esempio: il gene X è differenzialmente espresso tra un topo wt, un topo

ko omozigote ed un topo ko eterozigote?

… oppure …

c’è differenza tra 3 dosi diverse di farmaco nella valutazione della

frequenza cardiaca?

Usando tutte le possibili combinazioni di t-test aumento la probabilitàdi commettere un errore,

Esempio:

Topo a 5 occhi:

Facendo tutti I possibili t-test, cioètutte le possibili combinazioni di due occhi da 5 si ha

N =5!

5 − 2( )!2!=1•2 •3•4 •51•2 •3( ) 1•2( )

=12012

=10 t-test.

Se dico che un t-test è significativo quando

p < 0.05 , significa cheacceto il 5% di probabilità di commettere un errore per ogni t-test.

o.s.s o.s o.c. o.d o.d.d

a1 b1 c1 d1 e1

a2 b2 c2 d2 e2

a3 b3 c3 d3 e3

PERCHÈ NON SI FANNO TUTTI I POSSIBILI T-TEST?

Page 32: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Quindi su 10 t-test commetto 0.05*10 = 0.5 errori. Sei il topo avesse 10

occhi N sarebbe

N =10!

10 − 2( )!2!=362880080640

= 45, cioè almeno 45*0.05

=2.25 t-test saranno sbagliati.

Page 33: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Gene x nel topo wt

a1,a2,...,aN N misure

ˆ µ wtGene x nel topo ko omozigote

b1,b2,...,bM M misure

ˆ µ oGene x nel topo ko eterozigote

c1,c2,...,cL L misure

ˆ µ e

LE MEDIE SONO UGUALI. L’IPOTESI

NULLA SARÀ RIFIUTATA SE ALMENO

UNA MEDIA È DIVERSA DALLE ALTRE.

L’idea su cui si basa questa procedura è un confronto tra quanto varianole medie rispetto alla variazione delle misure. Cioè se le medie sonodistanti tra loro rispetto agli S.E., allora H0 verrà rifiutata con p valuepiccolo.

Eseguo N misure

a1,a2,...,aN , M misure

b1,b2,...,bM ed L misure

c1,c2,...,cL

ˆ µ wt

ˆ µ o

ˆ µ e

ˆ µ wt

ˆ µ e

ˆ µ o

ˆ µ wt

ˆ µ o

ˆ µ e

IPOTESI NULLA:

H 0 : ˆ µ wt = ˆ µ o = ˆ µ eAssumiamo uguale varianzaCome caso 2 del t-test

Page 34: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Calcolo le stime delle medie:

ˆ µ wt =a1 + ...+ aN

N

ˆ µ o =b1 + ...+ bM

M

ˆ µ e =c1 + ...+ cL

L

la media globale:

ˆ µ glo =a1 + ...+ aN + b1 + ...+ bM + c1 + ...+ cL

N + M + L e le stime delle deviazioni standard:

ˆ σ wt , ˆ σ o , ˆ σ e

Calcolo l’errore standard combinato al quadrato (detto anche Mean

Square Error MSE):

ˆ σ ˆ µ glo

2 =a1 − ˆ µ wt( )2 + ...+ aN − ˆ µ wt( )2 b1 − ˆ µ o( )2 + ...+ bM − ˆ µ o( )2 + c1 − ˆ µ e( )2 + ...+ cL − ˆ µ e( )2

N + M + L − 31N

+1M

+1L

=

=N −1( ) ˆ σ wt

2 + M −1( ) ˆ σ o2 + L −1( ) ˆ σ e

2

N + M + L − 31N

+1M

+1L

ˆ σ ˆ µ glo ci da’ un’idea di quanto sono variabili le nostre misure.

Un modo alternativo di calcolare

ˆ σ ˆ µ glo quando H0 è vera è calcolarlo

direttamente dalle medie, invece che dalle misure:

Mean Square For Treatments (MSTR):

ˆ σ ˆ µ alt2 =

N ˆ µ wt − ˆ µ glo( )2+ M ˆ µ o − ˆ µ glo( )2

+ L ˆ µ e − ˆ µ glo( )2

3−11N

+1M

+1L

abbiamo usato la classica formula della varianza, ma pesata.

ˆ σ ˆ µ alt2 ci da’

un’idea di quanto sono variabili le misure.

Calcoliamo la statistica

F =ˆ σ ˆ µ alt

2

ˆ σ ˆ µ glo2 se H0 è vera allora

ˆ σ ˆ µ alt2 = ˆ σ ˆ µ glo

2 e

quindi

F =1.

Page 35: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Più

F >1 più posso rifiutare H0 con un p-value più piccolo.

SE IL P-VALUE È SIGNIFICATIVO (

p ≤ 0.05) POSSO RIFIUTARE H0,CIOÈ POSSO DIRE CHE NON È VERO CHE

ˆ µ wt = ˆ µ o = ˆ µ e MA NON SO

DIRE SE TUTTE LE MEDIE SONO DIVERSE OPPURE SOLO UNA ÈDIVERSA DALLE ALTRE.

Page 36: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

ANOVA: single factor alpha = 0.05

DATI

wt o e18 10 2212 9 1416 12 248 7 18. . .. . .. . .

ANOVA TABLESourceofvariation

SS dF MS F P Fcrit

Betweengroups

ˆ σ ˆ µ alt2 3-1

SSdf

= MSTR

MSTRMSE

=ˆ σ ˆ µ alt

2

ˆ σ ˆ µ glo2

p-value valoredi Fperaverep=0.05

Withingroups

N −1( ) ˆ σ wt2 + M −1( ) ˆ σ o

2 + L −1( ) ˆ σ e2 N+M+L-3

SSdf

= MSE- - -

Total somma somma - - - -

EXCEL BOX:TAVOLA DI ANOVA

VALORE DEL P-VALUE AL

DI SOTTO DEL QUALE

RIFIUTIAMO H0

Page 37: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

MULTIPLE HYPOTHESIS TESTING PROBLEM

Esempio: micorarray con 20.000 geni. Voglio i geni differenzialmenteespressi.

TRATTATO CONTROLLO

3 replicati 3 replicati

Gene1

a1,1,a1,2 ,...,a1,20.000b1,1,b1,2 ,...,b1,20.000

t-test

t1

Gene2

a2,1,a2,2 ,...,a2,20.000b2,1,b2,2 ,...,b2,20.000

t-test

t2

… …

Gene20000

a20.000,1,a20.000,2 ,...,a20.000,20.000b20.000,1,b20.000,2 ,...,b20.000,20.000

t-test

t20.000

Faccio 20000 t-test. Assumo che ogni t-test è significativo se

p ≤ 0.05(probabilità del 5% di sbaglaire, cioè di dire che un gene èdifferenzialmente espresso quando non lo è).In uqesto modo commetto 0.05*20000=1000 errori, quindi sbaglioalmeno 1000 geni

3 MA 3 MA

Page 38: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

BONFERRONI CORRECTION

E’ molto semplice. Vistoche un p<0.05 non e’ un criterio moltostringente quando eseguo molti t-test simultaneamente (come nel casodei microrray) faccio una correzione:

pbonferroni =αN

dove

α e’ il valore limite di p al di sotto del quale considerosignificativo il test (di solito

α=0.05). N e’ il numero di t-test cheeseguo simultaneamente (di solito N=numero di geni sul microarray).

Quindi diro’ che il gene X e’ differenzialmente espresso se il suo p

value e’:

pgeneX < pbonferroni =αN

La Bonferroni correction funziona, ma e’ troppo stringente, cioe’ pochigene risultano significativi, e molti sono scartati “ingiustamente”.

False Discovery rate

Un modo alternativo e’ calcolare una quantita’ chiamata FDR. Sicalcola cosi’, per ogni gene i nel microarray, prendiamo il suo valore

pie calcoliamo:

FDRi =pi *Ki

N

dove N e’ il numero di geni nel microarray e

Ki e’ il numero di geneche hanno un valore p minore di quello del gene in questione, cioe’minore di

pi .

Page 39: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

FDR varia tra 0 e 1. Possiamo ora scegliere i geni in base al loro FDRinvece che il valore p . Se ad esempio prendiamo tutti i geni con unFDR<0.1, di questi saranno veramente differenzialmente espressi solo il90% (0.9) mentre il 10% (0.1) saranno falsi positivi. Se scegliamoFDR<0.2, allora dei geni selezionati l’80% saranno differenzialmenteespressi, mentre il 20% (0.2) saranno falsi positivi.

Page 40: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 5: CorrelazioneLineare e Regressione Lineare

Diego di Bernardo

Edito da Vincenza Maselli

Page 41: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

CORRELAZIONE LINEARE

Si usa per capire se c’è una associazione tra due variabili.

Esempio 1. In un esperimento di microarray misuro la serie temporale

di N geni (graf. 1). Voglio sapere quali geni si comportano allo stesso

modo.

Voglio sapere se c’è un’associazione tra il gene 2 e il gene 1 e tra il

gene 2 e il gene 3 (graf 2).

Osservando questi grafici si può dire che il gene 2 e il gene 1 mostranoun’associazione maggiore dei geni 2 e 3, cioè I geni 2 e 1 sono più

Grafico 1

t

Gene 1

Grafico 2

Gene 3

1

23

Page 42: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

correlati dei geni 2 e 3. È possibile quantificare questa associazione? Sipuò calcolare la significatività, ossia un p-value?

Esempio 2. Data una serie di esperimenti di micorarray (ko, stress, drugtreatment, etc..) si vogliono trovare dei geni che si comportano come ilgene di interesse. (esempio gene della sordità):

Per scoprire una correlazione o si osservano tutti i 10.000 grafici o ci siaffida più efficacemente al coefficiente di correlazione.

Gene 2

Gene 1

Gene 10.000

Page 43: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

COEFFICIENTE DI CORRELAZIONE.

Procedura per il calcolo di r (coefficiente di correlazione):

gene 1: gene 2:

Calcolo la stima della media:

ˆ µ 1 =a1 + a2 + ...+ aN

N

ˆ µ 2 =b1 +b2 + ...+bN

N Calcolo:

r =(a1 − ˆ µ 1)(b1 − ˆ µ 2 )+ ...+ (aN − ˆ µ 1)(bN − ˆ µ 2 )

(a1 − ˆ µ 1)2 + ...+ (aN − ˆ µ 1)

2[ ] (b1 − ˆ µ 2 )2 + ...+ (bN − ˆ µ 2 )

2[ ]

Proprietà di r:r varia tra -1 e 1

STESSO NUMERO

DI MISURE

a1,a2 ,...,aN

b1,b2 ,...,bN

Vi ricordaqualcosa?

Gen

e 2

Gene 1 Gene 1

Gen

e 2

Gen

e 2

Gen

e 2

Gene 1Gene 1

r =1 r = -1

r = 0 r = -0.8

Page 44: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Posso sapere se l’associazione tra i due geni è significativa?

I DUE GENI NON SONO CORRELATI

Clacolo la statistica:

Applico il classico t test che mi da il p-value:

Gene 1

r = 0.8

EXCEL BOX

t =r N −21− r 2

IPOTESI NULLA:

H 0 : r = 0Non chiedeteperché

EXCEL BOX Attenzione! Va usatoN-2

Esempio: Il gene 1 e il gene 2 sono correlati:

r = 0,76p ≤ 0,05

Page 45: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

ATTENZIONE: CORRELAZIONE NON IMPLICA CAUSALITÀ!

Esempio: Cocktail Party

Dopo un party alcune delle persone si ammalano. Un medico intervistale persone ammalate e misura il consumo di vino e di noccioline ed illivello dei sintomi.

Il medico trova che più vino le persone hanno bevuto più sono gravi isintomi: cioè vino e sintomi sono correlati.

CORRELAZIONE

CA

USA

LIT

À

CO

RR

EL

AZ

ION

E

Consumo di vino

r = 0,68p ≤ 0,05

Page 46: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Questo porterebbe a pensare che sia stato il vino a causare la malattia.In realtà la causa sono le noccioline, le persone ammalate hannomangiato più noccioline delle altre e di conseguenza hanno bevuto piùvino!

Page 47: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

SPEARMAN RANK-ORDER CORRELATION

COEFFICIENT:

r si può calcolare come prima e si può fare il t-test solo nell’ipotesi chela distribuzione delle due variabili sia binormale:

Non sempre questo è vero, nei casi in cui non è vero si può procederecosì:

Procedura per il calcolo di rS: Spearman Correlation Coefficient

Gene 1: Gene 2:

Ordiniamo i valori in modo crescente, (facciamo il “rank” dei valori):

Esempio:

a1 = 3,5a2 =1,2a3 = 0,7a4 = 2,9

b1 = 0,75b2 = 0,7b3 = 0,4b4 =1,2

R S

a3 = 0,7a2 =1,2a4 = 2,9a1 = 3,5

1234

b3 = 0,4b2 = 0,7b1 = 0,75b4 =1,2

1234

Gene 1

Gene 2

a1,a2 ,...,aN

b1,b2 ,...,bN

R= rank gene 1S = rank gene 2

Page 48: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Procediamo come prima ma invece di utilizzare a1, b1, etc usiamo R eS

ˆ R = R1 + R2 + ...+ RN

Nˆ S = S1 + S2 + ...+ SN

N

rS =r1 − ˆ R ( ) s1 − ˆ S ( )+ ...+ rN − ˆ R ( ) sN − ˆ S ( )

r1 − ˆ R ( )2

+ ...+ rN − ˆ R ( )2[ ] s1 − ˆ S ( )

2

+ ...+ sN − ˆ S ( )2[ ]

Calcoliamo

t = rSN −21− rS

2

Quando non usare la correlazione lineare:

Se otteniamo un grafico di questo tipo appare ovvio che non ha sensotentare di approssimare al curva ad una retta…Bisogna sempre guardare i dati prima di “farci qualcosa”!!!

EXCEL BOX

Gene2

Page 49: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

REGRESSIONE LINEARE

Si usa per capire se c’è una associazione tra una variabile (misura) edun parametro di controllo.

Esempio: Vettore inducibile – Promotore inducibile dalla tetraciclina

Vogliamo trovare la linea “migliore” che passa attraverso i punti. Iltrucco è trovare la linea che passa più vicino ai miei punti.

[tetraciclina] µl

GFPGFPi = a TETi + ba = ?b = ?

distanza

GFPi

G ˆ F Pi

a+b(1µl)

TETi

Page 50: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Cerco la linea che minimizza la somma al quadrato delle distanze, cioèche

GFPi − a−bTETi( )2+ ...+ GFPN − a−bTETN( )

2 sia minima.

Procedura per la regressione lineare

x1,x2 ,...,xNy1,y2 ,...,yN

ˆ µ xˆ µ y

Clacolo

ˆ b =x1 − ˆ µ x( ) yi − ˆ µ y( )+ ...+ xN − ˆ µ x( ) yN − ˆ µ y( )

x1 − ˆ µ x( )2+ ...+ xN − ˆ µ x( )

2 = Sxx

ˆ a = ˆ µ y − ˆ b ̂ µ x

Errore standard di

ˆ b

S.E.b =ˆ σ Sxx

ˆ σ 2 =yi − a−bxi( )

2+ ...+ yN − a−bxN( )

2

N −2

ˆ b ± S.E.b

Posso testare l’ipotesi nulla:

H 0 :b = 0

t =ˆ b

S.E.b

=ˆ b ˆ σ Sxx

yi = a+bxi

Quanto è buona la linea?

yi = a+bxi

EXCEL BOX

p-value

SSresid = y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )

2

Residual sum of squares

Page 51: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Che relazione c’è tra regressione lineare ed il coefficiente dicorrelazione?

R 2 =ˆ y i − ˆ µ y( )

2+ ...+ ˆ y N − ˆ µ y( )

2

y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )

2 =SSreg

SSresid

ˆ y

Errore

xi x

Y

ˆ y 1

y1

r 2 = R 2

EXCEL BOX

LINREG(Yi:YN;Xi:XN;TRUE;TRUE)

F =t2

TDIST(

Fi ; N-2; 2)

Page 52: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

LEZIONI DI STATISTICA

Lezione 6: Metodi nonparametrici

Diego di Bernardo

Edito da Vincenza Maselli

Page 53: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

METODI NON-PARAMETRICI

Tutto quello che abbiamo detto fino a questo punto è valido fino ad uncerto punto, c’è un piccolo “imbroglio”…Abbiamo implicitamente assunto che le nostre misure avessero unadistribuzione GAUSSIANA (o NORMALE).Che significa?

Gene X Misure di espressione: a1, a2,…,aN

Se i dati non sono distribuiti come una gaussiana, TUTTO QUELLO CHE

ABBIAMO DETTO NON È VALIDO!

Cioè non possiamo fare t-test, anova, correlazione…Cosa si può fare allora in questi casi?

Imbroglio e me ne frego! (lo fanno in molti!!!)

Gauss era sullabanconota da 10marchi tedeschi

Max { a1, a2,…,aN}

Numero di volte che lenostre misure sonocontenute in un questointervallo

I dati sono distribuiticome una gaussiana sel’istogramma: E’ Simmetrico Ha forma a campana

Esempio:Gene X: 0,15 0,18 0,22 0,14 0,20 0,31

0,12

4-3-2-1-0-

| | |0,1 0,2 0,31

Page 54: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Utilizzo metodi che non richiedono questa ipotesi.

Page 55: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

WILCOXON SIGNED RANK

Questo test è equivalente al t-test per una singola popolazione (T-DIST). Si usa per rispondere alla domanda:È LA MEDIA DELLA MIA MISURA DIVERSA DA ZERO?

Esempio: è il gene X espresso nel topo wt?

Procedura per il Wilcoxon Signed Rank: ho le mie misure (controllo che l’istogramma sia più o menosimmetrico, non c’è bisogno che sia a campana).

Calcoliamo

ˆ µ x =a1 + a2 + ...+ aN

N calcolo la differenza dei miei dati dalla media µ:

d1 = a1 − ˆ µ xd2 = a2 − ˆ µ xdN = aN − ˆ µ x

calcolo i rank delle distanze:

ad esempio: se

d1 =1,2d2 = −0,8d3 = 2,4d4 = −0,9

li ordino dal più piccolo al più grande:

d41

< d22

< d13

< d34

e quindi:

R1 = R d1( ) = 3R2 = R d2( ) = 2R3 = R d3( ) = 4R4 = R d4( ) =1

R1,R2,...,RN sono tutti numeri tra 1 e N

H0 :µ = 0 IPOTESI NULLA

Page 56: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

calcolo la statistica

St = somma degli

Ri che hanno le differenze

di > 0

Osserva:

1+2+ ...+ N =N N +1( )2

= R1 + R2 + ...+ RN

Se la media

µ = 0, cioè se H 0 è vera allora

St =N N +1( )4

=R1 + R2 + ...+ RN

2

Esempio:

x x x | x x x x x x 0 x x x x x | x x 0

Calcolo la σ di

St (perchè asumo che

St ha una distribuzionegaussiana, se uso un computer per fare i calcoli questa ipotesi non ènecessaria).

σ St=

N N +1( ) N +2( )24

calcolo la statistica

Z =St −

N N +1( )4

σ St

=St −

N N +1( )4

N N +1( ) N +2( )24

se

Z > 2 il

p ≤ 0,04

… oppure uso EXCEL

St >N N +1( )4

St <N N +1( )4

EXCEL BOX

2*NORMDIST(Z) = p-value

2*(1-NORMDIST(Z)) = p-value

Z > 0

Z < 0

Page 57: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Se

p ≤ 0,05 dico che

H0 :µ = 0 non è vera e quindi il mio gene èespresso!!!

Page 58: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

MANN-WHITNEY TESTSi usa per confrontare la media tra due popolazioni. È l’equivalente diun t-test.

Esempio: è il gene X differenzialmente espresso in un topo wt e unoko?

a1,a2,...,aNb1,b2,...,bM

PROCEDURA PER IL MANN-WITHNEY TEST:

a1,a2,...,aNb1,b2,...,bM

calcolo i rank R delle misure combinate cioè “metto tutto assieme”

a1,a2,...,aN ,b1,b2,...,bM . Ordino dal più piccolo al più grande e assegno irank

R1,R2,...RN +M

Esempio:

a1 =1a2 = 2,3a3 = 0,9

b1 = 0,12b2 =1,7b3 =1,2

R=

b11

< a32

< a13

< b34

< b25

< a26

calcolo la statistica

SA = soma degli R delle misure aEsempio:

SA = R a1( )+ R a2( )+ a3( ) = 3+6+2 =11

calcolo

UA = SA −N N +1( )2

wt

ko

H0 :µA = µB

Page 59: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

Esempio:

UA =11−3 3+1( )2

=11−6 = 5

UA varia tra 0 e NM

UA = 0 se tutte le misure

a1,a2,...,aN sono sempre minori di

b1,b2,...,bM

UA = NM se

a1,a2,...,aN sono sempre maggiori di

b1,b2,...,bM

Se

H0 è vera

UA ≅NM2

calcolo la statistica

Z =UA −

NM2

NM M + N +1( )12

calcolo il p-value

EXCEL BOX

2*NORMDIST(Z) = p-value

2*(1-NORMDIST(Z)) = p-value

Z > 0

Z < 0

Page 60: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

KRUSKAL-WALLIS TEST

Si usa per confrontare 3 o più popolazioni. È l’equivalente dell’ANOVA:

Esempio: è il gene X differenzialmente espresso nel topo wt, O ed E?

PROCEDURA PER IL KRUSKAL-WALLIS TEST:

a1,a2,...,aN ,b1,b2,...,bMc1,c2,...,cL

Calcolo i rank delle misure combinatorie (come pr il MW test)

R1,R2,...RN +M +L

calcolo la media dei rank per le misure a, b e c, Ra, Rb e Rc.

calcolo la statistica H.

H =12

N +M + L( ) N +M + L+1( )NRa

2 +MRb2 + LRc

2( )− 3 N +M + L −1( )

calcolo il p-value

K = numero di popolazioni – 1 (nel nostro esempio K = 3 – 1 = 2)

EXCEL BOX

CHIDIST(H,K) = p-value

Page 61: LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita’dibernardo.tigem.it/.../files/reference/lezioni-statistica.pdf · La probabilità è la teoria matematica alla base della statistica

PARAMETRICI VERSO NON PARAMETRICI

Parametrici Non ParametriciSingola Popolazione T-DIST WILCOXON SIGNED RANK

Due Popolazioni T-TEST MANN-WHITNEY TEST

Tre o più Popolazioni ANOVA KRUSKAL-WALLIS TEST

Correlazione CORREL R P E A R M A N R A N K

CORRELATION