Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 5 21...

Preview:

Citation preview

Biostatistica(SECS-S/02 )

STATISTICA PER LA RICERCA SPERIMENTALE E

TECNOLOGICAIncontro 5

21 Ottobre 2011

Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12

Esempio(Distribuzione campionaria)

• Si considerano 2 popolazione costituite dalle v.c :

81.13.223

1.01.02.02.04.0

54321:

2.02.02.02.02.0

54321:

22

BBAA

B

A

Distribuzione campionariaPossibili campioni

per n=2Prob.

Estrazione AProb.

Estrazione BMedie Varianze

(1,1)

(1,2)

(1,3)

(1,4)

(1,5)

(2,1)

(2,2)

(2,3)

(2,4)

(2,5)

(5,5)

0.20*0.20=0.04

0.04

0.04

0.04

0.04

0.04

0.04

0.04

0.04

0.04

….

….

0.04

0.4*0.4=0.16

0.4*0.2=0.08

0.08

0.04

0.04

0.08

0.04

0.04

0.02

0.04

….

….

0.01

(1+1)/2=1

(1+2)/2=1.5

2

2.5

3

1.5

2

2.5

3

3.5

…..

…..

5

[(1-1)2+(1-1)2]/2=0

0.25

1

2.25

4

0.25

0

0.25

1

2.25

….

….

0

Distribuzione campionaria

08.012.024.030.026.0

425.2125.00

08.016.024.032.020.0

425.2125.00

01.002.005.008.016.016.020.016.016.0

55.445.335.225.11

04.008.012.016.020.016.012.008.004.0

55.445.335.225.11

B

A

B

A

Var

Var

x

x

Medie e varianze delle distribuzioni campionarie

81.1905.0)(

21)(

3.2)(

3)(

2

2

BB

AA

BB

AA

VarE

VarE

xE

xE

Le varianze campionarie non coincidono con quelle di popolazione ,ma sono ad esse funzionalmente legate:valgono esattamente la metà !

Media e varianza campionaria

nxVar

nn

nxVar

nn

xVarxVar

nn

xEnn

xExE

xx

n

ii

n

ii

XX

n

ii

n

ii

)(

)(1

)(

1)(

1)(

2

2

2

12

1

1

1

La media campionaria è uno stimatore non distorto della media di una popolazione.Si noti che tale risultato vale se le osservazioni sono tra loro indipendenti,come nel caso del campione casuale semplice.

Varianza campionaria corretta s2

)1()(}){()(

)()(2)()(

)()(

:

)(1

1

1

)()(;

1

)(

22

2

1

222

1

2

1 1 1

22

1

2

1

22

2

1

21

2

21

2

2

nn

nnxxExnEnxxE

xxxxxxE

xxxExEn

Infatti

xxEnn

xxEsE

n

xxs

n

ii

n

ii

n

i

n

i

n

iii

n

ii

n

ii

n

ii

n

ii

n

ii

La varianza campionaria corretta è quindi uno stimatore corretto della varianza di popolazione

Campionamento da una popolazione binomiale o di Bernoulli

• Estrazione casuale semplice da popolazione infinita con eventi indipendenti(il verificarsi dell’evento non modifica quindi la probabilità degli eventi successivi ,ovvero campionamento con reimissione dell’elemento campionato).

• Esempio: Se in un’urna sono contenute 50 palline nere e 50 bianche– P(nero)=0.5

– P(bianco)=0.5

Se alla prima estrazione si verifica l’evento bianco (e la pallina non viene reinserita ),la probabilità di ottenere nero alla seconda estrazione è 50/99 ,quella del bianco 49/99.

Se ,al contrario, dopo essere stata estratta ,la pallina viene reinserita allora alle successive estrazioni la probabilità di ottenere bianco o nero sarà sempre pari a 50/100.

• Sia π la proporzione di elementi con la caratteristica ‘Nero’ e (1- π) quella di elementi con caratteristica ‘Bianco’ .

Campionamento da una popolazione binomiale o di Bernoulli(2)

• Se da una popolazione dicotomica si estraggono campioni di dimensione n ,l’evento favorevole(Bianco per esempio) potrà presentarsi 0,1,2,3,4,….n volte.

• Il numero delle volte con cui l’evento si verifica (il numero di successi) è una variabile casuale discreta (a ciascun valore della variabile è associata una probabilità).

• Esempio :2 estrazioni (con reimissione )dall’urna dell’esempio precedente B=successo

Possibili campioni

n=2

X P(x)

(B,B)

(B,N)

(N,B)

(N,N)

2

1

1

0

π2

π(1- π)

(1- π) π

(1- π) 2

Campionamento da una popolazione binomiale o di Bernoulli(3)

• Esempio :3 estrazioni (con reimissione )dall’urna dell’esempio precedente B=successo

Possibili campioni

n=3

X P(x)

(B,B,B)

(B,B,N)

(B,N,B)

(N,B,B)

(N,N,B)

(N,B,N)

(B,N,N)

(N,N,N)

3

2

2

2

1

1

1

0

π3

π2(1- π) π2(1-π) π2(1-π) π(1-π)2

π(1-π)2

π(1-π)2

π(1-π)2

(1-π)3

• Le probabilità associate ai diversi tipi di estrazione sono espresse dai termini dello sviluppo del polinomio [π+(1- π)]n dove π e (1- π) sono le probabilità degli eventi semplici ‘Bianco’ e ‘Nero’ ed n e l’ampiezza del campione .

Campionamento da una popolazione binomiale o di Bernoulli(4)

• In generale per un campione di dimensione n la probabilità che x volte si verifichi il successo è data dalla funzione:

......,2,1,0

)1()(

nx

con

x

nxP xnx

nnnn

nn

nn

n

nnP

nn

P

nP

)1()(

............

)1()1(1

)1(

)1()1(0

)0(

111

00

• Il coefficiente binomiale ci informa su quante sono le sequenze tra loro esclusive con cui gli x e gli n-x elementi possono presentarsi, la parte restante della funzione binomiale esprime la probabilità che si verifichi x volte l’evento successo. La sequenza dei coefficienti binomiale può essere ottenuta dal triangolo di Tartaglia

• Il valor medio della variabile binomiale è – nπ ,

mentre la sua varianza è

– n π(1- π)

Esempio(Distribuzione Prob. Binomiale)

452

9*10

!8!2

!10

2

10

0439.0)5.01()5.0(2

10)2( 2102

xP

Esempio(Binomiale)

0 1 2 3 4 5

0.0

50

.10

0.1

50

.20

0.2

50

.30

Distribuzione binomiale n=5 p=0.5

Successi

Pro

ba

bilità

•Costruire la densità di frequenza di una variabile aleatoria binomiale n=5 ; p=0.5 .

Esempio(Binomiale)

• Riportare su un grafico la funzione di ripartizione binomiale con p=0.5 ed n=5.

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Distribuzione binomiale p=0.5 ; n=5

Successi

Pro

ba

bilità

Campionamento da una popolazione di Poisson

• La distribuzione di Poisson è adatta alla descrizione di eventi che si verificano con una frequenza molto bassa in uno spazio o in un tempo molto grande (‘Eventi Rari’).

• ESEMPIO: il numero di piante di una data specie presente in un areale, il numero di microrganismi in un certo volume di sospensione, il numero di mutanti antibiotico-resistenti in una popolazione di cellule batteriche o anche il numero di pezzi difettosi in una produzione di serie.

• La distribuzione di Poisson è il limite della binomiale per n→∞ e π→0 tale che nπ sia una costante finita:

e

xx

n xxnx

n !)1(lim

Campionamento da una popolazione di Poisson(2)• Infatti,poiché λ=nπ,allora π = λ/n e considerando che x è

molto piccolo rispetto a n:

en

e

n

xn

poichè

exnx

nnxn

xn

n

n

n

n

nnnx

knnn

nnx

n

n

n

n

xn

n

x

nxx

n

xn

x

x

n

xnx

n

1

1)1(

!1

!

11!

)1(......

)1(

11!

)1)...(1(

1

lim

lim

lim

lim

lim

limI valori della media e della varianza di una distribuzione di Poisson sono pari a λ.

La distribuzione è tipicamente asimmetrica , ma all’aumentare del numero di osservazioni essa tende alla Normale (distribuzione tipicamente simmetrica)

Campionamento da una popolazione di Poisson(3)

en

nP

jPj

jP

eeP

eeP

eeP

eeP

n

!)(

........

)1()(

..........6!3

)3(

2!2)2(

!1)1(

!0)0(

33

22

1

0

Si noti come sia possibile trovare le probabilità in modo ricorrente,ovvero moltiplicando il valore al punto precedente P(j-1) per λ/j .

Distribuzione di Poisson λ1=3; λ2=10

0 5 10 15 20

0.0

00

.05

0.1

00

.15

0.2

0

Poisson Distribution lambda=3

Numero di eventi

Fre

qu

en

za

0 5 10 15 20

0.0

00

.02

0.0

40

.06

0.0

80

.10

0.1

2

Poisson Distribution lambda=10

Numero di eventi

Fre

qu

en

za

Variabili Casuali Continue : la distribuzione Normale (di Gauss)

• I parametri media e varianza descrivono l’intera popolazione Normale.

• La curva è asintotica all’asse delle ascisse per x che tende a + ∞ e - ∞.

• La curva è simmetrica : media,moda e mediana coincidono.• La probabilità si distribuisce quasi completamente in un intorno di 3

volte la deviazione standard .

),(

)(

2

1exp

2

1)(

2

2

2

x

xxXP

Esempio(Distribuzione normale)

5 10 15

0.0

00

.05

0.1

00

.15

0.2

0

Curve normali

Variabile

Fre

qu

en

za

• Disegnare due curve normali con media pari a 10 e sd pari a 2 e 4

Esempio(Distribuzione normale)• Disegnare due curve normali con media pari a 8 e 4 e sd

pari a 3

-5 0 5 10 15 20

0.0

00

.02

0.0

40

.06

0.0

80

.10

0.1

2

Curve normali

Variabile

Fre

qu

en

za

Standardizzazione di una variabile

• Sia X una variabile casuale di cui si conosce la media μ e lo standard error σ .

X

XXZ

• Z è la trasformazione che standardizza X .• Se X si distribuisce come una Normale di media μ e standard error σ, la

variabile Z si distribuisce ancora come una Normale con media 0 e standard error pari a 1

10)(

)(

0)(

)(

2

2

2

2

X

X

XX

X

XX

XZ

X

XX

X

X

X

XZ

XVV

XV

XVZV

XEXEZE

Esempio(Contenuto di cloro nell’acqua)

• Qual è la probabilità che, da un pozzo con un contenuto medio di cloro pari a 1 meq (milli-equivalente ) l-1, eseguendo l’analisi con uno strumento caratterizzato da un coefficiente di variabilità pari al 4%, si ottenga una misura pari o superiore a 1.1 meq l-1?

• E’ possibile che questa misura sia stata ottenuta casualmente, oppure è successo qualcosa di strano (errore nell’analisi o inquinamento del pozzo)?

• Questo problema può essere risolto immaginando che se è vero che il pozzo ha un contenuto medio di 1 meq l-1 i contenuti di cloro dei campioni estratti da questo pozzo dovrebbero essere distribuiti normalmente, con media pari ad 1 e deviazione standard pari a 0.04 (si ricordi la definizione di coefficiente di variabilità). Qual è la probabilità di estrarre da questa popolazione una misura pari superiore a 1.1 meq l-1?

006209.0)1.1(1)1.1(

)04.0,1(

XPXP

NX

Esempio(Distribuzione Normale)

• Nello stesso strumento dell’esercizio precedente e considerando lo stesso tipo di analisi, calcolare: 1 - la probabilità di ottenere una misura inferiore a 0.75 2 - la probabilità di ottenere una misura superiore a 1.5 3 - la probabilità di ottenere una misura compresa tra 0.95 e 1.05

• Stabilire inoltre: – 1 - la misura che è superiore al 90% di quelle possibili – 2 - la misura che è inferiore al 70% di quelle possibili – 3 - le misure entro le quali si trova il 95% delle misure possibili

0.788)05.195.0Pr(

36-e*3.73)5.1Pr(

10-e*2.05)75.0Pr(

X

X

X

1.078399(0.975)2

0.9216014(0.025)1

95.0)Pr(

(0.30)0.97902470.0)Pr(

(0.90)1.05126290.0)Pr(

21

x

x

xXx

xxX

xxX

Esempio : Indagine su neonati(Distribuzione Normale)• Da un’indagine svolta su un campione di neonati ,il peso alla nascita è risultato avere media

pari a 3.2 kg con σ di 0.6 kg.• Ciò significa che nella popolazione il 68% circa dei neonati ha un peso tra 2.6 e 3.8 kg ,il

95% ha un peso tra 2 e 4.4 kg e meno dell’1% ha peso maggiore di 5 o minore di 1.4 kg.• Ci si chiede:

– In un campione di 1000 nati ,quanti sono attesi avere un peso compreso tra 3.5 e 3.7 kg?– Considerando i pesi medi rilevati su 20 nati in 1000 ospedali ,in quanti casi è attesa una

media compresa tra 3.5 e 3.7?

3.1051053.0*1000

.1053.02032.03085.0

)5.0()82.0(82.05.0

6.0

2.37.3

6.0

2.35.3

7.35.3

)7.35.3(

ZPZPZP

XP

XP

XP

7.120127.0*1000

0127.00001.00128.0

)2361.2()7268.3(7268.32361.2

1342.0

2.37.3

1342.0

2.35.3

7.35.3

)7.35.3(

1342.020

6.0

2.3

ZPZPZP

ZP

XP

XP

n

x

x

x

x

x

x

x

x

Altre distribuzioni collegate alla normale• Le distribuzione dei quadrati di variabili casuali Normali Standard è detta

distribuzione χ2 (chi-quadrato) con 1 grado di libertà.

• z2~χ21

• La somma dei quadrati di n VC normali standard indipendenti è distribuita come una χ2 con n gradi di libertà.

221 ~ nz

Questa distribuzione è continua e può assumere valori soltanto positivi: se il numero dei gradi di libertà è piccolo la distribuzione è molto asimmetrica mentre tende alla simmetria in modo proporzionale all’aumento dei gradi di libertà. La media e la varianza della VC di χ2 sono rispettivamente pari al numero dei gradi di libertà ν e al doppio dello stesso numero 2 ν.

211)()(

)(

)()(

11)(

)(

)(

2

2

22

2

212

2

2

22

2

212

221

21

222

221

212

2

2

xxEE

xx

xEE

x

Distribuzione χ2 con v gdl

• Per un campione di v osservazioni :

.~)(

z

),N( ~

)(1)(

21

2

i

2

222

22

i

i

ii

v

x

x

dove

xx

Distribuzione χ2 con v gdl(2)• Allora :

n

ijii

n

ii

n

ii

n

i

n

ii

n

ii

zzzn

znn

zz

dove

zzzzEzzEzzEii

1

2

2

2

12

2

12

1

22

1

2

1

2

211

)2()()(

• Essendo E(zizj)=0 per l’indipendenza degli xi,segue che :

nn

n

n

zEzE i 1

)()(22

22

Distribuzione χ2 con v gdl(3)• Per lo stesso motivo :

212

2

2

2

22

2

)1()()()(

1)21

1()(

1

ni

i

i

i

snxxxSSzz

nnn

zzE

Quindi

nn

zzEzzE

ii

Distribuzione χ2

0 5 10 15 20

0.0

00

.05

0.1

00

.15

0.2

00

.25

Distribuzione chi-quadrato gradi di libertà=c(3,10,20)

Variabile

Fre

qu

en

za

Distribuzione di Fisher

• Rapporto di 2 funzioni determinate su campioni indipendenti

)2,1(2

1

2

12

122

21

222

221

222

221

vvFv

v

v

vv

v

v

v

v

v

v

v

• La funzione è asimmetrica ,al tendere di v2 all’infinito la distribuzione converge a

1,121

2

1

21

22

21

221

21

2

11

1

1

nn

n

n

v

Fn

ns

s

Inoltrev

Distribuzione Fisher gdl=(3,4) red line

gdl=(10,20) blue line

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Distribuzione Fisher

Variabile

Fre

qu

en

za

Distribuzione t di student (Fisher con v1=1)

211,12

2

2

2

212

22

12

2

222

21

222

221

222

221

)(

)(

1

1

)(

)()(

:

)2,1(2

1

2

12

12

nni

ni

vvvv

v

tFs

xn

xx

nxn

allora

xne

xx

zaIndipenden

tvFvv

v

t-student (gdl 2(red),10(blue),40(green))

-10 -5 0 5 10

0.0

0.1

0.2

0.3

0.4

0.5

Distribuzione t-student

Variabile

Fre

qu

en

za

Distribuzione degli scarti standardizzati

1

)(

)1,0()(

nt

n

sx

N

n

xz

Grazie per l’attenzione