22
1 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 1. COMPRENDERE: Concetto di distribuzione per variabili continue Relazione tra istogrammi di frequenza e funzioni densità di probabilità come calcolare una probabilità conoscendo la funzione densità di probabilità legge dei grandi numeri teorema del limite centrale 2. CONOSCERE: la distribuzione normale (o di Gauss ): proprietà e utilizzo Calcolo delle probabilità Obiettivi lezione 3 3. ELABORARE: – per mezzo di esercizi Statisticians do it continuously but… discretely. (legame tra distribuzione normale e distribuzione binomiale; correzione di continuità per l’approssimazione normale della binomiale) – legame tra la distribuzione normale e la binomiale – correzione di continuità per l’approssimazione normale

Calcolo delle probabilità Obiettivi lezione 3 ... · 3 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Densità di probabilità Come le

Embed Size (px)

Citation preview

11Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

1. COMPRENDERE:– Concetto di distribuzione per variabili continue– Relazione tra istogrammi di frequenza e funzioni densità di probabilità– come calcolare una probabilità conoscendo la funzione densità di probabilità– legge dei grandi numeri– teorema del limite centrale

2. CONOSCERE:– la distribuzione normale (o di Gauss ): proprietà e utilizzo

Calcolo delle probabilitàObiettivi lezione 3

3. ELABORARE:– per mezzo di esercizi

Statisticians do it continuously but… discretely.

(legame tra distribuzione normale e distribuzione binomiale;correzione di continuità per l’approssimazione normale della binomiale)

– legame tra la distribuzione normale e la binomiale– correzione di continuità per l’approssimazione normale

22Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Distribuzioni continue

Freq

uenc

y

-3,s +3,s

0

50

100

150

200

250

300

350

400

450

100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800

Se la variabile è continua e aumentiamo MOLTO la taglia del campione l’istogramma può utilizzare un numero MOLTO alto di classi: i rettangolini divengono così vicini da essere approssimabili con una curva continua: questa curva si chiama FUNZIONE DENSITA’ DI PROBABILITA’

33Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Densità di probabilità

Come le probabilità delle variabili discrete le densità dellevariabili continue godono di due proprietà che ci sono già familiari

Non agitatevi per quegli infiniti!Significano solo che stiamo calcolandol’intera area sotto la curva da un capoall’altro (solo che non c’è una fine)!

Esempi

Densità Normale

Densità Uniforme

44Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Calcolo di probabilità conoscendola densità di probabilità

• La probabilità che la variabile aleatoria continua assuma valori compresitra a e b è data da:

55Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Valore medio e varianzadi una variabile casuale continua

La media e la varianza di una variabile casuale X sono definite da:

In analogiacon le formule

discrete:

Esempio: Normale (µ,σ2 ) I parametri della normale hanno il significato di mediae varianza!!!

Se µ=0 eσ2 =1 la variabile normale sidice STANDARD

66Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Distribuzione normale 1Ruolo della media

Per traslare una Gaussiana non occorrono magie: basta cambiare la media.Se µ diminuisce la curva sisposta verso sinistra. Peròla forma non cambia.

77Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Distribuzione normale 2Ruolo della varianza

Per far “dimagrire” una Gaussiana non occorre una dieta:si deve diminuire la varianza. Se σ2 diminuisce la curva sirestringe. Però, non variandola media non si sposta.

88Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

σ σ σσσσ σ σ

Distribuzione normale 2: Ruolo della varianza

−3σ −2σ −σ σ 2σ 3σ 4σ

σ σ σσσσ σ σ −3σ −2σ −σ σ 2σ 3σ 4σ −3σ −2σ −σ σ 2σ 3σ 4σ 5σ

99Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Standardizzazione di una variabile normale

Se X è Normale con media µ e scarto quadratico σ ed effettuiamo latrasformazione

Z = (X-µ )/σla variabile casuale Z risulta Normale standard, cioè ha media nulla e

scarto quadratico unitario.Posso preparare delle tavoleper calcolare la probabilitàdi una normale standard. Poi potrò utilizzarle per unaqualunque normale!

1010Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Spesso l’integrale riportato dalle tavole è:

In genere le tavole si riferisconoalla distribuzione della variabile

normale standardizzata Promemoria

Tavole delladistribuzione normale

1111Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Var(X1)

Cov(X1 X2)

Var(X2)

Media e varianza di una somma di variabili

La media di una somma di variabili casuali è uguale alla sommadelle medie (SEMPRE):

La media del prodotto di variabili casuali è uguale al prodottodelle medie SE le variabili sono INDIPENDENTI

La varianza di una somma di variabili casuali è uguale alla somma delle varianzeSE le variabili sono INDIPENDENTI

E’ meglio mantenere l’INDIPENDENZA?!Verifichiamoalmeno che ci sia.

1212Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Media e Varianza 2

• Se X e Y sono variabili casuali e a e b sono costanti, lamedia di aX±bY è data da

aE(X) ± bE(Y)

• Se X e Y sono variabili casuali INDIPENDENTI e a e bsono costanti, la Varianza di aX ± bY è data da

a2 Var(X)+b2 Var(Y)

Attenzione: le costanti sono elevate al quadrato(è logico: diversamente le dimensioni sarebbero sbagliate)inoltre le varianze si sommano anche nel caso di differenze.

Did you hear about the statistician who put his head in the oven and his feet in the refrigerator ?

He said, "On average I feel just fine."

1313Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Somme di variabili casuali: qualche risultato damemorizzare

• Se X e Y sono variabili casuali Binomiali INDIPENDENTI diparametri (n,p) e (m,p) la somma X + Y è ancora una variabileBinomiale di parametri ((n+m,p).

• Se X e Y sono variabili casuali di Poisson INDIPENDENTI diparametri λλλλ e µ µ µ µ rispettivamente, la somma X + Y è ancora unavariabile di Poisson di parametro λ+µλ+µλ+µλ+µ.

• Se X e Y sono variabili casuali Normali INDIPENDENTI diparametri (µµµµ1111,σ,σ,σ,σ1111

2222) e (µµµµ2222,σ,σ,σ,σ22222222) la somma X + Y è ancora una

variabile Normale di parametri (µµµµ1 1 1 1 + µµµµ2222,σ,σ,σ,σ11112 2 2 2 + σσσσ2222

2222)

• IN GENERALE il calcolo della distribuzione della somma (o delprodotto) di due variabili casuali richiede MOLTI calcoli.

1414Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Teorema del limite centrale

Se X1,…, Xn sono variabili casuali indipendenti, identicamentedistribuite e per n che diverge si ha:

Il teorema resta valido se le variabili non sono identicamente distribuite ma sono tutte DELLO STESSO ORDINE DI GRANDEZZA

Inutile faticare a sommare variabili. Se sono TANTEil risultato è normale

Questo spiega perché la distribuzionenormale sia così importante dovunque:dalla finanza, ai pesi degli studenti,alle temperature media annuali,alla genetica, alle malattie…e anche per gli ERRORI DI MISURA

1515Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Teorema del limite centrale per variabilibinomiali 1

Promemoria: una variabile binomiale di parametri (n,p), X può sempre venirinterpretata come somma Sn= di n variabili Xi di Bernoulli di parametro p.

Il teorema del limite centrale vale anche per variabili di Bernoulli quindi

Se sommo molte variabili discrete: il risultato è una variabile continua.E’ ragionevole: se guardo da lontano una somma di variabili discrete non vedo i singoli salti e tutto mi sembra continuo

L’approssimazione è migliore (è vera per valori di n non molto grandi) se p è vicino a 0.5.

1616Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Teorema del limite centrale per variabilibinomiali 2

•Il teorema del limite centrale vale per n grande ma possiamo usare la normale, senza faregrossi errori, anche per n abbastanza piccolo.

•Se p è circa 0.5 l’approssimazione è buona per n=20

Esempio

Regola pratica:possiamo usarel’approssimazione normale se sia np che np(1-p) valgono almeno 5

Calcolo direttoutilizzando la binomiale

Calcolo approssimatoutilizzandola normale

MediaVarianza

1717Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

One day there was a fire in a wastebasket in the dean's office and inrushed a physicist, a chemist, and a statistician. The

physicist immediately starts to work on how much energy wouldhave to be removed from the fire to stop the combustion. The

chemist works on which regent would have to be added to the fire toprevent oxidation. While they are doing this, the

statistician is setting fires to all the other wastebaskets in the office."What are you doing?" they demanded.

"Well to solve the problem, obviously you need alarge sample size" the statistician replies.

1818Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Correzione di continuità

Esempio: La probabilità che uno studente superi l’esame di CPS con un voto superiore a 26sia uguale a 0.5. Determinare la probabilità che su 10 studenti presenti a un appello ilnumero di studenti che supera l’esame con più di 26 sia compreso tra 3 e 6 (estremiinclusi)

Soluzione Se X è una variabile Binomiale di parametri 10 e 0.5, la probabilità richiesta è

Media di XVarianza di X

Calcolo diretto tramitela distribuzione binomiale

Calcolo con l’approssimazione normale

L’approssimazione normale migliorase si decrementadi 0.5 il valore inferiore e siaumenta di 0.5 quello superiore

1919Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Legge dei grandinumeri

Se X1,…, Xn sono variabili casuali indipendenti, identicamentedistribuite e X = per n che diverge si ha

n ` E(Xi )

Questo giustifical’utilizzo dellamedia campionariaper stimare lamedia dellapopolazione (Migliore stima)

Osservazione: se le Xi sono variabili binomialiè la frequenza relativa: posso utilizzare la frequenza relativa per stimare la probabilità p (Migliore stima)

Statisticians do it withlarge numbers

2020Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Applicazione agli errori casuali

Se gli errori di misura sono ESCLUSIVAMENTE di tipocasuale e possiamo ritenere che la cause che li generano sianoINDIPENDENTI l’errore risultante è una variabile casualenormale. Possiamo stimare la media di tale variabileutilizzando la media campionaria X e possiamo stimare ladeviazione standard di tale variabile utilizzando

Bisognerebbe dimostrare chequesta è la migliore stima di σ,ci vogliono un po’ di conti:crediamoci, li hanno fatti degliesperti

Statisticians do it. After all, it's only normal

2121Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Esercizi 1• Utilizzando le tavole della distribuzione normale valutare

se X è una variabile normale standard e se X è una variabile normale conmedia 2 e varianza 9.

• Se X è una variabile normale standard, determinare il valore di aaffinché:

• Se Y è una variabile normale con media 1 e deviazione standard uguale a2 determinare il valore di a affinché:

2222Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino

Esercizi 2

• L’altezza degli studenti di una certa università può essere consideratadistribuita normalmente con media 1.75 m e deviazione standard di 25cm.– Calcolare la percentuale di studenti caratterizzati da un’altezza

superiore a 1.60 m– Calcolare la percentuale di studenti caratterizzati da un’altezza

minore di 1.75 m.– calcolare la percentuale di studenti caratterizzati da un’altezza

compresa tra 1.65 e 1.85 m.• Un ascensore ha una portata massima di 1000 Kg e una capacità

massima di 10 persone. Se i pesi di tutte le persone che usanol’ascensore sono distribuiti normalmente con una media 90 Kg edeviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10persone ecceda il limite di portata dell’ascensore?