Upload
duongkhue
View
222
Download
0
Embed Size (px)
Citation preview
11Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
1. COMPRENDERE:– Concetto di distribuzione per variabili continue– Relazione tra istogrammi di frequenza e funzioni densità di probabilità– come calcolare una probabilità conoscendo la funzione densità di probabilità– legge dei grandi numeri– teorema del limite centrale
2. CONOSCERE:– la distribuzione normale (o di Gauss ): proprietà e utilizzo
Calcolo delle probabilitàObiettivi lezione 3
3. ELABORARE:– per mezzo di esercizi
Statisticians do it continuously but… discretely.
(legame tra distribuzione normale e distribuzione binomiale;correzione di continuità per l’approssimazione normale della binomiale)
– legame tra la distribuzione normale e la binomiale– correzione di continuità per l’approssimazione normale
22Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzioni continue
Freq
uenc
y
-3,s +3,s
0
50
100
150
200
250
300
350
400
450
100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800
Se la variabile è continua e aumentiamo MOLTO la taglia del campione l’istogramma può utilizzare un numero MOLTO alto di classi: i rettangolini divengono così vicini da essere approssimabili con una curva continua: questa curva si chiama FUNZIONE DENSITA’ DI PROBABILITA’
33Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Densità di probabilità
Come le probabilità delle variabili discrete le densità dellevariabili continue godono di due proprietà che ci sono già familiari
Non agitatevi per quegli infiniti!Significano solo che stiamo calcolandol’intera area sotto la curva da un capoall’altro (solo che non c’è una fine)!
Esempi
Densità Normale
Densità Uniforme
44Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Calcolo di probabilità conoscendola densità di probabilità
• La probabilità che la variabile aleatoria continua assuma valori compresitra a e b è data da:
55Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Valore medio e varianzadi una variabile casuale continua
La media e la varianza di una variabile casuale X sono definite da:
In analogiacon le formule
discrete:
Esempio: Normale (µ,σ2 ) I parametri della normale hanno il significato di mediae varianza!!!
Se µ=0 eσ2 =1 la variabile normale sidice STANDARD
66Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione normale 1Ruolo della media
Per traslare una Gaussiana non occorrono magie: basta cambiare la media.Se µ diminuisce la curva sisposta verso sinistra. Peròla forma non cambia.
77Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione normale 2Ruolo della varianza
Per far “dimagrire” una Gaussiana non occorre una dieta:si deve diminuire la varianza. Se σ2 diminuisce la curva sirestringe. Però, non variandola media non si sposta.
88Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
σ σ σσσσ σ σ
Distribuzione normale 2: Ruolo della varianza
−3σ −2σ −σ σ 2σ 3σ 4σ
σ σ σσσσ σ σ −3σ −2σ −σ σ 2σ 3σ 4σ −3σ −2σ −σ σ 2σ 3σ 4σ 5σ
99Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Standardizzazione di una variabile normale
Se X è Normale con media µ e scarto quadratico σ ed effettuiamo latrasformazione
Z = (X-µ )/σla variabile casuale Z risulta Normale standard, cioè ha media nulla e
scarto quadratico unitario.Posso preparare delle tavoleper calcolare la probabilitàdi una normale standard. Poi potrò utilizzarle per unaqualunque normale!
1010Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Spesso l’integrale riportato dalle tavole è:
In genere le tavole si riferisconoalla distribuzione della variabile
normale standardizzata Promemoria
Tavole delladistribuzione normale
1111Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Var(X1)
Cov(X1 X2)
Var(X2)
Media e varianza di una somma di variabili
La media di una somma di variabili casuali è uguale alla sommadelle medie (SEMPRE):
La media del prodotto di variabili casuali è uguale al prodottodelle medie SE le variabili sono INDIPENDENTI
La varianza di una somma di variabili casuali è uguale alla somma delle varianzeSE le variabili sono INDIPENDENTI
E’ meglio mantenere l’INDIPENDENZA?!Verifichiamoalmeno che ci sia.
1212Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e Varianza 2
• Se X e Y sono variabili casuali e a e b sono costanti, lamedia di aX±bY è data da
aE(X) ± bE(Y)
• Se X e Y sono variabili casuali INDIPENDENTI e a e bsono costanti, la Varianza di aX ± bY è data da
a2 Var(X)+b2 Var(Y)
Attenzione: le costanti sono elevate al quadrato(è logico: diversamente le dimensioni sarebbero sbagliate)inoltre le varianze si sommano anche nel caso di differenze.
Did you hear about the statistician who put his head in the oven and his feet in the refrigerator ?
He said, "On average I feel just fine."
1313Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Somme di variabili casuali: qualche risultato damemorizzare
• Se X e Y sono variabili casuali Binomiali INDIPENDENTI diparametri (n,p) e (m,p) la somma X + Y è ancora una variabileBinomiale di parametri ((n+m,p).
• Se X e Y sono variabili casuali di Poisson INDIPENDENTI diparametri λλλλ e µ µ µ µ rispettivamente, la somma X + Y è ancora unavariabile di Poisson di parametro λ+µλ+µλ+µλ+µ.
• Se X e Y sono variabili casuali Normali INDIPENDENTI diparametri (µµµµ1111,σ,σ,σ,σ1111
2222) e (µµµµ2222,σ,σ,σ,σ22222222) la somma X + Y è ancora una
variabile Normale di parametri (µµµµ1 1 1 1 + µµµµ2222,σ,σ,σ,σ11112 2 2 2 + σσσσ2222
2222)
• IN GENERALE il calcolo della distribuzione della somma (o delprodotto) di due variabili casuali richiede MOLTI calcoli.
1414Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Teorema del limite centrale
Se X1,…, Xn sono variabili casuali indipendenti, identicamentedistribuite e per n che diverge si ha:
Il teorema resta valido se le variabili non sono identicamente distribuite ma sono tutte DELLO STESSO ORDINE DI GRANDEZZA
Inutile faticare a sommare variabili. Se sono TANTEil risultato è normale
Questo spiega perché la distribuzionenormale sia così importante dovunque:dalla finanza, ai pesi degli studenti,alle temperature media annuali,alla genetica, alle malattie…e anche per gli ERRORI DI MISURA
1515Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Teorema del limite centrale per variabilibinomiali 1
Promemoria: una variabile binomiale di parametri (n,p), X può sempre venirinterpretata come somma Sn= di n variabili Xi di Bernoulli di parametro p.
Il teorema del limite centrale vale anche per variabili di Bernoulli quindi
Se sommo molte variabili discrete: il risultato è una variabile continua.E’ ragionevole: se guardo da lontano una somma di variabili discrete non vedo i singoli salti e tutto mi sembra continuo
L’approssimazione è migliore (è vera per valori di n non molto grandi) se p è vicino a 0.5.
1616Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Teorema del limite centrale per variabilibinomiali 2
•Il teorema del limite centrale vale per n grande ma possiamo usare la normale, senza faregrossi errori, anche per n abbastanza piccolo.
•Se p è circa 0.5 l’approssimazione è buona per n=20
Esempio
Regola pratica:possiamo usarel’approssimazione normale se sia np che np(1-p) valgono almeno 5
Calcolo direttoutilizzando la binomiale
Calcolo approssimatoutilizzandola normale
MediaVarianza
1717Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
One day there was a fire in a wastebasket in the dean's office and inrushed a physicist, a chemist, and a statistician. The
physicist immediately starts to work on how much energy wouldhave to be removed from the fire to stop the combustion. The
chemist works on which regent would have to be added to the fire toprevent oxidation. While they are doing this, the
statistician is setting fires to all the other wastebaskets in the office."What are you doing?" they demanded.
"Well to solve the problem, obviously you need alarge sample size" the statistician replies.
1818Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Correzione di continuità
Esempio: La probabilità che uno studente superi l’esame di CPS con un voto superiore a 26sia uguale a 0.5. Determinare la probabilità che su 10 studenti presenti a un appello ilnumero di studenti che supera l’esame con più di 26 sia compreso tra 3 e 6 (estremiinclusi)
Soluzione Se X è una variabile Binomiale di parametri 10 e 0.5, la probabilità richiesta è
Media di XVarianza di X
Calcolo diretto tramitela distribuzione binomiale
Calcolo con l’approssimazione normale
L’approssimazione normale migliorase si decrementadi 0.5 il valore inferiore e siaumenta di 0.5 quello superiore
1919Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Legge dei grandinumeri
Se X1,…, Xn sono variabili casuali indipendenti, identicamentedistribuite e X = per n che diverge si ha
n ` E(Xi )
Questo giustifical’utilizzo dellamedia campionariaper stimare lamedia dellapopolazione (Migliore stima)
Osservazione: se le Xi sono variabili binomialiè la frequenza relativa: posso utilizzare la frequenza relativa per stimare la probabilità p (Migliore stima)
Statisticians do it withlarge numbers
2020Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Applicazione agli errori casuali
Se gli errori di misura sono ESCLUSIVAMENTE di tipocasuale e possiamo ritenere che la cause che li generano sianoINDIPENDENTI l’errore risultante è una variabile casualenormale. Possiamo stimare la media di tale variabileutilizzando la media campionaria X e possiamo stimare ladeviazione standard di tale variabile utilizzando
Bisognerebbe dimostrare chequesta è la migliore stima di σ,ci vogliono un po’ di conti:crediamoci, li hanno fatti degliesperti
Statisticians do it. After all, it's only normal
2121Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 1• Utilizzando le tavole della distribuzione normale valutare
se X è una variabile normale standard e se X è una variabile normale conmedia 2 e varianza 9.
• Se X è una variabile normale standard, determinare il valore di aaffinché:
• Se Y è una variabile normale con media 1 e deviazione standard uguale a2 determinare il valore di a affinché:
2222Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• L’altezza degli studenti di una certa università può essere consideratadistribuita normalmente con media 1.75 m e deviazione standard di 25cm.– Calcolare la percentuale di studenti caratterizzati da un’altezza
superiore a 1.60 m– Calcolare la percentuale di studenti caratterizzati da un’altezza
minore di 1.75 m.– calcolare la percentuale di studenti caratterizzati da un’altezza
compresa tra 1.65 e 1.85 m.• Un ascensore ha una portata massima di 1000 Kg e una capacità
massima di 10 persone. Se i pesi di tutte le persone che usanol’ascensore sono distribuiti normalmente con una media 90 Kg edeviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10persone ecceda il limite di portata dell’ascensore?