Upload
ngobao
View
217
Download
0
Embed Size (px)
Citation preview
11Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Cenni di calcolo delle probabilità
ARGOMENTI TRATTATI:
OBIETTIVO: capire i concetti di base che serviranno allastatistica inferenziale
• Assiomi del calcolo delle probabilità• Probabilità di eventi e variabili aleatorie• Distribuzioni binomiale, multinomiale, ipergeometrica, di Poisson,• Media, varianza, momenti di una variabile casuale
• Distribuzioni uniforme, esponenziale, normale• Legge dei grandi numeri e suo utilizzo• Teorema del limite centrale e suo utilizzo
Lezione 2
Lezione 3
Allora non impariamo aformulare modelliprobabilistici!
22Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Calcolo delle probabilità
Fenomeno deterministico Fenomeno casuale
Determino la legge che lo regola
Studio le regolarità delfenomeno
PREVISIONIDETERMINISTICHE
PREVISIONISTOCASTICHE
33Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità: un metro di misura per fenomeni casuali
Nomenclatura: eventi, spazio degli eventi, eventi incompatibili
Esempio:Mi aspetto che la capra abbia il vello a
macchie o che l’abbia nero?
Come posso “misurare” la facilità con cui siproduce un evento o l’altro?
Misuro la probabilità di ciascun evento
44Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità: gli assiomi• La probabilità dell’evento certo vale1• La probabilità di un qualunque evento è sempre compresa tra 0 e 1• La probabilità dell’unione di due eventi tra loro incompatibili èuguale alla somma delle probabilità dei singoli eventi
D’accordo, la probabilità godedi queste belle proprietà, ma come lacalcolo per sapere il colore del vellodella mia capra?
55Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità: definizioni operative
Definizione classica: rapporto tra il numero di casi favorevoli enumero di casi possibili
Rispetta gli assiomi e... per lecapre funziona
(se ho studiato genetica!)
La definizione classicadiviene inutilizzabile
Esempio: pensiamoancora alle capre ma…e se non conoscessimo leleggi dell’ereditarietà?
Avremo bisogno di far fare moltifigli alle nostre capre!
Definizione frequentista: rapporto tra il numero di volte in cui si èverificato l’evento e il numero di prove fatte
66Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio: ancora le capre
-Semplifichiamo: La probabilità che un figlio sia nero è 1/2 eche sia a macchie è 1-1/2=1/2)
Supponiamo che le nostre capre abbiano 3 figli, gli eventi elementari sono:
( nnn )( nnm)( nmn )( mnn )( mnm )( mmn )( nmm )( mmm )
Con quale probabilità 2 capretti saranno neri e uno sarà a macchie?
P(2 neri e 1 a chiazze)= P(nnm)+ P(nmn)+P(mnn)=3/8
P(nnn)=1/8P(nnm)=1/8
P(nmn)=1/8P(mnn)=1/8
=1/8=1/8=1/8=1/8
E se la probabilità che un figliosia nero fosse 3/4, con quale
probabilità ci saranno 2 caprettineri e uno a macchie?
Tutti gli 8 eventi sono equiprobabili!
77Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità di combinazioni di eventi
Con quale probabilità dei 3 capretti meno di due saranno a macchie?
P(almeno 2 a chiazze)= P(nmm)+ P(mnm)+P(mmn)+ P(mmm) =1/2( nnn )( nnm)( nmn )( mnn )( mnm )( mmn )( nmm )( mmm )
Con quale probabilità il secondo capretto sarà a macchie e il III nero?
P(II a chiazze)= P(nmn)+ P(mmn)=1/4
Con quale probabilità si verifica uno tra i due eventi(almeno 2 a chiazze) o (tutti uguali)?
Se capita A o Bscriviamo A∪ B
Se capitano sia A che Bscriviamo A∩B
P=1/2+1/8=5/8
Se gli eventi non sono incompatibiliP(A∪ B)=P(A)+P(B)-P(A∩B)
88Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Combinazioni di eventi• E and F ( E∩F ) : si verificano sia l’evento E che
l’evento FEsempio: E: L’errore della lunghezza è minore di 0.1 cm
F: L’errore della temperatura supera 1°• E or F ( E∪ F ): si verifica l’evento E o l’evento F o
entrambiEsempio: E: Mario supera l’esame di CPS
F: Luigi supera l’esame di CPS• not E ( E ) : l’evento E non si verifica
E F
E∪ F EE E
F
E∩∩∩∩F
Diagrammi di Venn
99Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità condizionata
Se sappiamo che il primo capretto è a macchie, con quale probabilità tra i3 capretti almeno 2 sono a macchie?
( nnn )( nnm)( nmn )( mnn )( mnm )( mmn )( nmm )( mmm )
Spazio campione in assenza di informazioni sul I capretto
( mnn )( mnm )( mmn )( mmm )
Spazio campione avendo informazioni sul I capretto
P(almeno 2 a macchie|I a macchie)=3/4
3/8P(almeno 2 |I a macchie) = P (almeno 2 a macchie e il I è a macchie) =
P(il I è a macchie) 1/2= 3/4
P(A|B) = P(A∩B)
P(B)
P(A∩B)= P(A|B)P(B)
1010Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Indipendenza
Sia A l’evento il primo capretto è a macchie e sia B l’evento il secondo caprettoè a macchie, valutare la probabilità P(A|B)
( nnn )( nnm)( nmn )( mnn )( mnm )( mmn )( nmm )( mmm )
P(A|B) = 422
21=
( nmn )( mmn )( nmm )( mmm )
P(A) = 21
A e B sono indipendenti
Sono uguali!!P(A|B)=P(A)
Trovate degli esempi di eventi indipendenti
1111Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili casuali
Non possopassare il tempo a
guardare se èuscito testa
o croce!
Lavorare con gli eventi è “faticoso”:conviene contare gli eventi che ci interessano
Associamo dei numeri agli eventi: sepossiamo
associare a questi numeri le probabilitàdegli
eventi originari diciamo che questi valorisono variabili casuali
1212Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie
Eventi: difficili da utilizzare
Preferiamo lavorare con i numeri
S
A
ℜ
I0 1
P
Variabilealeatoria
1313Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
1/8
X: numero di capretti a macchie
Posso introdurre media evarianza di una variabile casuale
Generalizzando
Variabili casuali discrete
Una variabile casuale X discreta assume diversi valori conprobabilità specificate dalla sua funzione di distribuzione
( nnn )( nnm)( nmn )( mnn )( mnm )( mmn )( nmm )( mmm )
X
X P(X)
0 1/81 3/82 3/83
X P(X)x1 P(x1)x2 P(x2)x3 P(x3)… ….
xn P(xn)
1414Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie discrete 1
• Assumono un numero finito o un’infinità nuberabile divalori, Xi =xi i=1,2,...;
• Sono completamente descritte quando sia nota laprobabilità con cui si può verificare ciascun valore:
P(Xi =xi) =pi con µ pi=1
• Media e Varianza sono indici riassuntivi delle proprietà ditali variabili
EX= µ xi pi Var (X)= µ (xi -EX )2pi
i=1
`Distribuzione di X
i=1
`
i=1
`
1515Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e varianza di una variabile casuale discreta
La media campionaria e la varianza campionaria caratterizzano solo il campione
µ = E(X) = ∑ i=1 x iP(x i)m
σ2 = Var(X) = ∑ i=1( x i - µ) 2P(x i)
Caratterizzano l’interapopolazionem
XX
n
ii
n
= =∑
1
V(X) = Σ (X - X i) 2i=1
n
n-1
Caratterizzano il campione
n taglia del campione
m numero di possibili esiti dell’esperimento
1616Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e Varianza
EX= µ xi pi Var (X)= µ (xi -EX )2pi
Proprietà del modello
s2 (X) = µ (Xi -X )2
n-1X = µ Xi
n
Proprietà del campione
Cal
colo
del
le p
roba
bilit
àSt
atis
tica
1717Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Campione/Modello
1818Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie discrete
• Bernoulli: X=
Esempi 1. Testa o croce, p=1/2. 2. Capretto con il vello nero/a macchie, p=3/4. 3. Verificarsi o meno di una mutazione genetica p=? 4. Ibrido/non ibrido p=?
0
1 P(X=1)=p; P(X=0)=1-p
0 1
P
x
EX=pVar(X)=p(1-p)
1919Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili aleatorie Binomiali B(n,p)
• Binomiale: X=
Esempi a. Numero di ibridi su n osservazioni; b. Numero di studenti su n che superano l’esame con un voto maggiore di 28.
Numero di successi in n prove INDIPENDENTI
01..n
P(X=i)= ni
pi(1-p)n-i
=n!i!(n-i)!
n(n-1) · · · 3·2 · 1
i(i-1) · · ·2 ·1 · !(n-i) · · ·1=
2020Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
(a+b)n = Σ ai bn-i
Abbiamo bisognodi nuovi mezzi di
calcolo!
Un foglio piùgrande potrebbe
bastare!
10015
Coefficiente binomiale
nii=0
nTeorema binomiale
Triangolo di Pascal
72
53
2121Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Variabili Binomiali: media e varianza
Una variabile Y ∼ B(n,p) è la somma di n variabili Xi ,i=1,…,n di Bernoulli INDIPENDENTI
EY=E X1 + E X2 + …+ E Xn = p+…+p = np
La varianza della somma di variabili indipendenti è ugualealla somma delle varianze
Var (Y)=Var ( X1 )+ Var ( X2 )+ …+ Var ( Xn )= np(1-p)
2222Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Binomiale: esempioUna certa malattia ha un’evoluzione per cui non si conoscono terapie, tuttavia tra lepersone colpite il 40% guarisce spontaneamente nell’arco di due mesi. Non conoscendoparticolarità della malattia, la possibilità di guarigione nell’arco di due mesi viene vistacome puramente casuale.• Con quale probabilità tra 6 persone colpite dalla malattia 2 guariranno spontaneamentenell’arco di due mesi? Qual è il numero medio di guarigioni spontanee? Quanto vale lavarianza?• Con quale probabilità nessuno guarirà spontaneamente?
Soluzione
Conta il numero di persone che guariscono spontaneamente
Conta il numero di persone che NON guariscono spontaneamente
Sono uguali!
I.
II.
Potrei valutare questaprobabilità utilizzandola variabile casuale M?
E(N) = 2.4Var(N)=2.16
2323Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
EsempioSupponiamo che effettuando una misura vi siano 10 cause di errori casuali indipendenti.Per semplicità, ciascuna di queste cause produca un errore di 0.1 mm. Se con probabilità1/2 un errore casuale aumenta il valore da noi misurato e con probabilità 1/2 lodiminuisce, qual è la distribuzione del valore misurato.
Y= V + n ·0.1 - (10 - n ) ) ) ) ·0.1
Soluzione Y= valore misurato V= misura esatta, senza errori
Variabile casuale Quantità deterministica
N= numero di errori di misura che producono un aumento rispetto al valore esatto
Variabile casuale: Bi(10,1/2)
2424Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione Binomiale
Bi (5, 0.5)
Bi (5, 0.7)
Bi (5, 0.3)
Bi (6, 0.5)
2525Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Vediamo se questa macchina inquina.
Una vettura viene controllataogni anno. Sia 0.1 la probabilitàche abbia una cattiva carburazione esia 0.9 la probabilità che, in presenza cattiva carburazione i tecnici se ne accorgano imponendo la riparazione.Con quale probabilità la vettura non supera il controllo 3 volte in 8 anni?
Esercizi 1
Se c’è petroliola mia compagniaguadagna 1 milionedi dollari se non c’èperde 100000 dollari
La probabilità di trovare il petrolio èuguale a 0.1 ogni volta che si effettua una nuovatrivellazione
Quanto è in media il guadagno della compagniadopo 10 trivellazioni? Si valuti anche la varianza di tale cifra.
2626Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• Si lanciano 3 dadi. Con quale probabilità non si ottienenessun 1? In media quante volte comparirà 2?
• Calcolare 6! Calcolare 25!/23!• Calcolare i coefficienti binomiali i=0,1,2,3• Quattro bambini vengono vaccinati contro il morbillo. Il
vaccino attecchisce con probabilità 0.8, garantendol’immunità del bambino alla malattia. Con quale probabilitàtutti i bambini risultano immunizzati? Se 100 bambinivengono vaccinati, qual è il numero medio di bambiniimmunizzati? Quanto vale la varianza di tale numero?
3i
2727Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 3
• Nell’esercizio relativo ai bambini vaccinati contro il morbillo, sisupponga che se il vaccino non attecchisce il bambino si ammali conprobabilità 0.8. Con quale probabilità su 100 bambini vaccinati siriscontrano 4 casi di morbillo?
• Una popolazione si compone per il 40% di fumatori. Si sa che il 60%dei fumatori e il 7% dei non fumatori sono affetti da una malattiarespiratoria.a. Con quale probabilità un individuo scelto a caso è affetto da questamalattia?B. Con quale probabilità su 15 individui più della metà è affetto dallamalattia respiratoria?
2828Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Se oggi mangio una caramella rossa, con quale probabilità domani ne estrarrò una verde? E se invece mi mettessi a dieta e rimettessi la caramella rossanel recipiente… cambierebbe la probabilità che domani scelga una caramella verde?
Attenzione: se mangi la caramella la probabilità per domani dipende dalla scelta dioggi!Non sono quantitàINDIPENDENTI!
Estrazioni con o senza reimbussolamento
Binomiale o ipergeometrica
2929Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione Ipergeometrica/Binomiale(estrazioni senza/con reimbussolamento)
P(X=i)=ri
N-rn-i
Nn
P(X=i)= ni pi (1-p)n-i
Senza
Reimbussolamento
Con
Reimbussolamento
p ∼ r/N = 0.3
Regola pratica: se n/N ≤ 0.05 posso usare la Binomiale al posto dell’Ipergeometrica
3030Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione multinomiale
Distribuzione Binomiale: Bi(n,p)con p = k/n
Ho k palline bianche e j palline nere. Estraggo n palline con reimbussolamento. Numero di palline
bianche estratte?
Ho k palline bianche, j palline nere, i rosse e l verdi. Estraggo n palline con reimbussolamento.
Probabilità di trovarne 3 bianche2 nere, 4 rosse e 1 verde se n=10
3131Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Distribuzione di Poisson
P(X = i ) = e -λ λi
i!i = 0,1,...
3232Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Media e Varianza di una variabile di Poisson
Potrebbe esseredistribuita secondo Poisson: media e varianza sono UGUALI!
Il parametro che caratterizza ladistribuzione di Poisson è il numero
medio di conteggi.
3333Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Binomiale/PoissonLegge degli eventi RARI
Probabilità diavere i eventi inun intervallo di ampiezza t
Binomiale
Poisson
Se la probabiltà di unevento in ogni intervallino èpiccola e ho molti intervalliniposso usare Poisson invecedella Binomiale
3434Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
• La probabilità con cui si verifica un nuovo evento NON cambia seconosco QUANDO si è verificato l’evento precedente.
• In un intervallo di ampiezza finita può verificarsi un qualunquenumero di eventi. (n=0, 1,2, …)
• La probabilità che si verifichino due o più eventi in un intervallinoinfinitesimo è trascurabile (cioè o c’è un evento o non ce n’ènessuno)
Quando usare ladistribuzione di Poisson?
Numero chiamate aun centralino inun’oraè distribuita secondoPoisson?
Numero di auto in attesaal semaforo: è distribuitasecondo Poisson?
Numero di nuovi brevetti registratida un inventore in un decennio.Segue la distribuzione di Poisson?
Numero di guarigioninon imputabili allacura sono distribuitesecondo Poisson?
3535Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi: conteggio raggi cosmicie somme di variabili
• Il numero di raggi cosmici che colpisce una determinataarea in un intervallo di tempo fissato segue la distribuzionedi Poisson. Giustificare questa affermzione.
• Due studenti contano il numero di raggi che colpiscono uncontatore Geiger in un minuto ed un terzo conta quelli chelo colpiscono in 10 minuti. Ottengono, rispettivamente, 9,12 e 120. Questi risultati sono contraddittori ?
• Si considerino due variabili X e Y indipendenti distribuitesecondo Bernoulli di parametro p. Com’è distribuita lasomma X+Y ? Calcolare i valori attesi di X+Y e di X-Y
Particelle cariche protoni o particelle α
3636Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 2
• Verificare che se in il numero di raggi cosmici che colpisce uncontatore Geiger in un minuto segua la distribuzione di Poisson diparametro λ = 9, il numero di raggi che colpisce il contatore in 5minuti segue la distribuzione di Poisson di parametro λ = 45.(suggerimento: verificare che la somma di due variabili di Poissonindipendenti è ancora una variabile di Poisson con parametro sommadei parametri)
• Uno studente osserva il numero di decadimenti un campioneradioattivo in 100 intervalli disgiunti di un minuto ottenendo i seguentirisultati:
n. decadimenti ν 0 1 2 3 4 5 6 7 8 9n. volte osservate 5 19 23 21 14 12 3 2 1 0
– Tracciare un istogramma di questi risultati (utilizzare prima le frequenzeassolute e poi le relative)
– Tracciare sullo stesso grafico la distribuzione attesa se si pensa che ilcampione segua una legge di Poisson di parametro λ=3 al minuto. Qualedegli istogrammi è prossimo alla distribuzione attesa?
3737Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 3
• Nel corso di 28 giorni un allevatore osserva che le suegalline depongono in media 2.5 uova tra le 10 e le 10:30.– Con quale probabilità in 10 giorni vengono deposte almeno 2 uova
nell’orario considerato?– Assumendo che il numero di uova deposto giornalmente in tale
orario segua la distribuzione di Poisson, determinare ladistribuzione del numero di giorni in cui non vengono deposteuova nell’orario considerato.
• La distribuzione di Poisson, come ogni distribuzione, deveverificare la condizione di normalizzazione Σ P(X=i)=1.Verificare che tale affermazione è verificata.
i=0
∞
3838Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi 4
• Stabilire quale delle seguenti situazioni può veniredescritta con un modello binomiale e quale con un modelloipergeometrico:– su un autobus sono presenti 25 persone, di cui 18 occupano un
posto a sedere. 5 persone scenderanno alla prossima fermata. Qualè la probabilità che si liberino esattamente due posti a sedere?
– Il controllore sale sull’autobus, sia p=0.05 la probabilità che unpasseggero non abbia il biglietto. Con quale probabilità ilcontrollore trova due persone prive di biglietto?
– Ogni giorno arrivo alla fermata dell’autobus alle ore 8:00. Siap=0.2 la probabilità che l’autobus arrivi entro 5 minuti. Qual è laprobabilità che in un mese (30 giorni) l’autobus non arrivi maientro 5 minuti?
3939Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Spazio degli eventi Ω
Insieme di tutti i possibili esiti dell’esperimento
Può convenirmi riconoscere eventi elementari ed eventi compostila capra è a macchie: evento elementare
la capra è a macchie o è nera: evento composto Se voglio studiare lospazio campione miconviene capire qualisiano gli eventi elementariche lo compongono
4040Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Eventi Ogni esito possibile di un esperimentocostituisce un evento
Esempio: guardo il colore del vello di una capra.Eventi possibili: nero, a macchie,
nero o a macchie non nero, a macchie o nero non a macchie,….
Vorrei la probabilità di ciascunevento in base alla mia
conoscenza sui genitori dellacapra